2012-12-01から1ヶ月間の記事一覧

Named Entity Disambiguation in Streaming Data

ACL2012Alexandre Davis, Adriano Veloso, Altigran S. da Silva, Wagner Meira Jr., Alberto H.F.Laender Federal University of Minas Gerais, Federal University of AmazonasこちらもNENの論文。 相変わらず読み込んでいないし読み込んでいない論文が多…

Joint Inference of Named Entity Recognition and Normalization for Tweets

ACL2012Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou Harbin Institute of Technology, Microsoft Research Asia, and othersNamed Entity Recognition (NER)とNamed Entity Normalization (NEN)に関する論文。 Twitterはリアルタイムの…

Automatically Constructing a Narmalisation Dictionary for Microblogs

ACL2012Bo Han, Paul Cook, Timothy Baldwin The University of Melbourneタイトルからすると自動で崩れた表現と正規化表現の辞書を構築するという、とても興味深いもの。 英語の崩れた表現、例えば"2morrow"と"tomorrow"みたいなペアを作る。従来研究には、…

Robust kaomoji detection in Twitter

Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat Oregon Health & Science University辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。 Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。 9193のサンプル…

Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-

Tanaka Kumiko University of Tokyo仮説は二つ。 連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。 連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。連接確率を学習させるので、Unsupervis…