2012-06-01から1ヶ月間の記事一覧

Insertion, Deletion, or Substitution? Normalizing Text Messages without Pre-categorization nor Supervision

ACL2011 Fei Liu, Fuliang Weng, Bingqing Wang, Yang Liu口語表現を文語表現に正規化する。 アノテーションデータを作らず、自動でwebから収集するらしい。 Edinburgh Twitter corpusには、400万語のout-of-vocabularyがあるらしい。 たとえば、"together"…

点予測による形態素解析

NL198 2010 中田陽介、NEUBIG Graham、森信介、河原達也SVMベースの形態素解析 単語分割と品詞推定を別でやるところに特徴がある。 従来手法では、分を形態素列とみなし、形態素解析を単語分割と品詞推定を同時に行う系列ラベリングの問題として扱っている。…

A survey of named entity recognition and classification

David Nadeau, Satoshi Sekineサーベイ論文。 分野を知らない人にとっては、サーベイ論文ほど助かる論文はない。 もっと定期的にサーベイ論文が出るといいですね。 1991年から2006年をまとめた論文。 1991〜1995年まではヒューリスティックス中心。 1996年に…

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments

ACL2011 Kevin Gimpel, Nathan Schneider, Brendan O'Connor, Dispanjan Das, Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, Noah A. Smith 共著者多すぎ。 Twitterを対象としたPOS Tagging。精度は90%。データセット…