Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments

ACL2011
Kevin Gimpel, Nathan Schneider, Brendan O'Connor, Dispanjan Das, Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, Noah A. Smith

共著者多すぎ。
Twitterを対象としたPOS Tagging。精度は90%。データセット公開してるらしい。
http://www.ark.cs.cmu.edu/TweetNLP

POS大系はPenn Treebank。
追加でURLやHashtag、＠ユーザ名、感情（たぶん顔文字）、非公式RT

英語圏のツイート限定でデータを集め、Twitter TokenizerとStanford Taggerとヒューリスティックスによりある程度自動でタグをつけておく。
それから17人の研究者でタグ付け開始。
2人ペアでつけたタグを比較し、agreement rate 92.2%、Cohen's k value 0.914。

Tag Set
HashTagは#tagnameで表されるのだが、いくつかの例で#がなくてもHashTagに分類できるものがある。
調査の結果、148個の#なしHashTagが見つかった。なかにはMulti Wordも。
※なかなかに定義の難しいことしてるな・・・

あと、省略形。たとえば"ima"は"i'm gonna"。
これはこれで新しくTagを設計。
{nominal, proper nou} x {verb, possessive}の組み合わせで表される4つのタグ。

タグは全部で25種類。
24種類で抑え切れない、分類できないものはGというタグをつけた。

識別はCRF。素性は
word type、数値かハイフンを含むかどうか、suffixの文字（3字まで）、Capitalization pattern。
※たぶん、従来で使われる素性ももちろん入れてるとおもわれる。

追加で、
at-mention、hashtagなどTwitter specificな素性
よくcapitalizedされる単語かどうか
従来使われるタグ辞書
音素的な正規化

精度は89%前後。
Stanford Taggerが85%前後。

課題としてはproper noun。
やはりCapitalizationは重要な素性で、Twitterでは文法的に正しい使われ方をしていないことがあり、うまく取れない。
あとはmiscellanneous category (G) に分類したもの。
※結果見る限りでは、proper noun + possessive (Z) も相当悪い。

少し読み飛ばしたが、素性自体は比較的普通。
でも、アノテーションがおもしろい。アノテーションつけるのはかなり難しいと思うけど、一致率高いな。

もしかしたら一致したところはStanford TaggerがつけたPOSかも。
失敗するようなところってのはStanford Taggerでも2割程度。
人の手で修正して一致するのはその内の1割。
残りの1割は人でも判断できない難しい問題なのかも。
そこをうまく大系づけることが今後のミッションかな。
言葉って明確に分類できなかったりして難しい。