Automatically Constructing a Narmalisation Dictionary for Microblogs

ACL2012

Bo Han, Paul Cook, Timothy Baldwin
The University of Melbourne

タイトルからすると自動で崩れた表現と正規化表現の辞書を構築するという、とても興味深いもの。
英語の崩れた表現、例えば"2morrow"と"tomorrow"みたいなペアを作る。

従来研究には、
編集距離を使ったスペルチェック
Machine translationの枠組み
Distributional/string similarity
など。
提案手法は文脈情報を使う。

具体的に言うと、OOVの単語と似た文脈で使われる語をIVの候補とする。
OOV/IVの直近の単語やそのN-gramなどなどでベクトルを作る。
類似度の判定は、Kullback-LeiblerやJensen-Shannon、Euclidean distance、Cosine distanceなどメジャーなもの。

OOVの定義は、辞書になくて、対象コーパスで64回以上出現、かつ文字長が4以上。
上記手法でOOVとIVのペアを作った後、そのペアが正しいかどうか、Amazon Mechanical Turkで評価。OOVの63.3%は正しいペアがある（正解率ではない）ことがわかった。

ひとつのOOVにいくつかのIV候補があるわけだが、候補についてリランキングを行う。
方法は、
リランキングしない（文脈類似度のみ）
コーパスでの出現頻度が多いOOVを上位にする
Google Web 1T corpusでの出現数が多いIV

評価
ちょっとよくわからないが、比較に辞書を使っている、もしくは組み合わせている？
文脈類似度のペアの精度はP 0.47 R 0.22 F 0.30とイマイチ。
辞書の組み合わせで一番よいのが、P 0.85 R 0.63 F 0.72とかなりよい。

読んだ感想としては、
文脈を見ればOOVの正規化表現IVはある程度候補を集められる。しかし、網羅率はせいぜい6割。ここから文脈の類似度や編集距離を突き詰めても、そこまで精度よく答えを求められない。
正解率をあげるためには、既存の辞書を使うほうがよい。
既存の辞書は網羅率が低い、提案手法は正解率が低い、組み合わせてもそこまで精度がよくならない気がするが、そこはうまく工夫したのだろう。

あまり読み込んでいないのでなんとも言えないが、かなりいろいろ検討工夫している様子。ただし、手法自体に独自性があるとは感じなかったので、もっともらしい手法を丁寧にやったのだろう。丁寧にやるのは大事。