A Broad-Coverage Normalization System for Social Media Language

ACL2012

Fei Liu, Fuliang Weng, Xiao Jiang
Research and Technology Center, Robert Bosch LLC

Twitterを対象にしたテキストNormalizationの論文。
人間の知覚に基づいた3つのアプローチにより正規化候補を算出する。
それぞれ、
Enhanced letter transformation
Visual priming
String and phonetic similarity


Enhanced Letter Transformation
noisy channel modelでOOVの元となるIVを探す。
このとき、acronym (e.g. "bbl" for "be back later") は本論文では対象としない。
BackgroundコーパスでUnigramモデルを作って、そのデータを利用してnoisy channel modelを解く。
学習モデルにおけるOOVとIVのペアは、Google searchを使ったLiuらの論文(Liu 2011, "Insertion, deletion, or substitution? Normalizing text messages without pre-categorization nor supervision", ACL)で自動的に作る。
OOVの文字はそれぞれ
(a) 0-9の数字のどれかに対応
(b) アルファベット26文字のどれかに対応(自身を含む)
(c) nullにする
(d) いくつかのコンビネーションにする(ah, ai, aw, ay, ck, ea, ey, ie, ou, te, wh)
というように、IVの各文字と対応つける。
ここで作ったIVとOOVのペアは非常に雑多であるため、
1. phoneme boundary, syllable boundary, morpheme boundaryそしてword boundaryを考慮
2. globalな文脈を考慮
以上の2点により、質の向上を図っている。

Globalな文脈考慮
OOVがIVのLexical variantsならば、両者の前後に現れる単語も類似するはず。
そこで、前後に出現する単語をカウントし、上位100語をOOVまたはIVの文脈単語ベクトルとし、コサイン類似度で類似度を図る。
単語の重みはTFIDF。
※少し特殊なTFIDFで、なんか正規化が重複してかかっているような印象を受けた。
一定の類似度(Θ>0.0003)を持つペアだけに限定し、46288ペアから5000ペアに限定して実験に用いる。
※類似度を測った意味があったのか。結局トップ5000なのでは?

Phoneme-,syllable-, morpheme-, word-boundary考慮
Phoneme-, syllable-, morpheme-, word-levelで、BILOU tagging schemeとCRFでタグ付け。BILOUは、それぞれBegin, Inside, Last, OutsideおよびUnit-lengthの頭文字。
これにより、OOVとIVの対応付けが、1文字ごとの対応から数文字での対応を見るというような形になる。noisy channel modelで類似度を算出。


Visual Priming Approach
簡単に言ってしまえば、LCS (Longest Common Subsequence) を見ましょうということ。
log(TF(IV)) X [LCSの長さ] / [OOVの長さ]
※つまり、IVがよく使われやすい単語で、かつIVの先頭か末尾が少しだけ編集(追加、削除、置換)されているOOVはペアですよってことだね。


String/Phonetic similarity
Jazzy spell checkerを使った。


以上、3つの方法を紹介した。
3つの手法をどう混ぜるか
Oracle設定 各結果のtop nを集める(合計3n)。
Word-level設定 "Letter Tran"と"Spell Checker"からtop 3を収集(ただし、それぞれに閾値を設けるので、必ずしも3つずつではない)+n個になるまで"Visual Priming"で埋める。
Message-level設定 Word-level設定に対し、local contextを使ったViterbi decoding processによりリランキング。


実験
結果については論文を参照。
Visual Primingがいい感じという結論。
文脈情報を利用したリランキングにより、精度は大幅に改善する。


※ところどころよく分からない部分があった。
※実験については、もう少しなんとかならなかったのか。
※Normalize手法については、新しくはないがもっともらしいことをやっているので、参考になった。