Beyond Normalization: Pragmatics of Word Form in Text Messages

IJCNLP2011

Tyler Baldwin, Joyce Y. Chai
Michigan State University

OOVの正規化論文。
この論文では、OOVというのは単にIVの揺れというだけではなく、感情や強調などといった書き手の気持ちが含まれていると主張している。

例えば、
A: They won the game!
B: Yessssss
という文脈があると、"Yessssss"には単に"Yes"だけではなく、興奮などの感情が込められている。


コーパス作成
人手である程度整備した辞書(CMU pronouncing dictionary)に含まれていない単語をOOVとする。
Amazon Mechanical Turkを利用し、3人のアノテイターに以下のタグ付けをお願いした。
※3人とは少ないな・・・

1. 対応するIVを書く。
2. Fear, surprise, happiness, disgust, sadness, anger, other, noneから選ぶ
3. Friendliness/closeness, emphasis, other, noneから選ぶ
4. Extra information, to save time or space, unintentional mistake, otherから選ぶ

2については、ほぼNoneになった。次ぐのはHapiness。
3については、NoneとEmphasisが高い。
4については、約半数がExtra informationだった。


4の結果を踏まえ、OOVがExtra Informationを含むかどうかを判定する二値分類を行った。
素性は、
1. Character level features
同じ文字が二度以上使われているかどうか
一番多い文字は何か
IVから消された文字は何か
編集距離
IVより長い文字長か。
concatenated wordかどうか
数字を含むか
英数字(alphanumeric)を含むか
全部大文字かどうか
2. Punctuation features
続く文字がコンマ、ピリオド、クエスチョンマーク、ビックリマーク、もしくは顔文字かどうか
3. Positional features
文の最初か、最後か、途中か、単体か

SVMで学習識別したところ、72.4%のAccuracyが出た。



もう一歩踏み込むとおもしろいかな。