A Character-Level Machine Translation Approach for Normalization of SMS Abbreviations

IJCNLP2011

Deana L. Pennell, Yang Liu
The University of Texas at Dallas

非常に読みづらい。わかりづらい。
本文中に出てくる数字の意味がわからなかったり、図表が説明不足or本文と一致がとれなかったりで私には理解できなかった。
英語力の問題ならいつか理解できると信じ、一応めも。


Character-levelの機械翻訳(MT)で、Mosesを使っている。
提案手法は2ステップ。Character-levelのMT。デコード時には言語モデルを利用。
対象はAbbreviation。本論文ではOOVとIVは1:1対応という前提。


MTなので学習データを作る必要がある。
その学習データの作り方に、少し工夫がある。
対象はTweetなのだが、Tweetを適当にサンプリングしてアノテーションすると、OOVが含まれなかったり、同じOOVばかりをアノテーションすることになってしまう。
そこで、以下の5つの条件でTweetを絞り込んでいる。

1. Word Count Index
説明不足でよくわからんが、少なくとも5単語以下のTweetは対象外にしている。
2. Perplexity Scores
英語じゃないTweetを削除するため、(何を対象としたか不明だが)通常の英語文を元に構築した言語モデルでのPerplexityが1000以上、かつ
コーパス内で一般的なTweetを削除するため、(これまたどういうことか不明だが)筆者らの学習コーパスで構築した言語モデルでのPerplexityが1000以上のTweetを対象。
3. OOV Count
辞書にない単語をカウントし、一個もなければ対象外。
4. OOV Percentages
OOVのテキスト内での割合が5割以上、かつOOVの異なり数での割合が5割以下なら対象。
5. OOV Frequency Scores
コーパス内での出現が多いOOVを含むテキストを対象。

※例えば、コーパス内でのPerplexity Scoresという指標は、取り逃しが多くなりそうだから正直疑問。OOV Percentagesという指標は、OOVの割合が高すぎる上に異なり数でのフィルタリングとか意味が分からない。OOV Frequency Scoresというのは、それこそ網羅性が著しく減りそう。

上記のデータを対象に、5人の学生(と多分、第一著者)がアノテーションを実施。
(データを集めた時点でOOVはすでにアノテートされているのかもしれないが)OOVとその原型IVをアノテーションする。カッパ値は0.891とかなり高い。
※ただし、カッパ値の計算で怪しい記述があるため信じられない


ここから手法の肝となる部分なのだが・・・
一応、このあとも読んだけども、ここまでと同様に不明な点、理解できない点、信じられない点が多すぎるため、このへんで書くのはやめておこう。

つづきは今度。