Improving Text Normalization Using Character-blocks based Models and System Combination
COLING2012
Chen Li and Yang Liu
Department of Computer Science The University of Texas at Dallas
細かいことを色々やっているが、そのあたりは省略。
大きなポイントだけおさえる。
筆者らの言葉を使えば、character-levelの機械翻訳(MT)をcharacter-block-levelで行ったという論文。
先程もいったが、それだけだとイマイチ進歩性にかけるため、多くの細かい工夫を行なっている。・・・が、読み込んでいないので省略。
筆者らの手法は4つのサブシステムで構成される。
Character-Block Level MT
(たぶん人手で集めた)60個のcharacter-blockとその発音ペアを使う。
例えば、"yesterday"なら、"y e s t er d ay"というようなBlockになる。
このBlockでMTをかける。
Character-Block Level Sequence Labeling
CRFでラベリング。BILOUスキーマ。
基本的にはLiu et al. (2011)の論文と同じ。
違いはCharacterのかわりにCharacter-Blockを用いる点。
特徴量としては、Character-Blockを対象に
1. 表層
2. 音韻 (Phonetic)
3. 音節 (Syllable)
4. 単語単位
でBILOUスキーマを割り当てる。
Character-level Two-step MT
筆者らの以前の仕事を少し改善して利用。
OOVのある文字を直接IVのある文字に置き換えるのではない。
OOVのある文字を、まずphonetic sequenceに変換する。そしてそれを任意の文字(列)に変換する。
改善ポイントは、
1. いくつかの人手で定義した対象は、two-stepではなくone-stepで直接変換してしまう。
2. リランキングを行う(細かすぎるため省略)
Spell Checker
Jazzy Spell Checkerを利用
以上の4つを組み合わせ、N bestのNormalizationシステムを組み上げる。
組み合わせ方にはかなり細かい工夫があり、細かすぎるため省略。
実験の結果、Liu et al. (2012)やHan and Baldwin (2011)など、ACLに採用された論文がいい結果を出している。提案手法も実験セットによってはよい結果を出している。
細かすぎるので読み飛ばしてしまったが、そこに注目すべきかも。
後日リバイズ・・・するか、だれかのブログでも探すか。