Improving Text Normalization Using Character-blocks based Models and System Combination

COLING2012

Chen Li and Yang Liu
Department of Computer Science The University of Texas at Dallas

細かいことを色々やっているが、そのあたりは省略。
大きなポイントだけおさえる。

筆者らの言葉を使えば、character-levelの機械翻訳(MT)をcharacter-block-levelで行ったという論文。
先程もいったが、それだけだとイマイチ進歩性にかけるため、多くの細かい工夫を行なっている。・・・が、読み込んでいないので省略。


筆者らの手法は4つのサブシステムで構成される。

Character-Block Level MT
(たぶん人手で集めた)60個のcharacter-blockとその発音ペアを使う。
例えば、"yesterday"なら、"y e s t er d ay"というようなBlockになる。
このBlockでMTをかける。


Character-Block Level Sequence Labeling
CRFでラベリング。BILOUスキーマ
基本的にはLiu et al. (2011)の論文と同じ。
違いはCharacterのかわりにCharacter-Blockを用いる点。
特徴量としては、Character-Blockを対象に
1. 表層
2. 音韻 (Phonetic)
3. 音節 (Syllable)
4. 単語単位
でBILOUスキーマを割り当てる。


Character-level Two-step MT
筆者らの以前の仕事を少し改善して利用。
OOVのある文字を直接IVのある文字に置き換えるのではない。
OOVのある文字を、まずphonetic sequenceに変換する。そしてそれを任意の文字(列)に変換する。
改善ポイントは、
1. いくつかの人手で定義した対象は、two-stepではなくone-stepで直接変換してしまう。
2. リランキングを行う(細かすぎるため省略)


Spell Checker
Jazzy Spell Checkerを利用



以上の4つを組み合わせ、N bestのNormalizationシステムを組み上げる。
組み合わせ方にはかなり細かい工夫があり、細かすぎるため省略。

実験の結果、Liu et al. (2012)やHan and Baldwin (2011)など、ACLに採用された論文がいい結果を出している。提案手法も実験セットによってはよい結果を出している。



細かすぎるので読み飛ばしてしまったが、そこに注目すべきかも。
後日リバイズ・・・するか、だれかのブログでも探すか。