Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-

Tanaka Kumiko
University of Tokyo

仮説は二つ。
連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。
連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。

連接確率を学習させるので、Unsupervisedで出来る。

文字にすると説明が難しいが、要約すると、

1. 文字列がある
2. 単語区切りを適当に与える
3. 各Tokenと全体のエントロピーを図る
4. 単語区切りを適当に変える
5. 各Tokenと全体のエントロピーを図る
6. エントロピーが増加していればそっちのほうがよい

そんな感じなのだろうか。単語区切りの与え方はもっとなんかやっている気がするが、そこまで読み込めていない。
もっともな理論だが計算時間が問題になりそう。

実験結果を見る限りでは、なかなか精度がよさそう。