Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-
Tanaka Kumiko
University of Tokyo
仮説は二つ。
連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。
連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。
連接確率を学習させるので、Unsupervisedで出来る。
文字にすると説明が難しいが、要約すると、
1. 文字列がある
2. 単語区切りを適当に与える
3. 各Tokenと全体のエントロピーを図る
4. 単語区切りを適当に変える
5. 各Tokenと全体のエントロピーを図る
6. エントロピーが増加していればそっちのほうがよい
そんな感じなのだろうか。単語区切りの与え方はもっとなんかやっている気がするが、そこまで読み込めていない。
もっともな理論だが計算時間が問題になりそう。
実験結果を見る限りでは、なかなか精度がよさそう。