日本語話し言葉コーパスの形態素解析

内元清貴, 野畑周, 山田篤, 関根聡, 井佐原均


日本語話し言葉コーパスアノテーションを半教師あり学習で行う。
形態素解析は最大エントロピー(ME)モデル。


実験
アノテーション済みのコーパスを学習とテストに分ける。
今回、フィラーや言いよどみは対象としない。
ただし、フィラーや言いよどみがあったことは素性として利用した。(表層は使わない)

素性
形態素(ひとつ前まで見る)
・部分文字列(先頭1文字、2文字、末尾1文字、2文字)
・辞書(辞書にある品詞)
・品詞(CSJの品詞)
・長さ(文字列の長さ)
・文字種(漢字、ひらがな、など)
・境界(文節区切りか否か)
・組(素性の組み合わせ)※カーネルトリック的なもの?

精度
形態素区切り単体でみると、97%前後
Out Of Vocabularyは短文で1.66%、長文で5.81%
失敗した例はほとんどOOV。

形態素区切りと品詞付与の精度は、95%前後
Out Of Vocabularyは短文で2.54%、長文で6.93%
※なぜOOVが増えたのか?


アノテーションさえすれば精度よくとれる。
Twitter等の口語的表現をどの程度おさえることができるのか?