nグラム統計によるコーパスからの未知語抽出

情報処理学会論文誌, Vol.39, No.7, July 1998
森信介, 長尾眞

Nグラム統計モデルを使って未知語周辺の情報から未知語の品詞を推定。
未知語はJUMANで取得。
NグラムモデルはEDR コーパス利用。

実験
EDR コーパスと日経サイエンスを対象
未知語は以下の品詞を対象とした
・サ変名詞
・非サ変名詞
※名詞全般ってこと？
・ラ行五段活用動詞
・形容詞
・形容動詞
また、2文字以上、頻度10回以上、括弧を含まない文字列のみ
ひらがなのみの文字列は対象外

実験結果
EDR コーパスの実験より、精度はたぶんF値で60%くらい？
日経サイエンスの実験より、よくわからないが、未知語を268個抽出した。

この未知語を辞書登録し、形態素解析の精度の変化を見る。
形態素解析は単純マルコフモデル。EDR コーパスで学習。
精度は、95.9%から98.2%に改善。
※未知語の抽出を厳しくしたならば、日経サイエンスから得られた未知語を辞書登録して日経サイエンスの形態素解析結果がよくなるのは直感的。

課題
・ひらがなのみの文字列を失敗する
・形容動詞と名詞の識別が困難

直感的な手法なのでもっとうまくいくかと思ったが、案外よくならないようだ。
日本語って難しい。