点予測による形態素解析

NL198 2010
中田陽介、NEUBIG Graham、森信介、河原達也

SVMベースの形態素解析
単語分割と品詞推定を別でやるところに特徴がある。


従来手法では、分を形態素列とみなし、形態素解析を単語分割と品詞推定を同時に行う系列ラベリングの問題として扱っている。
大きく、2つの系統に分けられ、ヒューリスティックスに基づく手法と、コーパスから規則などを学習する手法がある。

ヒューリスティックスに基づく手法はJUMANがある。
品詞間での連接コストや単語の生起コストを人手で与え、微妙なコスト調整が必要であるため、人的コストが高い。

コーパスに基づく手法は、連接コストや単語の生起コストをHMMのパラメータとみなす。
他にはCRFがある。
※最近調べた論文ではME (Maximum Entropy) なんかもそうだろう。

どちらにせよ、分野適用性が低く、標準文書(新聞)以外の文書については、解析精度が著しく低下することが知られている。


提案手法は点予測。

点予測による単語分割
単語分割の考え方は、
「現在注目している文字境界が分割ポイントになるか否か」
というものである。

素性は、

文字N-gram:窓幅"m"と長さ"n"を与えたとき、まず境界位置"i"の前後"i-m"から"i+m"までの部分文字列をとり、"n"以下の長さの全ての部分文字列をとる。

文字種N-gram:文字を文字種に変換した列であり、基本的な考え方は文字N-gramと一緒。文字種は、漢字(K)、カタカナ(k)、ひらがな(H)、ローマ字(R)、数字(N)、その他(O)の6つ。

単語辞書素性:位置iを始点とする単語、終点とする単語、内包する単語があるか否かのフラグと、その単語の長さ。


点予測による品詞推定
単語分割後に推定開始。
従来手法は、単語列を入力とする。
提案手法は、推定対象の単語と前後の文字列。
つまり、周囲の単語や品詞の推定結果を一切利用しない。

品詞の推定方法は4種類
1. 学習コーパスに品詞候補が複数出現する単語は、分類器で多値分類
2. 学習コーパスに品詞候補が1つの場合は、その品詞
3. 学習コーパスに品詞候補がないが辞書にはある場合、辞書の最初の品詞
4. 学習コーパスにも辞書にもない場合、名詞

素性は、
文字N-gram:単語境界のときとほぼ一緒
文字種N-gram:単語境界のときとほぼ一緒

単語ごとに多値分類
one v.s. rest


評価
線形SVM、"n=3"、"m=3"
精度はMecab-0.98とほぼ同程度


なかなか興味深い。
品詞推定方法に疑問はあるが、それでも精度はかなりよい。
学習コーパスがかなり充実しているのではないか?
分野適用性の柔軟さがあるという主張だが、そこまでではない印象。