形態論的制約を用いたオンライン未知語獲得

村脇有吾, 黒橋禎夫

JUMANの未知語対応。
JUMANは、いくつかの崩れた表現にも対応している。

オンライン学習の考え方に近い形で実現。
(オンラインって言葉には、いつも違和感を感じる)
つまり、未知語を見つけたら逐次辞書を更新する、というもの。

未知語の同定は、ヒューリスティクス
カタカナ語に特化している気がする。
未知語を同定し、未知語前後の文字列により品詞を同定する。
※「nグラム統計によるコーパスからの未知語抽出」に近い

逐次辞書を更新するため、かなりPrecision重視にチューニングする必要がある。
終了条件(品詞同定)は2つ。
前方境界の妥当性チェック。これは、前方に句読点などの境界マーカーが出現するかどうかをスコアリングし、設定した閾値以上が条件。
活用型の異なり数チェック。これは、特定のパターンだけ頻出するわけではなく、品詞にあった活用型をある程度網羅しているかをチェック。


単語によっては、例えば「楽し-い」と「楽し-む」のような品詞の衝突を起こす場合がある。
しかし、その衝突が同一テキストで起こるということは稀だと考え、特に考慮しない。
提案手法はテキストを逐次的に解析するため、同じ文字列で複数の品詞が逐次的に登録される。

当然、獲得済みの形態素が獲得した形態素によって分割できる場合がある。
チェックは、まず既存形態素辞書のうち部分文字列で新形態素を含むものを見つける。
ある場合、当該形態素を辞書から削除し、新形態素を辞書登録した上で、当該形態素形態素解析する。
形態素によって分割が起こらなければ、当該形態素も辞書に残す。
※少し、違和感がある。ほぼ分割されうるのではないか?


課題
字種が混在する形態素は難しい。(「ドジっ娘」「シャ乱Q」など)
登録済みの形態素異表記もあった(「すごい」⇔「スゴい」、「解かる」⇔」「解る」など)
過分割(「アブラハム」→「アブラ」と「ハム」)
ひらがな表記の未知語は曖昧性が高く、困難。



これも中々に直感的。ただ、課題も多い。
ひらがな表記の未知語が困難だ、という論文が続いたが、どれくらい出現するんだろう。