ブログ的表記を正規化するためのルール自動生成方式の提案と評価

DBSJ Journal, Vol.8, No.1, June 2009
池田和史, 柳原正, 松本一則, 滝嶋康弘


修正ルールの種を与え、汎用化や特殊化を自動で行う手法。


従来研究
人手でルールを記述する。
チャットデータや口語的表現、話し言葉の特徴を分析して、網羅的にルールを作る。
専門知識が必要であり、人的コストも高い。


提案手法
修正ルールの種(プリミティブルール)を与える。
・母音を「ー」にする
・小文字を大文字にする
・カタカナをひらがなにする
・etc...

ルールを適用し
・適用後に形態素解析を行い、適用数と正解率を調べる
・適用数と正解率によってランキング(スコアリング)を行う

ルールが適用された事例を調査し
・LCSのような考え方で、限定的(ルールの特殊化)な修正ルールを作成する
・特殊化されたルールの部分文字列を使い、適用範囲を拡張する(ルールの汎用化)修正ルールを作成する

上記工程を繰り返し行い、ルールをブラッシュアップする。
それでも未知語が存在する場合、出現頻度の高い未知語から順番に作業者に確認させる。


実験
MeCab+IPADIC
200万文のブログコーパス(325,384件の未知語)に対し、58,523文にルールが適用され、54%の形態素区切りが改善、10%程度悪化した。
※数値の見方がよくわからないので、どの程度の効果があるのか正確にはわからなかった。
※従来手法も適用したルールの詳細は不明なので、提案手法がよいかどうかはわからない。
アルゴリズム自体は合理的、だが新しいというわけではない