Named Entity Disambiguation in Streaming Data

ACL2012

Alexandre Davis, Adriano Veloso, Altigran S. da Silva, Wagner Meira Jr., Alberto H.F.Laender
Federal University of Minas Gerais, Federal University of Amazonas

こちらもNENの論文。
相変わらず読み込んでいないし読み込んでいない論文が多すぎるが、メモとして残す。


機械学習による分類タスク。
NEと代表表記の組みが、正解か否かを判定する。

仮説として、
アノテーションはコストがかかる。アノテーションはしきれない。
よって、正解ラベルがついたデータと大量のラベルがついていないデータがある。
それらをEMアルゴリズム再帰的に学習させることで、大量のラベルなしデータを救うことができる
というもの。
正直、従来のアノテーションデータを利用して学習し、新規データに対して抽出を行うタスク、との違いがわからない。読み込みが足りないのかも。

EMアルゴリズムを使う部分は、ざっくり説明すると以下の感じ。
ラベルつきデータを使って学習
テストデータで評価
ラベルを反転させるようなルールを適用、閾値評価により反転
上記を繰り返し、最適な閾値を算出

ラベルを反転させる理由は、テストで間違った部分(FP、FN)の再学習が目的。


論文にはいろいろ提案手法について詳しくかかれているので、そこを読み解く必要がある。
現在の認識では、やっていることがわけわからん。

おもしろいと思ったのは、少量の学習データでも大量のラベル無しデータを、精度よく抽出できていたこと。
アルゴリズムによる特徴なのかは不明。従来手法でもけっこう高かったし。

AUCによる評価って、どうやってみればいいのか調べる必要がある。
AUCってなんだっけ。