A survey of named entity recognition and classification

David Nadeau, Satoshi Sekine

サーベイ論文。
分野を知らない人にとっては、サーベイ論文ほど助かる論文はない。
もっと定期的にサーベイ論文が出るといいですね。


1991年から2006年をまとめた論文。
1991〜1995年まではヒューリスティックス中心。
1996年にワークショップ(的なイベント)開催。MUC-06。
それから、HUB-4、MET-2、IREX(知ってる!)、CONLL(知ってる!)、HAREM、LREC(知ってる!)と開催。

タスクの説明は省略

2006年以降のトレンドは教師あり、半教師あり学習
教師あり学習は、Hidden Markov Models (HMM) から始まり、Decision TreesやMaximum Entropy Models、Support Vector Machines、そしてConditional Random Fieldsとすすむ。
※現在はConditional Random FieldsがMajorな手法

教師あり学習が流行ったのは、ひとえにアノテーション作業の手間ゆえ。
Bootstrappingでアノテーションデータを増やすことが大きな目的。

教師なし学習は、クラスタリング
これは、「同じ品詞を持つ単語は周辺の単語が似てるでしょ」って仮定のもとになりたっている。


学習素性(NEの場合)

単語レベルの特徴系

先頭文字がCapitalizationかどうか
すべてUppercaseかどうか
UpeercaseとLowercaseのMixかどうか

ピリオドでおわるか
ピリオドが間に入るか
アポストロフィが入るか
ハイフンかアンパーサンドがあるか

数字のパターン(日付形式、などなど)
Cardinal Number
Ordinal Number
Roman Number
数字が含まれる単語かどうか

possessive mark(所有形ってことかな)
一人称代名詞
Greek letters

prefix
suffix
単数形
stem
Common ending (ishとかistとか)

proper name
verb
noun
foreign word

Alpha(フィルタ、アルファベットだけ通過)
non-alpha(フィルタ、アルファベット以外通過)
n-gram
lowercase
uppercase version
pattern(文字種に変換、大文字or小文字or数字or記号orなどなど)
summarized pattern(文字種に変換、ただし同じ文字種はまとめる)
文字長
フレーズ長


辞書参照系

辞書 (gazetteer?とかlexiconとかontologyとか)
ストップワード
Capitalized noun (Januaryとか)
Common abbreviation

Entity(Organizationとか)

Entityの特徴
 organizationでよく用いられる語
 person title, name prefix, post-nominal letters
 locationでよく用いられる語, cardinal point


文書やコーパスの特徴系

テキスト中の別の単語(正規化みたいなもん)
UppercasedとLowercasedの共起
Anaphora
Coreferrenceとalias

Enumeration
Apposition
センテンスでの場所、段落での場所、文書での場所

URI
Email header
XML section
箇条書きかどうか
番号付きリストかどうか

単語またはフレーズの頻度
共起
複合語(選別する)



あとは精度についてチラホラ。
かなり訳が大雑把になってしまった。
素性について詳細に書いてあるのは助かる。
それも大雑把に書いたから、実際に論文を閲覧してチェックしなおす必要がある。