Robust kaomoji detection in Twitter

Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat
Oregon Health & Science University

辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。
Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。
9193のサンプルを収集、3700の顔文字は重複なし。重複は2500。

顔文字は文字通り顔に見立てた記号群、だけではなく、文字と一緒に用いられることもある。
e.g. ( ノﾟДﾟ)おはよう♥
ある文字を手に見立てていたりと、最近の顔文字はかなり複雑。
顔文字はSymmetryという特徴がある。

顔文字抽出にあたり、まずは候補領域を抽出する。
HMMを用いて、記号群を抜くような手法。Recallを重視し、Precisionは気にしない。
よくわからないがLinguisticとNon-linguisticでそれぞれ４つのパラメーターを使ったHMMモデルらしい。
あと独自のPCFGモデルを使ってNon-linguisticな候補を評価するらしい。
この生成モデルは、たとえばFACE→a EYES bなどといった形で、顔の構成を利用したモデルとなっている。
この評価値でランキングし、上位が顔文字？