2012-12-08から1日間の記事一覧

Robust kaomoji detection in Twitter

Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat Oregon Health & Science University辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。 Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。 9193のサンプル…

Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-

Tanaka Kumiko University of Tokyo仮説は二つ。 連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。 連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。連接確率を学習させるので、Unsupervis…