2012-12-08から1日間の記事一覧

2012-12-08

Robust kaomoji detection in Twitter

論文メモ

Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat Oregon Health & Science University辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。 Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。 9193のサンプル…

2012-12-08

Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-

論文メモ

Tanaka Kumiko University of Tokyo仮説は二つ。連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。連接確率を学習させるので、Unsupervis…