2012-12-08から1日間の記事一覧
Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat Oregon Health & Science University辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。 Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。 9193のサンプル…
Tanaka Kumiko University of Tokyo仮説は二つ。 連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。 連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。連接確率を学習させるので、Unsupervis…