論文メモ

Social Text Normalization using Contextual Graph Random Walks

ACL2013Hany Hassan, Arul Menezes Microsoft ResearchOOVのNormalization 昨年、ちらほらRandom Walkが熱いと聞いていたので、さっそくチェック。 OOVを正規化する上で 1. 辞書に含まれていない多くの単語やNEは正規化するべきではない。 2. 同じOOVでも文…

Beyond Normalization: Pragmatics of Word Form in Text Messages

IJCNLP2011Tyler Baldwin, Joyce Y. Chai Michigan State UniversityOOVの正規化論文。 この論文では、OOVというのは単にIVの揺れというだけではなく、感情や強調などといった書き手の気持ちが含まれていると主張している。例えば、 A: They won the game! B…

A Character-Level Machine Translation Approach for Normalization of SMS Abbreviations

IJCNLP2011Deana L. Pennell, Yang Liu The University of Texas at Dallas非常に読みづらい。わかりづらい。 本文中に出てくる数字の意味がわからなかったり、図表が説明不足or本文と一致がとれなかったりで私には理解できなかった。 英語力の問題ならいつ…

Improving Text Normalization Using Character-blocks based Models and System Combination

COLING2012Chen Li and Yang Liu Department of Computer Science The University of Texas at Dallas細かいことを色々やっているが、そのあたりは省略。 大きなポイントだけおさえる。筆者らの言葉を使えば、character-levelの機械翻訳(MT)をcharacter-bl…

A Broad-Coverage Normalization System for Social Media Language

ACL2012Fei Liu, Fuliang Weng, Xiao Jiang Research and Technology Center, Robert Bosch LLCTwitterを対象にしたテキストNormalizationの論文。 人間の知覚に基づいた3つのアプローチにより正規化候補を算出する。 それぞれ、 Enhanced letter transform…

Named Entity Disambiguation in Streaming Data

ACL2012Alexandre Davis, Adriano Veloso, Altigran S. da Silva, Wagner Meira Jr., Alberto H.F.Laender Federal University of Minas Gerais, Federal University of AmazonasこちらもNENの論文。 相変わらず読み込んでいないし読み込んでいない論文が多…

Joint Inference of Named Entity Recognition and Normalization for Tweets

ACL2012Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou Harbin Institute of Technology, Microsoft Research Asia, and othersNamed Entity Recognition (NER)とNamed Entity Normalization (NEN)に関する論文。 Twitterはリアルタイムの…

Automatically Constructing a Narmalisation Dictionary for Microblogs

ACL2012Bo Han, Paul Cook, Timothy Baldwin The University of Melbourneタイトルからすると自動で崩れた表現と正規化表現の辞書を構築するという、とても興味深いもの。 英語の崩れた表現、例えば"2morrow"と"tomorrow"みたいなペアを作る。従来研究には、…

Robust kaomoji detection in Twitter

Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat Oregon Health & Science University辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。 Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。 9193のサンプル…

Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-

Tanaka Kumiko University of Tokyo仮説は二つ。 連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。 連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。連接確率を学習させるので、Unsupervis…

Insertion, Deletion, or Substitution? Normalizing Text Messages without Pre-categorization nor Supervision

ACL2011 Fei Liu, Fuliang Weng, Bingqing Wang, Yang Liu口語表現を文語表現に正規化する。 アノテーションデータを作らず、自動でwebから収集するらしい。 Edinburgh Twitter corpusには、400万語のout-of-vocabularyがあるらしい。 たとえば、"together"…

点予測による形態素解析

NL198 2010 中田陽介、NEUBIG Graham、森信介、河原達也SVMベースの形態素解析 単語分割と品詞推定を別でやるところに特徴がある。 従来手法では、分を形態素列とみなし、形態素解析を単語分割と品詞推定を同時に行う系列ラベリングの問題として扱っている。…

A survey of named entity recognition and classification

David Nadeau, Satoshi Sekineサーベイ論文。 分野を知らない人にとっては、サーベイ論文ほど助かる論文はない。 もっと定期的にサーベイ論文が出るといいですね。 1991年から2006年をまとめた論文。 1991〜1995年まではヒューリスティックス中心。 1996年に…

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments

ACL2011 Kevin Gimpel, Nathan Schneider, Brendan O'Connor, Dispanjan Das, Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, Noah A. Smith 共著者多すぎ。 Twitterを対象としたPOS Tagging。精度は90%。データセット…

Named Entity Recognition in Tweets: An Experimental Study

ACL2011 Alan Ritter, Sam Clark, Mausam and Oren EtzioniTwitterを対象としたNER。 POS TaggingとChunking込み。Twitterを解析する上で大きく2つ課題がある。 1点目 データスパースネス 企業名や商品名、バンド、映画などなど、新語はたくさんでるけど、…

構文・照応・評価情報つきブログコーパスの構築

橋本力, 黒橋禎夫, 河原大輔, 新里圭司, 永田昌明 黒橋研で構築したブログコーパス(アノテーション付き)。通称KNB。 不明瞭な文境界、括弧表現、誤字、方言、顔文字などに対応。 ブログ記事は大学生81名に「京都観光」「携帯電話」「スポーツ」「グルメ」…

形態論的制約を用いたオンライン未知語獲得

村脇有吾, 黒橋禎夫JUMANの未知語対応。 JUMANは、いくつかの崩れた表現にも対応している。オンライン学習の考え方に近い形で実現。 (オンラインって言葉には、いつも違和感を感じる) つまり、未知語を見つけたら逐次辞書を更新する、というもの。未知語の…

nグラム統計によるコーパスからの未知語抽出

情報処理学会論文誌, Vol.39, No.7, July 1998 森信介, 長尾眞Nグラム統計モデルを使って未知語周辺の情報から未知語の品詞を推定。 未知語はJUMANで取得。 NグラムモデルはEDRコーパス利用。 実験 EDRコーパスと日経サイエンスを対象 未知語は以下の品詞を…

日本語話し言葉コーパスの形態素解析

内元清貴, 野畑周, 山田篤, 関根聡, 井佐原均 日本語話し言葉コーパスのアノテーションを半教師あり学習で行う。 形態素解析は最大エントロピー(ME)モデル。 実験 アノテーション済みのコーパスを学習とテストに分ける。 今回、フィラーや言いよどみは対象…

ブログ的表記を正規化するためのルール自動生成方式の提案と評価

DBSJ Journal, Vol.8, No.1, June 2009 池田和史, 柳原正, 松本一則, 滝嶋康弘 修正ルールの種を与え、汎用化や特殊化を自動で行う手法。 従来研究 人手でルールを記述する。 チャットデータや口語的表現、話し言葉の特徴を分析して、網羅的にルールを作る。…

Lexical Normalisation of Short Text Messages: Makn Sens a #twitter

ACL2011 Bo Han, Timothy Baldwin※英語力の問題で正しくないかもしれないTwitterのテキストをフォーマルなテキストに正規化する。 文字の編集距離、発音の編集距離、とかを利用。 (suffix substring, prefix substring, etc) Twitterでは、独特の表現が多…

Recognizing Named Entities in Tweets

ACL2011 Xiaohua Liu, Shaodian Zhang, Furu Wei, Ming ZhowTwitterから半教師あり学習で固有表現を抽出する。 K-Nearest Neighbors (KNN)とConditional Random Fields (CRF)を組み合わせた手法。普通はアノテーション済みのコーパスをCRFとかHMMとかで学習…