2012-05-01から1ヶ月間の記事一覧

Named Entity Recognition in Tweets: An Experimental Study

ACL2011 Alan Ritter, Sam Clark, Mausam and Oren EtzioniTwitterを対象としたNER。 POS TaggingとChunking込み。Twitterを解析する上で大きく2つ課題がある。 1点目 データスパースネス 企業名や商品名、バンド、映画などなど、新語はたくさんでるけど、…

構文・照応・評価情報つきブログコーパスの構築

橋本力, 黒橋禎夫, 河原大輔, 新里圭司, 永田昌明 黒橋研で構築したブログコーパス(アノテーション付き)。通称KNB。 不明瞭な文境界、括弧表現、誤字、方言、顔文字などに対応。 ブログ記事は大学生81名に「京都観光」「携帯電話」「スポーツ」「グルメ」…

形態論的制約を用いたオンライン未知語獲得

村脇有吾, 黒橋禎夫JUMANの未知語対応。 JUMANは、いくつかの崩れた表現にも対応している。オンライン学習の考え方に近い形で実現。 (オンラインって言葉には、いつも違和感を感じる) つまり、未知語を見つけたら逐次辞書を更新する、というもの。未知語の…

nグラム統計によるコーパスからの未知語抽出

情報処理学会論文誌, Vol.39, No.7, July 1998 森信介, 長尾眞Nグラム統計モデルを使って未知語周辺の情報から未知語の品詞を推定。 未知語はJUMANで取得。 NグラムモデルはEDRコーパス利用。 実験 EDRコーパスと日経サイエンスを対象 未知語は以下の品詞を…

日本語話し言葉コーパスの形態素解析

内元清貴, 野畑周, 山田篤, 関根聡, 井佐原均 日本語話し言葉コーパスのアノテーションを半教師あり学習で行う。 形態素解析は最大エントロピー(ME)モデル。 実験 アノテーション済みのコーパスを学習とテストに分ける。 今回、フィラーや言いよどみは対象…

ブログ的表記を正規化するためのルール自動生成方式の提案と評価

DBSJ Journal, Vol.8, No.1, June 2009 池田和史, 柳原正, 松本一則, 滝嶋康弘 修正ルールの種を与え、汎用化や特殊化を自動で行う手法。 従来研究 人手でルールを記述する。 チャットデータや口語的表現、話し言葉の特徴を分析して、網羅的にルールを作る。…

Lexical Normalisation of Short Text Messages: Makn Sens a #twitter

ACL2011 Bo Han, Timothy Baldwin※英語力の問題で正しくないかもしれないTwitterのテキストをフォーマルなテキストに正規化する。 文字の編集距離、発音の編集距離、とかを利用。 (suffix substring, prefix substring, etc) Twitterでは、独特の表現が多…

Recognizing Named Entities in Tweets

ACL2011 Xiaohua Liu, Shaodian Zhang, Furu Wei, Ming ZhowTwitterから半教師あり学習で固有表現を抽出する。 K-Nearest Neighbors (KNN)とConditional Random Fields (CRF)を組み合わせた手法。普通はアノテーション済みのコーパスをCRFとかHMMとかで学習…