2012-05-01から1ヶ月間の記事一覧
ACL2011 Alan Ritter, Sam Clark, Mausam and Oren EtzioniTwitterを対象としたNER。 POS TaggingとChunking込み。Twitterを解析する上で大きく2つ課題がある。 1点目 データスパースネス 企業名や商品名、バンド、映画などなど、新語はたくさんでるけど、…
橋本力, 黒橋禎夫, 河原大輔, 新里圭司, 永田昌明 黒橋研で構築したブログコーパス(アノテーション付き)。通称KNB。 不明瞭な文境界、括弧表現、誤字、方言、顔文字などに対応。 ブログ記事は大学生81名に「京都観光」「携帯電話」「スポーツ」「グルメ」…
村脇有吾, 黒橋禎夫JUMANの未知語対応。 JUMANは、いくつかの崩れた表現にも対応している。オンライン学習の考え方に近い形で実現。 (オンラインって言葉には、いつも違和感を感じる) つまり、未知語を見つけたら逐次辞書を更新する、というもの。未知語の…
情報処理学会論文誌, Vol.39, No.7, July 1998 森信介, 長尾眞Nグラム統計モデルを使って未知語周辺の情報から未知語の品詞を推定。 未知語はJUMANで取得。 NグラムモデルはEDRコーパス利用。 実験 EDRコーパスと日経サイエンスを対象 未知語は以下の品詞を…
内元清貴, 野畑周, 山田篤, 関根聡, 井佐原均 日本語話し言葉コーパスのアノテーションを半教師あり学習で行う。 形態素解析は最大エントロピー(ME)モデル。 実験 アノテーション済みのコーパスを学習とテストに分ける。 今回、フィラーや言いよどみは対象…
DBSJ Journal, Vol.8, No.1, June 2009 池田和史, 柳原正, 松本一則, 滝嶋康弘 修正ルールの種を与え、汎用化や特殊化を自動で行う手法。 従来研究 人手でルールを記述する。 チャットデータや口語的表現、話し言葉の特徴を分析して、網羅的にルールを作る。…
ACL2011 Bo Han, Timothy Baldwin※英語力の問題で正しくないかもしれないTwitterのテキストをフォーマルなテキストに正規化する。 文字の編集距離、発音の編集距離、とかを利用。 (suffix substring, prefix substring, etc) Twitterでは、独特の表現が多…
ACL2011 Xiaohua Liu, Shaodian Zhang, Furu Wei, Ming ZhowTwitterから半教師あり学習で固有表現を抽出する。 K-Nearest Neighbors (KNN)とConditional Random Fields (CRF)を組み合わせた手法。普通はアノテーション済みのコーパスをCRFとかHMMとかで学習…