2012-05-29から1日間の記事一覧

構文・照応・評価情報つきブログコーパスの構築

橋本力, 黒橋禎夫, 河原大輔, 新里圭司, 永田昌明 黒橋研で構築したブログコーパス(アノテーション付き)。通称KNB。 不明瞭な文境界、括弧表現、誤字、方言、顔文字などに対応。 ブログ記事は大学生81名に「京都観光」「携帯電話」「スポーツ」「グルメ」…

形態論的制約を用いたオンライン未知語獲得

村脇有吾, 黒橋禎夫JUMANの未知語対応。 JUMANは、いくつかの崩れた表現にも対応している。オンライン学習の考え方に近い形で実現。 (オンラインって言葉には、いつも違和感を感じる) つまり、未知語を見つけたら逐次辞書を更新する、というもの。未知語の…

nグラム統計によるコーパスからの未知語抽出

情報処理学会論文誌, Vol.39, No.7, July 1998 森信介, 長尾眞Nグラム統計モデルを使って未知語周辺の情報から未知語の品詞を推定。 未知語はJUMANで取得。 NグラムモデルはEDRコーパス利用。 実験 EDRコーパスと日経サイエンスを対象 未知語は以下の品詞を…

日本語話し言葉コーパスの形態素解析

内元清貴, 野畑周, 山田篤, 関根聡, 井佐原均 日本語話し言葉コーパスのアノテーションを半教師あり学習で行う。 形態素解析は最大エントロピー(ME)モデル。 実験 アノテーション済みのコーパスを学習とテストに分ける。 今回、フィラーや言いよどみは対象…

ブログ的表記を正規化するためのルール自動生成方式の提案と評価

DBSJ Journal, Vol.8, No.1, June 2009 池田和史, 柳原正, 松本一則, 滝嶋康弘 修正ルールの種を与え、汎用化や特殊化を自動で行う手法。 従来研究 人手でルールを記述する。 チャットデータや口語的表現、話し言葉の特徴を分析して、網羅的にルールを作る。…