構文・照応・評価情報つきブログコーパスの構築

橋本力, 黒橋禎夫, 河原大輔, 新里圭司, 永田昌明


黒橋研で構築したブログコーパスアノテーション付き)。通称KNB
不明瞭な文境界、括弧表現、誤字、方言、顔文字などに対応。
ブログ記事は大学生81名に「京都観光」「携帯電話」「スポーツ」「グルメ」のテーマで作成。
※作成させたからか、本来のブログ的表現ではない印象。
※既存のブログ記事では著作権的に難しかった?
※研究室のメンバーの個人的なブログを使ってもよかったかも(個人的には絶対イヤだけど)
※また、Twitterとも大きく異なる印象。
249記事、4186文のデータ。
※できれば1000倍くらいデータが欲しい。
日本語話し言葉コーパス(CSJ)に類似した仕様。