2012-01-01から1年間の記事一覧

Named Entity Disambiguation in Streaming Data

ACL2012Alexandre Davis, Adriano Veloso, Altigran S. da Silva, Wagner Meira Jr., Alberto H.F.Laender Federal University of Minas Gerais, Federal University of AmazonasこちらもNENの論文。 相変わらず読み込んでいないし読み込んでいない論文が多…

Joint Inference of Named Entity Recognition and Normalization for Tweets

ACL2012Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou Harbin Institute of Technology, Microsoft Research Asia, and othersNamed Entity Recognition (NER)とNamed Entity Normalization (NEN)に関する論文。 Twitterはリアルタイムの…

Automatically Constructing a Narmalisation Dictionary for Microblogs

ACL2012Bo Han, Paul Cook, Timothy Baldwin The University of Melbourneタイトルからすると自動で崩れた表現と正規化表現の辞書を構築するという、とても興味深いもの。 英語の崩れた表現、例えば"2morrow"と"tomorrow"みたいなペアを作る。従来研究には、…

Robust kaomoji detection in Twitter

Steven Bedrick, Russell Berkley, Brian Roark, Richard Sproat Oregon Health & Science University辞書では対応しきれないような生成的な「顔文字」という対象を抽出する。 Twitterを対象としたコーパス作成。StreamingAPIで50日間観測。 9193のサンプル…

Entroly as an Indicator of Context Boundaries -An Experiment Using a Web Search Engine-

Tanaka Kumiko University of Tokyo仮説は二つ。 連続する文字において連接確率の悪い文字が入った場合、そこが単語境界になりやすい。 連続する文字においてエントロピーが増加した場合、そこが単語境界になりやすい。連接確率を学習させるので、Unsupervis…

Solr3.6からSolr4.0に変更する際の注意点

注意点1:Velocityでプロパティファイルを指定している場合v.propertiesでプロパティファイルを指定している場合、Solr3.6まではconf以下にファイルを設置する。Solr4.0からはvelocityディレクトリ内に設置する。 公式ではvelocityディレクトリはあくまでテ…

Insertion, Deletion, or Substitution? Normalizing Text Messages without Pre-categorization nor Supervision

ACL2011 Fei Liu, Fuliang Weng, Bingqing Wang, Yang Liu口語表現を文語表現に正規化する。 アノテーションデータを作らず、自動でwebから収集するらしい。 Edinburgh Twitter corpusには、400万語のout-of-vocabularyがあるらしい。 たとえば、"together"…

点予測による形態素解析

NL198 2010 中田陽介、NEUBIG Graham、森信介、河原達也SVMベースの形態素解析 単語分割と品詞推定を別でやるところに特徴がある。 従来手法では、分を形態素列とみなし、形態素解析を単語分割と品詞推定を同時に行う系列ラベリングの問題として扱っている。…

A survey of named entity recognition and classification

David Nadeau, Satoshi Sekineサーベイ論文。 分野を知らない人にとっては、サーベイ論文ほど助かる論文はない。 もっと定期的にサーベイ論文が出るといいですね。 1991年から2006年をまとめた論文。 1991〜1995年まではヒューリスティックス中心。 1996年に…

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments

ACL2011 Kevin Gimpel, Nathan Schneider, Brendan O'Connor, Dispanjan Das, Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, Noah A. Smith 共著者多すぎ。 Twitterを対象としたPOS Tagging。精度は90%。データセット…

Named Entity Recognition in Tweets: An Experimental Study

ACL2011 Alan Ritter, Sam Clark, Mausam and Oren EtzioniTwitterを対象としたNER。 POS TaggingとChunking込み。Twitterを解析する上で大きく2つ課題がある。 1点目 データスパースネス 企業名や商品名、バンド、映画などなど、新語はたくさんでるけど、…

構文・照応・評価情報つきブログコーパスの構築

橋本力, 黒橋禎夫, 河原大輔, 新里圭司, 永田昌明 黒橋研で構築したブログコーパス(アノテーション付き)。通称KNB。 不明瞭な文境界、括弧表現、誤字、方言、顔文字などに対応。 ブログ記事は大学生81名に「京都観光」「携帯電話」「スポーツ」「グルメ」…

形態論的制約を用いたオンライン未知語獲得

村脇有吾, 黒橋禎夫JUMANの未知語対応。 JUMANは、いくつかの崩れた表現にも対応している。オンライン学習の考え方に近い形で実現。 (オンラインって言葉には、いつも違和感を感じる) つまり、未知語を見つけたら逐次辞書を更新する、というもの。未知語の…

nグラム統計によるコーパスからの未知語抽出

情報処理学会論文誌, Vol.39, No.7, July 1998 森信介, 長尾眞Nグラム統計モデルを使って未知語周辺の情報から未知語の品詞を推定。 未知語はJUMANで取得。 NグラムモデルはEDRコーパス利用。 実験 EDRコーパスと日経サイエンスを対象 未知語は以下の品詞を…

日本語話し言葉コーパスの形態素解析

内元清貴, 野畑周, 山田篤, 関根聡, 井佐原均 日本語話し言葉コーパスのアノテーションを半教師あり学習で行う。 形態素解析は最大エントロピー(ME)モデル。 実験 アノテーション済みのコーパスを学習とテストに分ける。 今回、フィラーや言いよどみは対象…

ブログ的表記を正規化するためのルール自動生成方式の提案と評価

DBSJ Journal, Vol.8, No.1, June 2009 池田和史, 柳原正, 松本一則, 滝嶋康弘 修正ルールの種を与え、汎用化や特殊化を自動で行う手法。 従来研究 人手でルールを記述する。 チャットデータや口語的表現、話し言葉の特徴を分析して、網羅的にルールを作る。…

Lexical Normalisation of Short Text Messages: Makn Sens a #twitter

ACL2011 Bo Han, Timothy Baldwin※英語力の問題で正しくないかもしれないTwitterのテキストをフォーマルなテキストに正規化する。 文字の編集距離、発音の編集距離、とかを利用。 (suffix substring, prefix substring, etc) Twitterでは、独特の表現が多…

Recognizing Named Entities in Tweets

ACL2011 Xiaohua Liu, Shaodian Zhang, Furu Wei, Ming ZhowTwitterから半教師あり学習で固有表現を抽出する。 K-Nearest Neighbors (KNN)とConditional Random Fields (CRF)を組み合わせた手法。普通はアノテーション済みのコーパスをCRFとかHMMとかで学習…

人材紹介ボット PineappleAgencyの使い方

小難しいことは考えず、まずはTwitterで 「@pineapple_agent 質問。横浜のおいしいラーメン」 とでもつぶやいてみてください。反応します。 【概要】 質問を投げかけると回答を知っていそうな人物を紹介するTwitter botです。 回答者はfollowingの皆様です。…

Twitter Bot 制作下準備(タイムラインの取得)

サンプルコードはこちら public class GetTimeline { private Twitter twitter; private Integer page=1; private Integer count=200; private Long sinceId=null; private static final Log LOG = LogFactory.getLog(GetTimeline.class); public GetTimelin…

Twitter Bot 制作下準備(Twitterオブジェクトの取得)

サンプルコードはこちら public class GetTwitterObject { private static String CONSUMERKEY; private static String CONSUMERSECRET; private static String ACCESSTOKEN; private static String ACCESSSECRET; /** * Twitterオブジェクトの取得 * @retur…

Twitter Bot 制作下準備(OAuth認証)

まずはTwitterアカウント作成Twitter Bot制作、およびTwitter Client制作では、OAuth認証する必要があります。 必要な情報はこれら "Consumer key" "Consumer secret" "Access Token" "Access Token Secret"こちらにアクセスして然るべき情報を入力すれば、…

開発環境

Windows Vista 32bit Java Development Kit 7 eclipse 3.7 Indigo(日本語化プロジェクト使用) apache maven 2.2 apache tomcat 7.x apache solr 3.5.0使用ライブラリ lucene gosen 1.2.1 (辞書構築用にapache ant 1.8.2) twitter4j 2.2.5version管理 Tor…