ACP Corpus: Automatically Constructed Polarity-tagged Corpus

はじめに

ACP Corpus は,文単位で評価極性タグが付与された日本語コーパスです.本 コーパスは,(Kaji and Kitsuregawa, 2006; 鍜治, 喜連川 2008) で提案され ている手法を用いて,大規模なウェブデータから自動構築されています.タグ 付け作業を自動化することによって,およそ100万文という大規模なコーパス 構築を可能にしています.

データの配布

本コーパスに興味をお持ちの方は kaji (-at-) tkl.iis.u-tokyo.ac.jp まで直接ご連絡下さい.

データ形式

配布するデータには,以下のような形式で一行に一文が記述されています.評価極性タグは +1/-1 (肯定的/否定的)のいずれかです.

評価極性タグ テキスト

例えば次のようになっています.

-1 値段が掛かり過ぎる
+1 オークションはお店よりも安く買えるものが多い
+1 SCSIインターフェイスを装備したマシンの間でなら、周辺機器の移動が簡単にできる
-1 常温保存ができない
+1 隅々まで水拭き掃除、楽々できる
+1 終電を気にしないで良い

※ テキストの文字コードは eucjp です.オリジナルのテキストに半角文字が含まれていた場合,全て全角文字に変換しています.

謝辞

ウェブデータを収集,提供してくださった生産技術研究所協力研究員 田村孝之氏に感謝いたします.

参考文献

連絡先

ご意見,ご要望などは下記のメールアドレスまでお願いいたします.
kaji (-at-) tkl.iis.u-tokyo.ac.jp