ACP Corpus は,文単位で評価極性タグが付与された日本語コーパスです.本 コーパスは,(Kaji and Kitsuregawa, 2006; 鍜治, 喜連川 2008) で提案され ている手法を用いて,大規模なウェブデータから自動構築されています.タグ 付け作業を自動化することによって,およそ100万文という大規模なコーパス 構築を可能にしています.
本コーパスに興味をお持ちの方は kaji (-at-) tkl.iis.u-tokyo.ac.jp まで直接ご連絡下さい.
配布するデータには,以下のような形式で一行に一文が記述されています.評価極性タグは +1/-1 (肯定的/否定的)のいずれかです.
評価極性タグ テキスト
例えば次のようになっています.
-1 値段が掛かり過ぎる +1 オークションはお店よりも安く買えるものが多い +1 SCSIインターフェイスを装備したマシンの間でなら、周辺機器の移動が簡単にできる -1 常温保存ができない +1 隅々まで水拭き掃除、楽々できる +1 終電を気にしないで良い
※ テキストの文字コードは eucjp です.オリジナルのテキストに半角文字が含まれていた場合,全て全角文字に変換しています.
ウェブデータを収集,提供してくださった生産技術研究所協力研究員 田村孝之氏に感謝いたします.
ご意見,ご要望などは下記のメールアドレスまでお願いいたします.
kaji (-at-) tkl.iis.u-tokyo.ac.jp