Polar Phrase Dictionary

はじめに

大規模な評価文コーパス(Kaji and Kitsuregawa, 2006)から自動構築した評価表現辞書です. 形容詞/形容詞句と評価極性値のペアが約10,000組登録されています.

評価極性値とは評価極性の強さを表す指標で,この値が0より大きい/小さいと好評極性/不評極性を持つことになります.
ここでの評価極性値は,Pointwise Mutual Informatoin (PMI)にもとにして決定しています. 詳細に関しては文献(Kaji and Kisturegawa, 2007)を参照してください.

辞書データに興味をお持ちの方は kaji (-at-) tkl.iis.u-tokyo.ac.jp まで直接ご連絡下さい.

データ形式

「評価極性値 評価表現」という形式で一行に一表現が記述されています.文字コードは eucjp です.
例えば以下のようになっています.

15.76368708 心配が無い
15.00699884 コストが安い
14.65340847 丈夫だ
...
-13.61614521 音がうるさい
-14.32184005 駅から遠い

Misc

表記揺れの扱い

表記揺れを吸収するために,全ての評価表現は,形態素解析器Jumanの出力結果をもとに代表表記に変換されています.
例えば「きれいだ」と「綺麗だ」は,同じ単語「綺麗だ」として扱われます. したがって「綺麗だ」は評価表現辞書に登録されていますが,「きれいだ」は登録されていません.

機能表現の扱い

「良い」と「良くない」を区別するために<否定>というタグを導入しています. 「良くない」は「良い<否定>」と表記されています.

この他にも「〜しやすい」「〜しにくい」「〜しすぎる」の三種類の機能表現に関しても同様のタグを導入しています.
これは「壊れやすい」「壊れにくい」などの表現を区別するためです.

参考文献

連絡先

ご意見,ご要望などは下記のメールアドレスまでお願いいたします.
kaji (-at-) tkl.iis.u-tokyo.ac.jp