大規模な評価文コーパス(Kaji and Kitsuregawa, 2006)から自動構築した評価表現辞書です. 形容詞/形容詞句と評価極性値のペアが約10,000組登録されています.
評価極性値とは評価極性の強さを表す指標で,この値が0より大きい/小さいと好評極性/不評極性を持つことになります.
ここでの評価極性値は,Pointwise Mutual Informatoin (PMI)にもとにして決定しています.
詳細に関しては文献(Kaji and Kisturegawa, 2007)を参照してください.
辞書データに興味をお持ちの方は kaji (-at-) tkl.iis.u-tokyo.ac.jp まで直接ご連絡下さい.
「評価極性値 評価表現」という形式で一行に一表現が記述されています.文字コードは eucjp です.
例えば以下のようになっています.
15.76368708 心配が無い 15.00699884 コストが安い 14.65340847 丈夫だ ... -13.61614521 音がうるさい -14.32184005 駅から遠い
表記揺れを吸収するために,全ての評価表現は,形態素解析器Jumanの出力結果をもとに代表表記に変換されています.
例えば「きれいだ」と「綺麗だ」は,同じ単語「綺麗だ」として扱われます.
したがって「綺麗だ」は評価表現辞書に登録されていますが,「きれいだ」は登録されていません.
「良い」と「良くない」を区別するために<否定>というタグを導入しています. 「良くない」は「良い<否定>」と表記されています.
この他にも「〜しやすい」「〜しにくい」「〜しすぎる」の三種類の機能表現に関しても同様のタグを導入しています.
これは「壊れやすい」「壊れにくい」などの表現を区別するためです.
ご意見,ご要望などは下記のメールアドレスまでお願いいたします.
kaji (-at-) tkl.iis.u-tokyo.ac.jp