WRIME: 主観と客観の感情分析データセット [English]
日本語の感情分析の研究のために、以下の特徴を持つデータセットを構築しました。
- 主観(テキストの筆者1人)と客観(クラウドワーカ3人)の両方の立場から感情ラベルを付与しました。
- Plutchikの基本8感情(喜び、悲しみ、期待、驚き、怒り、恐れ、嫌悪、信頼)を扱いました。
- 各感情の強度を4段階(0:無、1:弱、2:中、3:強)でラベル付けしました。
- Ver.2では、感情極性(-2:強いネガティブ、-1:ネガティブ、0:ニュートラル、1:ポジティブ、2:強いポジティブ)も追加しました。
- @shunk031 さんが本データセットを HuggingFace Datasets Hub に登録してくださいました。
- Ver.2: 60人の筆者から収集した35,000件の投稿(Ver.1のサブセット)に感情極性を追加でラベル付けしました。
- Ver.1: 80人の筆者から収集した43,200件の投稿に感情強度をラベル付けしました。
投稿:車のタイヤがパンクしてた。。いたずらの可能性が高いんだって。。
喜び | 悲しみ | 期待 | 驚き | 怒り | 恐れ | 嫌悪 | 信頼 | 感情極性 | |
---|---|---|---|---|---|---|---|---|---|
主観 | 0 | 3 | 0 | 1 | 3 | 0 | 0 | 0 | 0 |
客観A | 0 | 3 | 0 | 3 | 1 | 2 | 1 | 0 | -1 |
客観B | 0 | 2 | 0 | 2 | 0 | 0 | 0 | 0 | -1 |
客観C | 0 | 2 | 0 | 2 | 0 | 1 | 1 | 0 | -2 |
- 【奨励賞】 近藤里咲, 寺面杏優, 堀口航輝, 梶川怜恩, 鈴木陽也, 宮内裕人, 山内洋輝, 秋山和輝, 梶原智之, 二宮崇, Chenhui Chu, 武村紀子, 早志英朗, 中島悠太, 長原一. 日本語SNSのためのテキスト正規化および感情分析のデータセット. 第24回情報科学技術フォーラム, pp.277-284, 2025.
- Risa Kondo, Ayu Teramen, Reon Kajikawa, Koki Horiguchi, Tomoyuki Kajiwara, Takashi Ninomiya, Hideaki Hayashi, Yuta Nakashima, Hajime Nagahara. Text Normalization for Japanese Sentiment Analysis. In Proceedings of the 10th Workshop on Noisy and User-generated Text (W-NUT 2025), pp.149-157, 2025.
- 花房健太郎, 前川大輔, 梶原智之. 大規模言語モデルによる書き手の情報を考慮した感情分析. 情報処理学会第87回全国大会, pp.277-278, 2025.
- 【優秀賞】 近藤里咲, 寺面杏優, 梶川怜恩, 堀口航輝, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. テキスト正規化による日本語感情分析の性能改善. 人工知能学会第38回全国大会, 2024.
- 鈴木陽也, 山内洋輝, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. 書き手の複数投稿を用いた感情分析. 人工知能学会第38回全国大会, 2024.
- 【学生奨励賞】 近藤里咲, 大塚琢生, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. 大規模言語モデルによる日本語感情分析の性能評価. 情報処理学会第86回全国大会, pp.859-860, 2024.
- Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Estimation based on Writer’s Personality. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: Student Research Workshop (AACL-SRW 2022), pp.1-7, 2022.
- 鈴木陽也, 秋山和輝, 梶原智之, 二宮崇, 武村紀子, 中島悠太, 長原一. 書き手の性格情報を用いた感情強度推定. 人工知能学会第36回全国大会, 2022.
- Haruya Suzuki, Yuto Miyauchi, Kazuki Akiyama, Tomoyuki Kajiwara, Takashi Ninomiya, Noriko Takemura, Yuta Nakashima, Hajime Nagahara. A Japanese Dataset for Subjective and Objective Sentiment Polarity Classification in Micro Blog Domain. In Proceedings of the 13th International Conference on Language Resources and Evaluation (LREC 2022), pp.7022-7028, 2022.
- 【若手奨励賞】 宮内裕人, 鈴木陽也, 秋山和輝, 梶原智之, 二宮崇, 武村紀子, 中島悠太, 長原一. 主観と客観の感情極性分類のための日本語データセット. 言語処理学会第28回年次大会, pp.1495-1499, 2022.
- Tomoyuki Kajiwara, Chenhui Chu, Noriko Takemura, Yuta Nakashima, Hajime Nagahara. WRIME: A New Dataset for Emotional Intensity Estimation with Subjective and Objective Annotations. In Proceedings of the 2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2021), pp.2095-2104, 2021.
- 梶原智之, Chenhui Chu, 武村紀子, 中島悠太, 長原一. 主観感情と客観感情の強度推定のための日本語データセット. 言語処理学会第27回年次大会, pp.523-527, 2021.
本データセットを研究で利用された場合、論文情報をご連絡いただきましたらここに掲載させていただきます。
本研究は、文部科学省によるSociety 5.0 実現化研究拠点支援事業(グラント番号: JPMXP0518071489)の助成を受けたものです。
sentiment-dataset at is.ids.osaka-u.ac.jp