本データセットはこちらの記事/発表で利用された「日本の法令に関する多肢選択式のQ&Aが含まれたデータセット」です:
政府等が保有するデータのAI学習データへの変換に係る[調査研究]を実施しました
植松 幸生, 大杉 直也, 複数のLLMを用いた法令QAタスクのGround Truth Curation, 言語処理学会第31回年次大会(NLP2025)
本データセットは,複数の大規模言語モデル(LLM)を用いて作成・検証された,法令分野に関する4択形式の多肢選択問題を収録しています.
情報検索,法的知識の理解,生成AIの継続事前学習のバリデーションデータなどに利用できます.
- 法令分野における多肢選択Q&Aシステムの学習・評価
- 法令文書に対するRAG(検索拡張生成)パイプラインの検証
- 複数LLMによる正解生成・集約手法の研究
このディレクトリには、本データセットに関連する複数形式のファイルが含まれています。以下に各ファイルの概要を示します。
| ファイル名 | 説明 |
|---|---|
law_list.json |
設問で参照されている法令の一覧。法令名や出典条文情報を収録。 |
selection.json |
元データ。各問題のコンテキスト・設問・選択肢・正答が含まれた構造化JSON形式。 |
selection.csv |
Q&AデータのCSV形式バージョン。表形式で各項目(設問文、選択肢、正答など)を確認可能。 |
selection_randomized.json |
各設問について選択肢a〜dを4通りにランダマイズしたデータ(同一設問が異なる選択肢順で複数存在)。モデルの順序依存性を評価する用途を想定。 |
selection_with_reference_randomized.json |
外部法令・省令などへの文字列による参照を含む設問のみを抽出し、かつ選択肢順をランダマイズしたデータ。法的参照処理や根拠探索を含むタスク向け。 |
各エントリの構成は以下の通りです:
| 項目名 | 説明 |
|---|---|
ファイル名 |
法令名・章・問題番号などの識別子 |
回答オーダーマップ番号 |
質問のユニークIDまたは順序番号 |
コンテキスト |
問題の背景となる法令本文の抜粋 |
指示 |
問題への解答指示文 |
問題文 |
質問内容そのもの |
選択肢 |
a〜dの選択肢(改行区切りの文字列) |
output |
正解(a〜dのいずれか) |
references |
コンテキスト参照元のURLをリスト形式で記載 |
{
"ファイル名": "金商法_第2章_選択式_関連法令_問題番号57",
"回答オーダーマップ番号": "1",
"コンテキスト": "## 金融商品取引法\n### 第5条\n...",
"指示": "<following_context>以下の問題文に対する回答を,選択肢a,b,c,dの中から1つ選んでください.",
"問題文": "金融商品取引法第5条第6項により,...",
"選択肢": "a ~\nb ~\nc ~\nd ~",
"output": "c",
"references": [
"https://laws.e-gov.go.jp/law/323AC0000000025"
]
}本データセットには,コンテキストとして記載している法令から外部の法令を参照している部分に対して, 文字列による外部法令の参照を行っています.具体的には,外部の法令がある場合は以下のような参照をしています.
本データセットでは,設問の根拠となる法令や準拠文書が「コンテキスト」フィールドに収録されています.このコンテキスト情報には,外部法令の参照がMarkdown形式で明示されています.
"コンテキスト": "## 金融商品取引法\n### 第5条\n#### 第6項\n..."上記のように,以下のようなMarkdownの見出し構文 (#記号) によって構造が表現されています:
##:法令名(例:金融商品取引法)###:条(例:第5条)####:項(例:第6項)#####:号(例:第2号)
さらに,条文内において以下のような他法令・省令・政令が明記されており,これもMarkdown中にそのまま記述されています.
- 金融商品取引法施行令第9条の4
- 金融商品取引法施行令第14条の3の2第2項
- 証券情報等の提供又は公表に関する内閣府令
- 企業内容等開示ガイドライン(留意事項)
例えば以下のようなものです
- 前項[第34条第1項]の通知をしたとき
- 前項の通知をしたとき
前項と記載がある場合,参照元を直接文字列で記載しています.
これにより,LLMや検索エンジンが構文解析や見出し分割を行いやすい構成となっています.
本データセットは 公共データ利用規約(第1.0版)public_data_license_v1.0 の下で提供されています. https://www.digital.go.jp/resources/open_data/public_data_license_v1.0
- 問題文および選択肢は複数のLLMにより作成されていますが,法的助言を目的としたものではありません.
- 法令は将来的に改正される可能性があります.利用にあたっては最新の法令をご確認ください.