Open Data Platform Unified Political Data
2026-06 BigQuery Graph データマート公開

日本の政治データを、 1 つの基盤に。

国会も地方も、議論も賛否も、1947 年から今日まで。
散在 + 名寄せ未完だったデータを、人力 + LLM ハイブリッドで横断同定し統合。

広さ 1,795 議会
国会 + 47 都道府県 + 1,756 市区町村
深さ 9.7M 発言
+ 政治家 19K 名
時間軸 79 年 連続データ
1947 年 — 現在
01

これまでの課題と、sagebase の答え

既存の政治データソースは「範囲・期間・データ群・名寄せ」のいずれかで必ず断片的でした。sagebase は 4 つの断片性すべてに 1 対 1 で答えます。

Before — これまでの政治データ

必ず “どこかが” 断片的

  • 範囲が断片
    国会だけ / 自治体だけ / 1 議会だけ。国政と地方を同じ粒度で扱えない。
  • 期間が断片
    一定期間だけ / 更新停止。時系列の連続性が途切れる。
  • データ群が断片
    議案だけ / 賛否だけ / 発言だけ / 選挙だけ。横断結合の stable key がない。
  • 名寄せ未完
    同姓同名・通称・改名・会派移籍の横断同定を利用者側で実施する必要。
After — sagebase の答え

4 つの断片性に 1 対 1 で答える

  • 範囲 → 網羅
    国会 + 47 都道府県 + 1,756 市区町村 = 1,795 議会を同一スキーマで。
  • 期間 → 連続
    1947 年〜現在の連続データ。nightly で増分更新を継続。
  • データ群 → 結合
    議論・議案賛否・政治家・選挙の 4 群を sagebase_id で接続済み。
  • 名寄せ → 完了
    人力 + LLM ハイブリッドで横断同定済み。利用者の前処理が不要。
02

提供する価値

網羅統合から中立運営まで、sagebase が提供する価値を 5 つの軸で整理します。

網羅統合

Comprehensive Coverage

国会 + 47 都道府県 + 1,756 市区町村 × 1947 年〜現在 × 4 データ群を 1 つの基盤に。

横断名寄せ

Human + LLM Hybrid

同姓同名・通称・改名・会派移籍を跨いだ同一人物同定。数百人月の名寄せ作業を引き受けています。

4 群結合 + 公開

BigQuery Sharing

sagebase_id で接続し、Analytics Hub で graph データマートを公開 (2026-06)。多段 JOIN が不要。

透明性 + 恒久性

Confidence + Stable Key

matching_confidence / is_manually_verified を品質属性として公開。UUID stable key で保存済みクエリを壊しません。

中立 + 非営利

Neutral & Non-profit

モノクロームポリシーで色による含意を排除。非営利型一般社団法人として会計を公開しています。

03

提供データ

4 つのデータ群はそれぞれ独立して使え、sagebase_id ですべて接続されています。

提供中

議会議論データ

国会の全会議を網羅し、地方議会も 1,795 議会まで拡大中。発言 9.7M 件を「誰が、いつ、何を発言したのか」の構造化データとして提供します。

発言者情報 所属政党・役職を含む
発言内容 全文テキスト
文脈情報 議論の流れを保持
提供中

政治家データ

国会・地方あわせて 19K 名の政治家を sagebase_id で同定。同姓同名・改名・会派移籍を跨いで 1 人物に集約しています。

基本情報 氏名・議会・選挙区
所属履歴 政党・会派の変遷を時系列で記録
活動記録 発言・賛否との紐付け
提供中

議案賛否データ

議案 126K 件・賛否判定 132K 件を提供中。参議院では押しボタン投票による議員個人の投票記録を収録しています。

議案情報 内容・提出者・審議経過
賛否記録 参議院:議員個人 / 衆議院:会派単位
造反検出 会派方針からの逸脱を同定
一部提供中

選挙データ

国政選挙のデータを提供中。候補者を政治家データと紐付け、公約と議会活動の照合に使えます。地方選挙は順次拡大予定です。

選挙情報 種別・日程・選挙区
候補者 政治家データと紐付け
結果 得票数・当落
04

使い方

sagebase は分析の土台を提供します。分析そのものは利用者の仕事です。代表的な 3 シーンを紹介します。

UC 01

横断量的分析

1,795 議会 × 1947 年〜現在を同じスキーマ・同じ stable key で 1 クエリ。地方議会の議案テーマ別賛否を県別に集計し、国政との連動性を時系列で追跡。

UC 02

4 データ群を結合して使う

発言 × 賛否 × 政治家 × 選挙公約を sagebase_id で接続。同姓同名・改名・会派移籍を跨いで「発言と賛否と公約」を 1 人物に集約して照合。

UC 03

自分のアプリに組み込む

Analytics Hub をサブスクライブして自分の BigQuery プロジェクトに連結。sagebase_id stable key で dbt 等の上流に組み込み、全国カバーで運用コスト 0。

05

データ品質への取り組み

名寄せは完全ではありません。sagebase は限界を隠さず、品質を計測可能な形で公開します。自動処理の限界をご理解いただいた上で、皆さまと一緒により良いデータを作り上げていきます。

01

AI の限界を明示する

データの構造化と同定には LLM(大規模言語モデル)を使用しています。そのため、100% の正確性は保証できません。発言者の特定や所属政党の紐付けなどに誤りが含まれる可能性があります。

02

信頼度を透明化する

すべてのマッチングに matching_confidence を付与し、人力確認済みには is_manually_verified フラグを立てます。低信頼度のマッチも除外せず、信頼度を属性として公開することで、利用者が品質に応じて絞り込めるようにします。

03

継続的に改善する

お寄せいただいたフィードバックを基に、必ず正しいデータに修正します。stable key を保ったまま品質を上げ続けます。誤りを発見された場合はお問い合わせページからご連絡ください。

このデータを支えている情報源への敬意と感謝

sage-baseで提供しているデータは、日本の政治活動を透明化するために公開されている以下の情報源に支えられています。 データの整備・公開に取り組まれている全ての関係者に、深く感謝申し上げます。

これらの公開データソースが存在しなければ、このプロジェクトは成立しません。 公式サイトをそのまま参照したい場合は、各リンクからどうぞ。

政治ベースについてもっと知る

非営利法人として、中立で信頼性の高いデータを提供します。