網羅統合
国会 + 47 都道府県 + 1,756 市区町村 × 1947 年〜現在 × 4 データ群を 1 つの基盤に。
国会も地方も、議論も賛否も、1947 年から今日まで。散在 + 名寄せ未完だったデータを、人力 + LLM ハイブリッドで横断同定し統合。
既存の政治データソースは「範囲・期間・データ群・名寄せ」のいずれかで必ず断片的でした。sagebase は 4 つの断片性すべてに 1 対 1 で答えます。
網羅統合から中立運営まで、sagebase が提供する価値を 5 つの軸で整理します。
国会 + 47 都道府県 + 1,756 市区町村 × 1947 年〜現在 × 4 データ群を 1 つの基盤に。
同姓同名・通称・改名・会派移籍を跨いだ同一人物同定。数百人月の名寄せ作業を引き受けています。
sagebase_id で接続し、Analytics Hub で graph データマートを公開 (2026-06)。多段 JOIN が不要。
matching_confidence / is_manually_verified を品質属性として公開。UUID stable key で保存済みクエリを壊しません。
モノクロームポリシーで色による含意を排除。非営利型一般社団法人として会計を公開しています。
4 つのデータ群はそれぞれ独立して使え、sagebase_id ですべて接続されています。
国会の全会議を網羅し、地方議会も 1,795 議会まで拡大中。発言 9.7M 件を「誰が、いつ、何を発言したのか」の構造化データとして提供します。
国会・地方あわせて 19K 名の政治家を sagebase_id で同定。同姓同名・改名・会派移籍を跨いで 1 人物に集約しています。
議案 126K 件・賛否判定 132K 件を提供中。参議院では押しボタン投票による議員個人の投票記録を収録しています。
国政選挙のデータを提供中。候補者を政治家データと紐付け、公約と議会活動の照合に使えます。地方選挙は順次拡大予定です。
sagebase は分析の土台を提供します。分析そのものは利用者の仕事です。代表的な 3 シーンを紹介します。
1,795 議会 × 1947 年〜現在を同じスキーマ・同じ stable key で 1 クエリ。地方議会の議案テーマ別賛否を県別に集計し、国政との連動性を時系列で追跡。
発言 × 賛否 × 政治家 × 選挙公約を sagebase_id で接続。同姓同名・改名・会派移籍を跨いで「発言と賛否と公約」を 1 人物に集約して照合。
Analytics Hub をサブスクライブして自分の BigQuery プロジェクトに連結。sagebase_id stable key で dbt 等の上流に組み込み、全国カバーで運用コスト 0。
名寄せは完全ではありません。sagebase は限界を隠さず、品質を計測可能な形で公開します。自動処理の限界をご理解いただいた上で、皆さまと一緒により良いデータを作り上げていきます。
データの構造化と同定には LLM(大規模言語モデル)を使用しています。そのため、100% の正確性は保証できません。発言者の特定や所属政党の紐付けなどに誤りが含まれる可能性があります。
すべてのマッチングに matching_confidence を付与し、人力確認済みには is_manually_verified フラグを立てます。低信頼度のマッチも除外せず、信頼度を属性として公開することで、利用者が品質に応じて絞り込めるようにします。
お寄せいただいたフィードバックを基に、必ず正しいデータに修正します。stable key を保ったまま品質を上げ続けます。誤りを発見された場合はお問い合わせページからご連絡ください。
sage-baseで提供しているデータは、日本の政治活動を透明化するために公開されている以下の情報源に支えられています。 データの整備・公開に取り組まれている全ての関係者に、深く感謝申し上げます。
これらの公開データソースが存在しなければ、このプロジェクトは成立しません。 公式サイトをそのまま参照したい場合は、各リンクからどうぞ。
非営利法人として、中立で信頼性の高いデータを提供します。