GEMINI LABEN
SEARCH — File Searchの根拠情報が強化。視覚引用のmedia_idとページ番号が加わり、どの画像・どのページが根拠か辿れますAPI — Webhooksのイベント駆動でBatch APIや長時間処理のポーリングを置き換えられますDEPRECATION — 画像プレビューモデル2種(gemini-3.1-flash-image-preview等)が6/25に停止。利用中の自動化は即日移行が必要ですMODEL — Gemini 3.5 Flashは一般提供済み。3.1 Proをほぼ全ベンチで上回りつつ4倍高速に動作しますAGENTS — Managed AgentsがGemini APIでパブリックプレビュー。隔離Linuxサンドボックスで自律エージェントを動かせますSTUDIO — Google AI Studioが自然言語からAndroidアプリを生成できるようになりましたSEARCH — File Searchの根拠情報が強化。視覚引用のmedia_idとページ番号が加わり、どの画像・どのページが根拠か辿れますAPI — Webhooksのイベント駆動でBatch APIや長時間処理のポーリングを置き換えられますDEPRECATION — 画像プレビューモデル2種(gemini-3.1-flash-image-preview等)が6/25に停止。利用中の自動化は即日移行が必要ですMODEL — Gemini 3.5 Flashは一般提供済み。3.1 Proをほぼ全ベンチで上回りつつ4倍高速に動作しますAGENTS — Managed AgentsがGemini APIでパブリックプレビュー。隔離Linuxサンドボックスで自律エージェントを動かせますSTUDIO — Google AI Studioが自然言語からAndroidアプリを生成できるようになりました
記事一覧/API / SDK
API / SDK/2026-06-24上級

File Searchの回答に「何ページの、どの図か」まで添える ― 視覚引用メタデータで出典を検証可能にする

File Search の grounding metadata に media_id と page_numbers が加わり、回答のどの一文がどのページ・どの図に基づくのかを辿れるようになりました。PDFと画像を混ぜた参照データで、検証可能な引用UIを組み立てるまでを実装で整理します。

gemini88file-search2grounding5gemini-api248rag20

プレミアム記事

参照データに PDF を入れて File Search に答えさせると、これまでも「出典: 設計書.pdf」までは返せました。けれど読者や同僚に「本当にそう書いてある?」と聞かれたとき、47ページある PDF のどこを見ればいいのかは答えられませんでした。私自身、個人開発で運用しているアプリのヘルプ参照データで何度もこの壁に当たり、結局スクリーンショットを手作業で貼っていました。

2026年6月24日、File Search の grounding metadata に media_id(視覚引用)と page_numbers が追加され、この手作業が要らなくなりました。回答のどの一文が、どのページの、どの図に基づくのかを、API のレスポンスだけで辿れます。ここでは、PDF と画像を混ぜた参照データに対して、文単位で「ページ番号 + 図版サムネイル」を添える引用レイヤーを組み立てるところまでを、実装で残していきます。

何が変わったのか ― grounding metadata の新しい2フィールド

これまでの grounding metadata は、おおまかに言えば「回答はこのチャンク群に基づいています」というチャンク単位の情報でした。新しく加わったのは、その粒度を一段細かくする2つのフィールドです。

フィールド付く場所意味
page_numbers各 grounding chunk の retrieved_contextそのチャンクが PDF の何ページ目に由来するか(複数ページにまたがる場合は配列)
media_id各 grounding chunk の retrieved_context視覚引用の識別子。図版・スクリーンショットなど画像由来のチャンクで、どの画像が根拠かを指す

ポイントは、これらが grounding_supports(回答テキストのどの区間がどのチャンクに支えられているか)と組み合わさることです。grounding_supports の各エントリは「回答の何文字目から何文字目までが、どのチャンク番号に基づくか」を持っています。チャンク番号から page_numbersmedia_id を引けば、回答の一文ごとに「○○.pdf の12ページ、図3」まで遡れます。

レスポンスの構造を先に掴む

実装に入る前に、何を相手にするのかを確認します。File Search を有効にした generate_content のレスポンスには、candidates[0].grounding_metadata がぶら下がります。中身を整理するとこうなります。

# grounding_metadata の概念構造(実際のレスポンスを整形したもの)
{
  "grounding_chunks": [
    {
      "retrieved_context": {
        "title": "design-spec.pdf",
        "text": "認証トークンの有効期限は既定で3600秒です…",
        "page_numbers": [12],          # ← 新フィールド
        "media_id": None               # テキストチャンクなので None
      }
    },
    {
      "retrieved_context": {
        "title": "onboarding-flow.png",
        "text": "ログイン画面の遷移図",
        "page_numbers": None,
        "media_id": "media/abc123"     # ← 新フィールド(画像由来)
      }
    }
  ],
  "grounding_supports": [
    {
      "segment": {"start_index": 0, "end_index": 58, "text": "トークンの有効期限は3600秒です。"},
      "grounding_chunk_indices": [0],
      "confidence_scores": [0.94]
    }
  ]
}

grounding_supports[i].grounding_chunk_indicesgrounding_chunks の添字を指しています。この対応さえ押さえれば、あとは文と出典を結ぶだけです。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
回答に出典は付くのに『どのページ・どの図か』までは示せず信頼性で詰まっていた構成を、page_numbers と media_id で文単位の検証可能な引用に作り替えられます
grounding_supports と grounding_chunks を突き合わせて、回答の各文に正確なページ番号と図版サムネイルを紐づける描画ロジックをコピペで導入できます
メタデータが欠落したチャンクへのフォールバックや、同一ページの引用重複の畳み方など、本番で必ず当たる穴の塞ぎ方まで持ち帰れます
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-06-23
File Search のストアが本番で静かに陳腐化する — カタログ同期とドリフト検知を実装した運用メモ
File Search に一度カタログを流し込んで終わりにすると、配信を止めたアセットを案内する『古い回答』が本番で返り始めます。ハッシュ差分の増分取り込みと、削除を割り切るブルーグリーン再構築、そして定期ドリフト検知までを実装で整理しました。
API / SDK2026-06-19
Gemini API の Google Maps グラウンディングで位置情報AIを作る — 料金とソース表示の義務を踏まえた実装メモ
Gemini API の Google Maps グラウンディングで「近くのおすすめ」を実装する手順を、$25/1K の課金設計と出典表示の義務までまとめた、個人開発者向けの運用メモです。
API / SDK2026-05-01
Geminiで作る出典付きRAG ― ハルシネーションを止める引用生成と検証パイプラインの設計
Gemini API を使った RAG に「信頼できる出典」を組み込むための実装パターンを、構造化出力・検証アルゴリズム・UI 表示まで通しで解説します。ハルシネーションを定量的に検出する仕組みも含めて、本番投入できる形で紹介します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →