GEMINI LABEN
API — Event-driven WebhooksでBatch APIや長時間処理の完了を通知受信。ポーリングが不要になりますSEARCH — File Searchがgemini-embedding-2に対応し、画像もネイティブに埋め込み・検索できますSECURITY — 6/19以降、未制限APIキーからのリクエストが遮断されました。キー制限の点検をMODEL — Gemini 3.5 Flashが一般提供。gemini-flash-latestの本体になりましたAGENT — Managed AgentsがGemini APIで公開プレビュー。隔離サンドボックスで自律エージェントを実行できますDEPRECATED — 画像プレビュー2モデルが6/25で停止。preview依存の処理は確認しておきましょうAPI — Event-driven WebhooksでBatch APIや長時間処理の完了を通知受信。ポーリングが不要になりますSEARCH — File Searchがgemini-embedding-2に対応し、画像もネイティブに埋め込み・検索できますSECURITY — 6/19以降、未制限APIキーからのリクエストが遮断されました。キー制限の点検をMODEL — Gemini 3.5 Flashが一般提供。gemini-flash-latestの本体になりましたAGENT — Managed AgentsがGemini APIで公開プレビュー。隔離サンドボックスで自律エージェントを実行できますDEPRECATED — 画像プレビュー2モデルが6/25で停止。preview依存の処理は確認しておきましょう
記事一覧/API / SDK
API / SDK/2026-06-28上級

テキストと画像を同じ File Search に入れたら、検索が画像へ寄った — モダリティの偏りを取得後に均す設計

gemini-embedding-2 でテキストと画像を1つの File Search ストアに混ぜると、検索結果が片方のモダリティへ静かに偏ることがあります。スコア分布のずれを測り、モダリティ別の正規化とクォータ方式のマージで偏りを取得後に均す設計を、計測コードと一緒に共有します。

gemini-api255file-search3マルチモーダル21検索python94本番運用39

プレミアム記事

ある朝、個人開発で運用している Dolice Labs のヘルプ記事を横断検索できるようにしたくて、テキストの記事と、アプリのスクリーンショット、それに壁紙アセットの画像を、私自身の手でひとつの File Search ストアにまとめて入れてみました。gemini-embedding-2 がテキストと画像を同じ空間に埋め込めるようになったので、これで「言葉でも画像でも引ける一つの索引」ができるはずでした。

ところが、いざ「課金まわりの設定はどこ」と尋ねると、上位に並んだのはスクリーンショットと壁紙ばかり。肝心のテキスト記事は、8件のうち2件しか残っていませんでした。

埋め込みは正しく効いています。画像も意味で引けています。それでも、欲しかった答えが画像の山に押し下げられてしまう。これは精度の問題というより、取得結果のモダリティ構成が偏るという、混在ストア特有のクセでした。今日はこの偏りを「測って、取得後に均す」までを、実装と一緒に書き残します。

なぜ混在ストアでは結果が片方に寄るのか

原因は、テキストと画像で類似度スコアの分布が違うことにあります。

同じクエリベクトルに対して、画像チャンクのコサイン類似度は、テキストチャンクよりも系統的に高め・かつ密に出ることがあります。これはモデルの優劣ではなく、埋め込み空間の中でモダリティごとに「固まり方」が違うために起きる、スケールのずれです。

素朴に「全件を1本のスコアで並べて上位8件」とすると、平均が少し高いモダリティが上位枠を占有します。私のストアでは画像側のスコアがわずかに高く、結果として画像が枠を食い尽くしていました。逆のストア構成なら、テキストが画像を押しのける形でも同じことが起きます。

つまり、ひとつの数直線に二つの分布を混ぜて切っているのが問題です。比較の土俵を揃えてから配分する——これが設計の芯になります。

まず偏りを「測る」— モダリティ構成比を出す

直す前に、偏りを数字にします。検索結果の各ヒットがテキストか画像かを判定し、上位 N 件の構成比を見るだけの小さな計測です。

File Search のグラウンディング・メタデータには、画像引用のための media_id やページ番号が含まれます。私は「media_id(または画像参照)を持つチャンク=画像モダリティ、テキスト本文を持つチャンク=テキストモダリティ」と単純に判定しています。フィールド名はお使いの SDK バージョンに合わせて読み替えてください。

from dataclasses import dataclass
 
@dataclass
class Hit:
    id: str
    score: float          # ストアが返した類似度スコア
    modality: str         # "text" or "image"
    text: str = ""        # テキストチャンクの本文(あれば)
 
def detect_modality(chunk) -> str:
    """グラウンディング・チャンクからモダリティを推定する。
    SDK のフィールド名は環境に合わせて調整すること。"""
    media_id = getattr(chunk, "media_id", None)
    if media_id:
        return "image"
    # 画像参照を別フィールドで持つ場合のフォールバック
    if getattr(chunk, "image_uri", None) or getattr(chunk, "inline_image", None):
        return "image"
    return "text"
 
def modality_mix(hits, top_n=8):
    top = hits[:top_n]
    counts = {"text": 0, "image": 0}
    for h in top:
        counts[h.modality] = counts.get(h.modality, 0) + 1
    total = max(1, len(top))
    return {k: (v, round(v / total, 2)) for k, v in counts.items()}
 
# 例: 取得直後の生の上位8件を測る
# print(modality_mix(raw_hits, top_n=8))
# => {'text': (2, 0.25), 'image': (6, 0.75)}  ← テキストを期待した問いなのに画像が3/4

この「期待した構成」と「実際の構成」の差が、改善対象です。テキストのヘルプを探す問いで画像が 75% を占めるなら、土俵を揃える価値があります。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
テキストと画像を混ぜた File Search で結果が片方へ偏る理由を『スコア分布のモダリティ差』として捉え直し、自分のストアで偏りを数値で測れるようになる
モダリティ別のスコア正規化とクォータ方式のマージを実装コードで手に入れ、取得結果の構成比を意図どおりに保てるようになる
クエリの意図に応じてクォータを動かす軽量な判定を加え、画像寄り・テキスト寄りのどちらの問いにも崩れない検索へ作り替えられるようになる
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-06-28
gemini-flash-latest が 3.5 Flash に切り替わっても深夜に事故らない『昇格ゲート』の設計
gemini-flash-latest のような可変エイリアスは GA のたびに中身が差し替わり、無人で回している自動処理の前提を静かに崩します。自前の役割→固定モデルID の間接層と、ゴールデンセットで4指標を測る受け入れハーネス、しきい値での昇格・自動ロールバックまでを実装コード付きで共有します。
API / SDK2026-06-21
Gemini API の usageMetadata で本番アプリのコストを記録する — リクエスト単位で請求書と突き合わせる実装パターン
usageMetadata をリクエスト単位で記録し、エンドポイント・ユーザー・モデル別にコストを按分する実装パターンに加え、3.5 Flash GA で既定モデルが差し替わってもコスト記録が狂わないよう resp.model_version を基点にした単価引き当てと、ドリフト・未知モデルを毎晩監査する仕組みまで解説します。
API / SDK2026-06-14
Gemini API の media_resolution で画像トークンを制御する — バッチ画像分類のコストと精度を実測で最適化する
Gemini 3 系で導入された media_resolution は、画像入力が消費するトークン量を3段階で切り替えるパラメータです。バッチ画像分類の実測を通して、コストと精度のバランスをタスク別に最適化する手順を解説します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →