GEMINI LABEN
CLI — 本日6/18、Gemini CLIとGemini Code Assist IDE拡張がAI Pro/Ultra・無料個人利用向けにリクエスト提供を終了。後継はAntigravity CLIですFLASH — Gemini 3.5シリーズが始動し3.5 Flashが提供開始。エージェントとコーディング向けにフロンティア級、長時間タスクに強いと説明されていますDEEPTHINK — Gemini 3 Deep ThinkがGoogle AI Ultra向けに展開中。数学・科学・論理・多段推論の最上位モードですAPP — GeminiアプリにDaily Brief、再設計UI、AI動画モデルGemini Omni、個人AIエージェントGemini Sparkが加わりましたDESIGN — 新デザイン言語Neural Expressiveで、よりリッチな視覚出力とモダリティ間の素早い切替に向けて再構築されていますULTRA — Google AI Ultraはモデル最上位アクセス・Deep Research・Veo 3動画生成・100万トークンコンテキストを束ねるプレミアム枠ですCLI — 本日6/18、Gemini CLIとGemini Code Assist IDE拡張がAI Pro/Ultra・無料個人利用向けにリクエスト提供を終了。後継はAntigravity CLIですFLASH — Gemini 3.5シリーズが始動し3.5 Flashが提供開始。エージェントとコーディング向けにフロンティア級、長時間タスクに強いと説明されていますDEEPTHINK — Gemini 3 Deep ThinkがGoogle AI Ultra向けに展開中。数学・科学・論理・多段推論の最上位モードですAPP — GeminiアプリにDaily Brief、再設計UI、AI動画モデルGemini Omni、個人AIエージェントGemini Sparkが加わりましたDESIGN — 新デザイン言語Neural Expressiveで、よりリッチな視覚出力とモダリティ間の素早い切替に向けて再構築されていますULTRA — Google AI Ultraはモデル最上位アクセス・Deep Research・Veo 3動画生成・100万トークンコンテキストを束ねるプレミアム枠です
記事一覧/API / SDK
API / SDK/2026-06-17上級

Flash と Pro のルーティングしきい値を、シャドウ再評価で較正し続ける

Flash で生成し、自信のないものだけ Pro に回すルーターは、しきい値を手で決めた瞬間から少しずつ古くなります。サンプリングしたシャドウ再評価で不一致率を測り、しきい値を品質予算から逆算して較正し続ける仕組みを、動くコードで組み立てます。

gemini83gemini-api241model-routingshadow-evaluationcost-optimization18production87

プレミアム記事

6月8日に Gemini Enterprise で 3.5 Flash が既定になり、無効化もできなくなったというニュースを見たあと、私は個人開発で回している自動投稿パイプラインのルーターを久しぶりに開きました。記事メタデータの分類は Flash に任せ、出力が怪しいものだけ Pro に回す、よくある二段構成です。しきい値は confidence < 0.7 なら Pro と書いてありました。

問題は、この 0.7 を最後にいつ見直したか思い出せなかったことです。半年前、いくつか手元のサンプルを眺めて「だいたいこのあたり」と置いた数字でした。その間にモデルは更新され、扱う記事の傾向も変わっています。しきい値だけが固定されたまま、本当に妥当なのか誰も確かめていませんでした。

この記事は、その「置いたまま古くなるしきい値」を、運用しながら自動で較正し続ける仕組みの実装記録です。静的なルーターを組む話ではなく、すでにルーターがある前提で、その判断が正しかったかを後から検証してしきい値を直すループを作ります。

静的なしきい値は、置いた瞬間から古くなる

信頼度でモデルを振り分けるルーターには、本番運用で見落としやすい落とし穴があります。しきい値を決めるとき、私たちは「いま手元にあるサンプル」で良し悪しを判断します。ところが本番のリクエストは時間とともに分布が変わります。新しいカテゴリの記事が増えたり、入力の長さが変わったり、Flash 自体が更新されて自己申告する信頼度の意味合いがずれたりします。

このとき何が起きるかというと、しきい値は「動いていないのに、相対的にずれていく」のです。Flash が confidence: 0.75 と返したものを「自信あり」として通していたのに、いつの間にかその帯の出力品質が落ちていても、しきい値が固定なら気づけません。逆に、Flash が十分正しく答えられる難易度まで Pro に回し続けて、無駄に課金している場合もあります。

厄介なのは、どちらの劣化も沈黙して進むことです。エラーは出ません。請求が静かに増えるか、品質が静かに落ちるかのどちらかで、しかも自分のログを見ても「しきい値が正しかったか」はそのままでは分かりません。なぜなら、通した側(Flash で確定したもの)を強いモデルで採点していないからです。

信頼度ルーターの最小構成をおさらいする

較正の話に入る前に、土台となるルーターを最小限の形で確認しておきます。Flash に構造化出力で答えと自己申告の信頼度を返させ、しきい値を下回ったときだけ Pro を呼びます。

from google import genai
from google.genai import types
from pydantic import BaseModel
 
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
 
FAST_MODEL = "gemini-3.5-flash"
STRONG_MODEL = "gemini-2.5-pro"  # 3.5 Pro が GA になったら差し替える
 
class Verdict(BaseModel):
    answer: str
    confidence: float  # 0.0〜1.0 の自己申告
 
def classify_fast(text: str) -> Verdict:
    res = client.models.generate_content(
        model=FAST_MODEL,
        contents=f"次の記事を分類し、自信度を0〜1で添えてください。\n\n{text}",
        config=types.GenerateContentConfig(
            response_mime_type="application/json",
            response_schema=Verdict,
            temperature=0,
        ),
    )
    return res.parsed
 
def classify_strong(text: str) -> str:
    res = client.models.generate_content(
        model=STRONG_MODEL,
        contents=f"次の記事を分類してください。\n\n{text}",
        config=types.GenerateContentConfig(temperature=0),
    )
    return res.text.strip()
 
def route(text: str, threshold: float) -> dict:
    v = classify_fast(text)
    if v.confidence < threshold:
        return {"answer": classify_strong(text), "model": STRONG_MODEL,
                "confidence": v.confidence, "escalated": True}
    return {"answer": v.answer, "model": FAST_MODEL,
            "confidence": v.confidence, "escalated": False}

ここまでは多くの方が組んでいる形だと思います。問題は最後の threshold をどう決め、どう保守するかです。自己申告の信頼度は便利ですが、モデルが「自分の自信」を正確に見積もれている保証はありません。だからこそ、この信頼度を外から検算する仕組みが要ります。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
Flash↔Pro の信頼度ルーターで「手で置いたしきい値が知らぬ間に劣化する」問題を、シャドウ再評価で数値として捕まえられるようになります
目標とする不一致率(品質予算)からしきい値を逆算する較正ロジックを、コピペで動く Python として入手できます
夜間ジョブが較正値を提案し、ヒステリシスとコスト上限で暴走を防ぐ運用構成を、判断の根拠ごと組み立てられます
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-06-16
既定モデルが上がっても折れない — Gemini 呼び出しに起動時の能力検出レイヤーを挟む設計
モデル名のピン留めも既定への依存も、どちらも静かに折れます。いま実際に届いているモデルが何をできるのかを起動時に確かめ、その結果でリクエストを組み立て直す能力検出レイヤーの設計と、コピペで動く Python を残します。
API / SDK2026-06-15
既定モデルが勝手に上がる時代に、プロンプト変更の劣化を数値で捕まえる — バリアント管理とカナリア評価の実装メモ
Gemini 3.5 Flash が既定に上がり、無効化もできなくなりました。プロンプトを触っていないのに応答が変わる前提で、バリアントを束ねて管理し、カナリアと LLM-as-judge で劣化を数値として捕まえる仕組みを、動くコードで組み立てます。
API / SDK2026-06-13
Gemini 3.5 Flash GA をどこから差し替えるか — ワークロード別の置き換え判定とモデルルーターによる段階導入の記録
Gemini 3.5 Flash GA への移行をモデル名の書き換え1行で済ませず、評価ハーネスでワークロード別に実測してから段階導入した記録です。判定基準・比較コード・環境変数ルーター・ロールバック設計をまとめます。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →