GEMINI LABEN
FLASH GA — Gemini 3.5 Flashが一般提供(GA)に。エージェント・コーディングで持続的なフロンティア性能を発揮する最も賢いモデルと位置づけられていますTOGGLE — Global・US・EUマルチリージョンでは6/16以降、Gemini 3.5 Flashの機能管理トグルが廃止されます。設定を参照している場合は確認が必要ですAGENTS — Managed Agentsが公開プレビューで登場。Googleホストの隔離Linuxサンドボックス内で動く自律的・ステートフルなエージェントを構築・デプロイできますIMAGE — 画像プレビュー2モデル(gemini-3.1-flash-image-preview・gemini-3-pro-image-preview)が6/25に廃止。後継モデルへの移行が必要ですSEARCH — File Searchがマルチモーダル対応。gemini-embedding-2により画像をネイティブに埋め込み・検索できるようになりましたCLI — Gemini CLIとCode Assistが6/18で個人向け提供終了。無料ユーザーとAI Pro/Ultra加入者はAntigravity CLIへ誘導されますFLASH GA — Gemini 3.5 Flashが一般提供(GA)に。エージェント・コーディングで持続的なフロンティア性能を発揮する最も賢いモデルと位置づけられていますTOGGLE — Global・US・EUマルチリージョンでは6/16以降、Gemini 3.5 Flashの機能管理トグルが廃止されます。設定を参照している場合は確認が必要ですAGENTS — Managed Agentsが公開プレビューで登場。Googleホストの隔離Linuxサンドボックス内で動く自律的・ステートフルなエージェントを構築・デプロイできますIMAGE — 画像プレビュー2モデル(gemini-3.1-flash-image-preview・gemini-3-pro-image-preview)が6/25に廃止。後継モデルへの移行が必要ですSEARCH — File Searchがマルチモーダル対応。gemini-embedding-2により画像をネイティブに埋め込み・検索できるようになりましたCLI — Gemini CLIとCode Assistが6/18で個人向け提供終了。無料ユーザーとAI Pro/Ultra加入者はAntigravity CLIへ誘導されます
記事一覧/API / SDK
API / SDK/2026-06-15上級

既定モデルが勝手に上がる時代に、プロンプト変更の劣化を数値で捕まえる — バリアント管理とカナリア評価の実装メモ

Gemini 3.5 Flash が既定に上がり、無効化もできなくなりました。プロンプトを触っていないのに応答が変わる前提で、バリアントを束ねて管理し、カナリアと LLM-as-judge で劣化を数値として捕まえる仕組みを、動くコードで組み立てます。

gemini77gemini-api234prompt-engineering13canary2llm-as-judge5production83

プレミアム記事

先日、Gemini 3.5 Flash が一般提供になり、Enterprise 系のアプリでは既定モデルとして有効化され、無効化トグルまで消えました。私はこの知らせを読みながら、半年ほど前に味わった気味の悪い半日を思い出していました。個人開発でチャット系のアプリを運用していたのですが、プロンプトは一文字も変えていないのに、ある朝から一部のユーザー層だけ応答のトーンが妙に硬くなった。ログを追っても変更履歴は空っぽで、原因にたどり着くまでに午前中がまるごと溶けました。

結論から言えば、背後でモデルのチェックポイントが入れ替わっていた、というのが私の推測です。確証は取れませんでした。確証が取れない、という事実こそが問題でした。プロンプトを「いつ・誰が・なぜ変えたか」しか記録していなかったので、モデル側が動いたときに切り分ける物差しが手元になかったのです。

「触っていないのに変わる」を前提に計測を組む

既定が 3.5 Flash に上がり、しかも無効化できないということは、API を指定なしで叩いている自動化にとって「ある日から挙動が変わる」が制度として起こるということです。これは事故ではなく仕様の側の話なので、こちらの設計で受け止めるしかありません。

受け止め方は一つだけです。応答を生む条件を毎回スナップショットとして固定し、その条件ごとに品質を継続計測する。チャットのように正解が一つに定まらないワークロードでは、ユニットテストが「エラーは出ていない」以上のことを教えてくれません。エラーゼロのまま品質だけが沈んでいく劣化を、テストは素通りさせます。だからこそ、プロンプトを明示的な「バージョン」として扱い、本番トラフィックの上で複数版を並走させながら数値で比べる仕組みが要ります。

ここで私が強く勧めたいのは、版管理の単位を「プロンプト文字列」にしないことです。プロンプトだけ版を切っても、裏でモデルやサンプリングパラメータが独立に動くと、計測した差がどの要因のものか永遠に確定できません。版管理の単位は「プロンプト + モデルID + サンプリング設定」を一つに束ねたバリアントにします。これが本稿の背骨です。

全体像 — 4つの部品と、shadow を挟む理由

組み上げるのは次の4つです。

Prompt Registry は、バリアントを Firestore のドキュメントとして持つ小さなレジストリです。配信中か、控え室にいるか、退役したかを status で制御します。Traffic Splitter は、ユーザーIDとタスクキーから決定論的にバリアントを選ぶロジックです。同じ人には常に同じ版が返るので、比較が途中で崩れません。Metrics Collector は API 呼び出しを包む薄いラッパーで、どのバリアントが、どれだけのレイテンシとトークンで、成功したか失敗したかを必ず1レコード残します。Evaluation Loop は、溜まったログをサンプリングして審判モデルで採点し、バリアント別の平均スコアの差を見る評価バッチです。

設計上のいちばんの工夫は、statusactiveshadow を分けて持たせることです。active は実トラフィックに出ますが、shadow は出しません。控え室に置いたまま、少数のサンプルでオフライン採点だけ回します。いきなりユーザーに当てる前に「この版は明らかに弱い」を捨てられる関所を持っておくと、本番投入の事故がはっきり減ります。私はこの関所を入れてから、新バリアントを当てる手つきがずいぶん大胆になりました。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
プロンプト・モデル・サンプリングを1つの「バリアント」に束ね、決定論ハッシュで安定した割り当てを作る Firestore レジストリの実装
新バリアントを shadow → カナリア → 昇格の3段で進め、最低サンプル数を満たすまで勝ち判定を凍結する運用ルール
応答より一段強い gemini-3-pro を審判に使い、回帰を平均スコア差と簡易 z 値で検知する評価バッチのコード
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-03-25
Gemini API プロンプト評価・最適化パイプライン構築ガイド — LLM-as-Judge で品質を自動計測する
Gemini API を使ったプロンプト評価パイプラインの構築方法を解説。LLM-as-Judge パターン、A/Bテスト、自動スコアリング、コスト対品質の最適化まで、本番運用に必要な実装を網羅します。
API / SDK2026-06-13
Gemini 3.5 Flash GA をどこから差し替えるか — ワークロード別の置き換え判定とモデルルーターによる段階導入の記録
Gemini 3.5 Flash GA への移行をモデル名の書き換え1行で済ませず、評価ハーネスでワークロード別に実測してから段階導入した記録です。判定基準・比較コード・環境変数ルーター・ロールバック設計をまとめます。
API / SDK2026-05-23
Gemini API × Sentry でLLMエラー追跡とプロンプト失敗を観測する本番運用パイプライン
Sentry のエラートラッキングと Gemini API 固有の失敗パターンを組み合わせ、プロンプト崩壊・安全フィルタ発火・トークン超過まで本番で観測する実装パイプラインを設計します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →