GEMINI LABEN
CHROME — Gemini in ChromeがAndroidに6月下旬展開。Nano Bananaとauto browseを同梱し、RAM 4GB以上・en-USの端末から段階提供OMNI-FLASH — Gemini Omni FlashがAI Plus/Pro/Ultraの全サブスクライバーへロールアウト。YouTube Shorts RemixとCreateでは18歳以上に無料開放DEADLINE — 画像previewモデル(gemini-3.1-flash / 3-pro image-preview)の停止まで残り12日(6/25)。GA版への移行はお早めにSCHEMA — Interactions APIの旧スキーマは6/8に削除済み。steps配列と新response_formatへの移行が完了しているか要確認ですFLASH-GA — Gemini 3.5 Flashが一般提供。Antigravity・Gemini API・AI Studio・Android Studioから利用できますSUITE — Deep Think・Deep Research・Gemini Live・Gemini Omniが出揃い、「考える→調べる→話す→作る」が一つの流れにCHROME — Gemini in ChromeがAndroidに6月下旬展開。Nano Bananaとauto browseを同梱し、RAM 4GB以上・en-USの端末から段階提供OMNI-FLASH — Gemini Omni FlashがAI Plus/Pro/Ultraの全サブスクライバーへロールアウト。YouTube Shorts RemixとCreateでは18歳以上に無料開放DEADLINE — 画像previewモデル(gemini-3.1-flash / 3-pro image-preview)の停止まで残り12日(6/25)。GA版への移行はお早めにSCHEMA — Interactions APIの旧スキーマは6/8に削除済み。steps配列と新response_formatへの移行が完了しているか要確認ですFLASH-GA — Gemini 3.5 Flashが一般提供。Antigravity・Gemini API・AI Studio・Android Studioから利用できますSUITE — Deep Think・Deep Research・Gemini Live・Gemini Omniが出揃い、「考える→調べる→話す→作る」が一つの流れに
記事一覧/API / SDK
API / SDK/2026-06-13上級

Gemini 3.5 Flash GA をどこから差し替えるか — ワークロード別の置き換え判定とモデルルーターによる段階導入の記録

Gemini 3.5 Flash GA への移行をモデル名の書き換え1行で済ませず、評価ハーネスでワークロード別に実測してから段階導入した記録です。判定基準・比較コード・環境変数ルーター・ロールバック設計をまとめます。

gemini72gemini-api226gemini-3-5-flash2model-migration3production75

プレミアム記事

6月8日に Gemini Enterprise で 3.5 Flash の機能管理トグルが廃止され、全ユーザーでデフォルト有効・無効化不可になったというニュースを見て、ふと自分の API 側の構成を確認しました。アプリ向けの分類バッチも記事メタデータ生成も、まだ gemini-2.5-flash のままです。Enterprise 側では「もう選べない」段階まで来ているのに、API 側の自分の判断だけが止まっている。この非対称が気になって、週末に移行の棚卸しをすることにしました。

結論から書くと、私は 4 本のパイプラインのうち 3 本を gemini-3.5-flash に切り替え、1 本を意図的に旧モデルに残しました。「全部まとめて書き換える」のでも「様子見で何もしない」のでもなく、ワークロード単位で実測して判定する。その過程で書いた評価ハーネスとモデルルーターの実装を、判断の根拠ごと残しておきます。

「Flash が主力」前提でモデル構成を見直す

Google I/O 2026 で GA になった Gemini 3.5 Flash は、従来の「Flash = 軽量・廉価版」という位置づけを崩しました。公称ではエージェント・コーディング系ベンチマークで Gemini 3.1 Pro を上回りつつ、速度は他のフロンティアモデル比で約 4 倍とされています。一方で Gemini 3.5 Pro は I/O で「6月 GA」と表明されたまま、現時点では Vertex の一部エンタープライズ向け限定プレビューにとどまっています。

つまり 2026 年 6 月時点の現実的な選択肢はこうなります。

  • gemini-3.5-flash: GA。エージェント・コーディング用途の事実上の主力
  • gemini-3.1-pro: 引き続き利用可能だが、ベンチマーク上は 3.5 Flash に抜かれた領域がある
  • gemini-2.5-flash: 安定稼働中の既存パイプラインが多く残る世代
  • gemini-3.1-flash-lite: 5月7日 GA。コスト最優先の単純タスク向け

この構図で悩ましいのは、「新しい方が良いに決まっている」と言い切れないことです。モデルが変わると出力の癖が変わり、後段のパーサーや品質チェックが静かに壊れます。私は過去に画像生成モデルの移行で、コード差分自体は数行なのに検証に丸一日かかった経験があります(そのときの記録は Gemini の画像生成 preview モデルが 6月25日に停止します — GA 版への移行で確認したコード差分と検証手順 に書きました)。テキスト系でも同じことが起きる前提で進めます。

ワークロード別の置き換え判定 — 4 本のパイプラインをどう振り分けたか

個人開発で運営している壁紙アプリ群とブログ運営の裏側では、Gemini API を使う処理が大きく 4 種類動いています。それぞれ要求特性が違うので、一括移行ではなく個別判定にしました。

  • 画像メタデータの分類バッチ(夜間): 出力は固定スキーマの JSON。求めるのは形式の安定と単価。レイテンシはほぼ無関係
  • 記事メタデータ生成(description・タグ候補): 日本語の自然さと文字数制約の遵守が重要。形式逸脱は後段で検知できる
  • App Store・Google Play レビューへの返信下書き: トーンの一貫性が最優先。モデルが変わると「声」が変わるリスクが最も高い
  • エージェント的な多段タスク(リサーチ→整形→検証): ツール呼び出しの判断精度と速度が効く。3.5 Flash の得意領域のはず

判定の軸は 3 つに絞りました。第一に、出力形式の安定性が後段の機械処理に直結するか。第二に、モデルの「声」の変化がユーザーに見えるか。第三に、速度・精度の改善が体感できる規模か。この 3 軸で見ると、レビュー返信だけは「ユーザーに声が見える」かつ「改善の体感が小さい」ので、移行を急ぐ理由がないと判断できます。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
「モデル名を書き換えたら品質が落ちた」という移行失敗を避け、手元のワークロードごとに 3.5 Flash の採否を判定できるようになる
レイテンシ・トークン消費・出力形式の安定性を自前タスクで実測する評価ハーネスを、コピペで動く Python コードとして入手できる
環境変数 1 つで旧モデルに即時ロールバックできるモデルルーター構成を、障害時フォールバックと共通の仕組みとして構築できる
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-06-12
Gemini の画像生成 preview モデルが 6月25日に停止します — GA 版への移行で確認したコード差分と検証手順
6月25日に停止する gemini-3.1-flash-image-preview / gemini-3-pro-image-preview から GA 版へ移行した作業記録です。モデルIDの確認手順、Python のコード差分、停止前にしかできない回帰チェック、切り替え順序まで実例で整理しました。
API / SDK2026-05-30
Gemini API の多段パイプラインに『残り時間予算』を伝播させる設計 — 4 秒 SLA を守りながら品質を段階的に落とす実装メモ
個人開発のヘルプ検索機能で多発した DEADLINE_EXCEEDED を、リクエスト単位の締め切り予算を埋め込み・検索・生成の各段に伝播させる設計で解消した記録です。残り時間に応じて maxOutputTokens を縮め、フォールバック予算を確保する実装を TypeScript でまとめています。
API / SDK2026-05-28
Gemini API の SLO と Error Budget を個人開発で運用する設計 — 4 サイトの可用性を Burn Rate 監視で守る
Gemini API を 4 サイトの本番運用に組み込んできた立場から、個人開発でも実装できる SLO と Error Budget の運用設計をまとめました。Cloudflare Workers と KV を使った Burn Rate 計算、Multi-Window アラート、エラー予算消費時の機能凍結ルールを動くコード付きで共有します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →