GEMINI LABEN
MODEL — Gemini 3.5 Flashが一般提供。3.1 Proをほぼ全ベンチで上回りつつ高速に動きますAPI — Interactions APIがGAに到達。Geminiモデルとエージェントを扱う主要APIになりましたAGENTS — Managed Agentsが公開プレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを動かせますCOST — Project Spend Capsでプロジェクト単位のGemini API月額上限を設定できますSHEETS — Gemini in Sheetsが周辺データを解析し、数式エラーをワンクリックで診断・修正しますSTUDIO — Google AI Studioが刷新され、スターターアプリのギャラリーが拡充されましたMODEL — Gemini 3.5 Flashが一般提供。3.1 Proをほぼ全ベンチで上回りつつ高速に動きますAPI — Interactions APIがGAに到達。Geminiモデルとエージェントを扱う主要APIになりましたAGENTS — Managed Agentsが公開プレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを動かせますCOST — Project Spend Capsでプロジェクト単位のGemini API月額上限を設定できますSHEETS — Gemini in Sheetsが周辺データを解析し、数式エラーをワンクリックで診断・修正しますSTUDIO — Google AI Studioが刷新され、スターターアプリのギャラリーが拡充されました
記事一覧/API / SDK
API / SDK/2026-06-26上級

Gemini 3.5 Flash は本当に安いのか — リトライ増幅を実測して Flash と Pro の損益分岐を出す

3.5 Flash が一般提供になった今、全部を Flash に寄せたくなります。でも単価ではなく成功1件あたりの実効コストで見ると判断が変わります。リトライ増幅を実測する最小ハーネスと損益分岐の出し方を共有します。

Gemini 3.5 Flash3コスト最適化20モデルルーティング2リトライ設計個人開発68

プレミアム記事

3.5 Flash が一般提供になった日、私はまず自動投稿パイプラインのモデル割り当てを見直したくなりました。速くて安い上位 Flash が来たなら、下書きも仕上げも全部これでいいのではないか、と。個人開発で複数サイトを無人で回していると、回転数がそのまま成果に効くので、安くて速いモデルは魅力的に映ります。

ところが手元の小さなサンプルで実効コストを測り直したところ、入力の一部では「全部 Flash」がかえって高くつくことが見えてきました。原因は単価ではなく、難しい入力で発生するリトライ増幅です。ここでは、その増幅を実測する最小ハーネスと、Flash と上位ティアの損益分岐点を自分のデータで出す手順を、動くコードとともに共有します。私自身、難バケットの実効コストを甘く見積もって痛い目に遭ったので、その反省も込めて書きます。数字は私の手元の代表値で、入力分布によって動きます。鵜呑みにせず、ご自身のパイプラインで測り直すための型として読んでいただけたら嬉しいです。

「単価が安い」と「実際に安い」がずれる理由

モデル比較の多くは100万トークンあたりの単価で語られます。確かに Flash は上位 Pro より入出力ともに安く、1回の呼び出しだけを見れば明確に得です。けれども自動運用で効いてくるのは、1回の単価ではなく成功1件を確定させるまでに支払った合計です。

難しい入力に弱いモデルを当てると、次のことが連鎖します。出力が品質ゲートを通らず破棄される、リトライで同じ入力を再投入する、それでも通らずに上位ティアへ格上げする。素朴な単価表ではこの連鎖が見えません。私自身、最初は「Flash は半額だから半分になる」と素朴に見積もって、難バケットで請求が想定より膨らんだ経験があります。

観点素朴な単価比較実効コスト
測る単位1回の呼び出し成功1件の確定まで
含むもの入出力トークン単価失敗試行・リトライ・格上げの合計
難入力での挙動変わらない(安く見える)試行回数が増えて単価差を打ち消す
判断への影響「全部 Flash」に傾く入力難易度で初手を変える方が安くなる場合がある

ポイントは、実効コストは入力の難易度分布に依存するということです。易しい入力ばかりなら Flash 一択でよく、難しい入力が一定割合混じると話が変わります。だからこそ、一般論ではなく自分の分布で測る必要があります。

まず増幅を見える化する:成功するまで走らせて記録する

最初にやるべきは、最適化ではなく計測です。入力を難易度バケットに分け、各モデルで「品質ゲートを通るまで」走らせて、試行回数・トークン・格上げ・実効コストを記録します。次の最小ハーネスは Google GenAI SDK を前提にしています。

import { GoogleGenAI } from "@google/genai";
 
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY ?? "YOUR_GEMINI_API_KEY" });
 
// 100万トークンあたりの代表単価(USD)。必ず最新の料金で置き換えてください。
const PRICES = {
  "gemini-3.5-flash": { in: 0.30, out: 2.50 },
  "gemini-3.1-pro":   { in: 2.00, out: 12.0 },
} as const;
type ModelId = keyof typeof PRICES;
 
function callCost(model: ModelId, inTok: number, outTok: number): number {
  const p = PRICES[model];
  return (inTok / 1_000_000) * p.in + (outTok / 1_000_000) * p.out;
}
 
// 成功条件は「品質ゲートを通ること」。安く速い誤答を成功と数えないための関門です。
type Gate = (text: string) => boolean;
 
interface Attempt { model: ModelId; inTok: number; outTok: number; passed: boolean; }
 
async function runOnce(model: ModelId, prompt: string, gate: Gate): Promise<Attempt> {
  const res = await ai.models.generateContent({ model, contents: prompt });
  const text = res.text ?? "";
  const u = res.usageMetadata;
  return {
    model,
    inTok: u?.promptTokenCount ?? 0,
    outTok: u?.candidatesTokenCount ?? 0,
    passed: gate(text),
  };
}

ここで強調したいのは、成功条件をモデルの「返答が返ってきたか」ではなく品質ゲートの通過に縛ることです。これを緩めると、安く速いだけの誤答を成功として数えてしまい、実効コストが実態より良く見えてしまいます。私の自動投稿では、スキーマ検証と固有名詞の一致チェックを成功条件にしています。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
単価ではなく「成功1件あたりの実効コスト」で測るための、難易度バケット別ハーネス(動くTypeScript)
Flash 固定の素朴なリトライが難入力で試行回数とコストを増幅させる仕組みと、初手ティア選択への作り替え
易・中・難の混合比を振って Flash-only / Pro-only / routed の損益分岐点を出すシミュレーションの手順
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

開発ツール2026-06-20
Geminiの工程別モデル割り当て — 下書きはFlash、仕上げは上位ティアで回す自動運用の組み方
Gemini 3.5 Flash の一般提供と 3.1 Flash-Lite の展開を機に、自動運用パイプラインの工程ごとにモデルを割り当て直した記録です。下書き・分類・仕上げの3段に分けるルーターの実装と、コストの見え方の変化、運用で決めた歯止めのルールを紹介します。
API / SDK2026-06-22
Gemini APIで商品画像を構造化分析する — 数千枚を回して固めた本番パイプライン
商品画像から自動でタグ・説明文・カテゴリを生成するツールを、単発の試作から数千枚を安定処理する本番パイプラインへ。構造化出力・再開可能なバッチ・実測コスト・モデルルーティングまで、個人開発の運用で固めた知見をまとめます。
API / SDK2026-06-21
Gemini Batch API でアプリレビュー8,000件を一晩で分類し、ポーリングを Webhooks に寄せるまで
個人開発の6アプリで溜まった約8,000件のレビューを Gemini Batch API で一晩のうちに分類した実装メモに、2026年6月のイベント駆動 Webhooks で翌朝のポーリングを置き換える設計を加えました。コスト・所要時間の実数値、複合キー設計、ハングジョブの見切り、期限つき非推奨の管理まで、動くコード付きで残します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →