GEMINI LABEN
FLASH GA — Gemini 3.5 Flashが一般提供(GA)に。エージェント・コーディングで持続的なフロンティア性能を発揮する最も賢いモデルと位置づけられていますTOGGLE — Global・US・EUマルチリージョンでは6/16以降、Gemini 3.5 Flashの機能管理トグルが廃止されます。設定を参照している場合は確認が必要ですAGENTS — Managed Agentsが公開プレビューで登場。Googleホストの隔離Linuxサンドボックス内で動く自律的・ステートフルなエージェントを構築・デプロイできますIMAGE — 画像プレビュー2モデル(gemini-3.1-flash-image-preview・gemini-3-pro-image-preview)が6/25に廃止。後継モデルへの移行が必要ですSEARCH — File Searchがマルチモーダル対応。gemini-embedding-2により画像をネイティブに埋め込み・検索できるようになりましたCLI — Gemini CLIとCode Assistが6/18で個人向け提供終了。無料ユーザーとAI Pro/Ultra加入者はAntigravity CLIへ誘導されますFLASH GA — Gemini 3.5 Flashが一般提供(GA)に。エージェント・コーディングで持続的なフロンティア性能を発揮する最も賢いモデルと位置づけられていますTOGGLE — Global・US・EUマルチリージョンでは6/16以降、Gemini 3.5 Flashの機能管理トグルが廃止されます。設定を参照している場合は確認が必要ですAGENTS — Managed Agentsが公開プレビューで登場。Googleホストの隔離Linuxサンドボックス内で動く自律的・ステートフルなエージェントを構築・デプロイできますIMAGE — 画像プレビュー2モデル(gemini-3.1-flash-image-preview・gemini-3-pro-image-preview)が6/25に廃止。後継モデルへの移行が必要ですSEARCH — File Searchがマルチモーダル対応。gemini-embedding-2により画像をネイティブに埋め込み・検索できるようになりましたCLI — Gemini CLIとCode Assistが6/18で個人向け提供終了。無料ユーザーとAI Pro/Ultra加入者はAntigravity CLIへ誘導されます
記事一覧/API / SDK
API / SDK/2026-06-14上級

Gemini 3 Deep Think を検証ステップに使ってコストが3倍になった話と、thinking_level で天井を作るまで

API 経由で開放された Gemini 3 Deep Think を出力検証に組み込んだところ、月のコストが想定の約3倍に膨らみました。thinking_level とコストガードレールで上限を作り、Flash との二段構えに落ち着くまでの実装記録です。

gemini76deep-think4gemini-api233cost3reasoning4

プレミアム記事

検証ステップに Gemini 3 Deep Think を入れた翌週、API の請求見込みが普段の約3倍になっていました。

私は個人開発で4つの技術ブログ(Dolice Labs)の記事生成を自動化しているのですが、生成した記事を公開前に「事実の言い過ぎがないか」「コード例が壊れていないか」を機械的にチェックする工程を持っています。これまでは Flash に採点させていました。2026年6月にあった更新で Deep Think が API からも一部呼べるようになったので、「採点の精度を上げたい」と単純に差し替えてみたのです。

結果は精度こそ上がったものの、コストの上がり方が予想を超えていました。Deep Think は答えを出す前に長い推論を回します。その推論トークンが、入力・出力とは別に請求へ効いてきます。検証は1日に何十件も走るので、1件あたりの差が積み上がって効いてくるわけです。

この記事は、その膨張を thinking_level とコストガードレールで抑え込み、最終的に Flash との二段構えに落ち着くまでの実装記録です。Deep Think を「賢いけれど高い道具」として、必要な場面にだけ使うための線引きを共有します。

なぜ Deep Think の検証は高くつくのか

通常のモデル呼び出しでは、コストはおおむね「入力トークン + 出力トークン」で見積もれます。ところが Deep Think のような深い推論モデルは、最終的な回答を書く前に内部で長い思考を展開します。この思考も計算であり、課金対象です。

検証タスクは特にこれと相性が悪いと感じました。「この記事に誇張表現はありますか」という問いは、Deep Think からすると考えがいのある問題に見えてしまい、勝手に深く考え込みます。出力は「OK」か「要修正」の短い判定で十分なのに、そこへ至るまでの思考が膨らむのです。

つまり Deep Think の検証コストは、出力の短さからは想像できません。見えにくい推論トークンこそが主役で、ここを制御しない限り単価は安定しません。

thinking_level で推論の深さに上限を作る

最初に効いたのは、推論の深さそのものに上限を設けることでした。Gemini 3 系では thinking_level で思考の度合いを指定できます。検証のように「正解が短く、判断基準が明確」なタスクでは、最大まで考えさせる必要はありません。

from google import genai
from google.genai import types
 
# GEMINI_API_KEY を環境変数から読み込みます
client = genai.Client()
 
def verify_article(article_text: str) -> str:
    """記事を検証し、JUDGE: OK / JUDGE: REVISE のどちらかを含む短い結果を返します。"""
    prompt = (
        "あなたは技術記事の事実確認を行う校閲者です。"
        "次の記事に、誇張表現・壊れたコード例・明らかな事実誤りがあるかを判定してください。"
        "問題がなければ 'JUDGE: OK'、修正が必要なら 'JUDGE: REVISE' を1行目に書き、"
        "理由を3行以内で続けてください。\n\n---\n" + article_text
    )
 
    response = client.models.generate_content(
        model="gemini-3-deep-think",
        contents=prompt,
        config=types.GenerateContentConfig(
            # 検証は深く考えすぎる必要がないため low に固定します
            thinking_config=types.ThinkingConfig(thinking_level="low"),
            # 出力も短く保ち、無駄な長文を防ぎます
            max_output_tokens=200,
        ),
    )
    return response.text
 
print(verify_article("(ここに記事本文)"))
# 期待される出力例:
#   JUDGE: REVISE
#   3つ目のコード例で client.generate() を呼んでいますが、正しくは client.models.generate_content() です。

thinking_levelhigh のままにしていたのが、コスト膨張のいちばん大きな原因でした。low に落とすと、検証の正答率はほとんど変わらないのに、1件あたりの思考トークンが大きく減りました。深く考えてほしい設計・数学の問題と、短い判定を返すだけの検証とでは、必要な思考量がまるで違うのです。

私はこの場面では low を既定にして、後述する「灰色のケース」だけ high に上げる運用を好んでいます。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
Deep Think を検証用途に入れて月コストが跳ねた人が、thinking_level とガードレールで上限を取り戻せます
Flash で一次判定し Deep Think は判断に迷うケースだけに回す、コピペで動く二段構えの実装が手に入ります
推論トークンが請求にどう乗るかを把握し、検証1件あたりの単価を見積もれるようになります
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-06-13
Gemini 3.5 Flash GA をどこから差し替えるか — ワークロード別の置き換え判定とモデルルーターによる段階導入の記録
Gemini 3.5 Flash GA への移行をモデル名の書き換え1行で済ませず、評価ハーネスでワークロード別に実測してから段階導入した記録です。判定基準・比較コード・環境変数ルーター・ロールバック設計をまとめます。
API / SDK2026-05-18
Gemini Vision で壁紙アプリの自動カテゴリ分類を実装した話
累計5,000万DL超の壁紙アプリ運営者が、Gemini Vision APIを使って壁紙画像の自動カテゴリ分類を実装した実体験を紹介します。精度改善のプロセスと、公式ドキュメントには載っていない落とし穴も含めて解説します。
API / SDK2026-05-16
Gemini Vision で壁紙アプリのカテゴリ自動分類を試した — 精度と落とし穴の実記録
壁紙アプリ(累計5,000万DL超)の運営者が Gemini Vision を使って画像カテゴリ自動分類を実装。精度67%→87%への改善プロセスと、個人開発者が実運用で感じた限界を具体的に紹介します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →