GEMINI LABEN
OUTAGE — Geminiが過去最大級の障害(error 1076/1099)から回復へ。エンジニアリングチームの緩和策で影響は縮小中DAILY-BRIEF — 新エージェント「Daily Brief」が登場。夜間にinbox・カレンダー・タスクを分析し、朝のパーソナルダイジェストを生成GEMINI-OMNI — Geminiと生成メディアモデルを統合した動画AI「Gemini Omni」。プロンプトから一貫性のある高品質動画を生成ENTERPRISE — Gemini Enterpriseで3.5 Flashが6/8からデフォルト固定に。機能管理トグルは廃止され全ユーザーで有効DEPRECATION — 画像previewモデル(3.1-flash-image/3-pro-image)は6/25に停止。GA版への移行はお早めにFILE-SEARCH — File Searchがマルチモーダル検索に対応。gemini-embedding-2で画像をネイティブに埋め込み・検索OUTAGE — Geminiが過去最大級の障害(error 1076/1099)から回復へ。エンジニアリングチームの緩和策で影響は縮小中DAILY-BRIEF — 新エージェント「Daily Brief」が登場。夜間にinbox・カレンダー・タスクを分析し、朝のパーソナルダイジェストを生成GEMINI-OMNI — Geminiと生成メディアモデルを統合した動画AI「Gemini Omni」。プロンプトから一貫性のある高品質動画を生成ENTERPRISE — Gemini Enterpriseで3.5 Flashが6/8からデフォルト固定に。機能管理トグルは廃止され全ユーザーで有効DEPRECATION — 画像previewモデル(3.1-flash-image/3-pro-image)は6/25に停止。GA版への移行はお早めにFILE-SEARCH — File Searchがマルチモーダル検索に対応。gemini-embedding-2で画像をネイティブに埋め込み・検索
記事一覧/API / SDK
API / SDK/2026-04-02上級

Gemini API の月額5万円を8,400円まで下げた運用設計 — キャッシュ・モデル使い分け・Batch API の組み合わせ方

Gemini API の月額費用を52,000円から8,400円まで下げた実装と運用の記録です。暗黙・明示キャッシュの使い分け、Flash/Pro の自動ルーティング、Batch API への移行、usage_metadata による実測まで、本番で動かしているコードとともに整理します。

Gemini API131コスト削減4Context CachingBatch API運用設計2

プレミアム記事

請求額を見て手が止まった4月のこと

2026年4月、Gemini API の月次請求が 52,000円に達していました。

個人開発で運営しているサイト群の記事生成補助、要約パイプライン、アプリ内コンテンツのメタデータ生成。一つひとつは小さな処理です。それが積み重なった結果の数字でした。

売上に対して原価が重すぎる。そう判断して、2ヶ月かけて呼び出し設計を全面的に見直しました。結果として、同じ機能を維持したまま月額は 8,400円まで下がっています。

この記事は、その過程で実際に効いた施策を、効いた順番とコードつきで記録したものです。なお、トークン単価は改定されることがあるため、最新の数字は Gemini API の料金ページで確認いただければと思います。本文では「何が何割安くなるか」という構造の方を中心に書きます。

どこで費用が膨らむのか — 請求を分解して見えた3つの偏り

最初にやったのは、削減策を調べることではなく、自分の請求を分解することでした。1週間分の呼び出しログを集計して分かったのは、次の3つの偏りです。

  1. 入力トークンの大半が「毎回同じ前置き」だった。執筆ガイドラインや参照資料など、リクエストごとに同じ数万トークンを送り続けていました。全入力の約7割がこの固定部分でした
  2. 全リクエストの9割が Pro 系モデルに流れていた。タグ付けや短文要約のような軽いタスクまで、「品質が心配だから」という理由で高いモデルに投げていました
  3. リアルタイム性が不要な処理が6割以上あった。夜間に終わっていればよい集計・要約まで、すべて同期 API で即時実行していました

この3つがそのまま、後述する施策の優先順位になりました。逆に言えば、自分の請求を分解しないまま一般論のテクニックを足しても、効果の大きい順に手を打てません。最初の半日はログ集計に使うことをおすすめします。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
暗黙キャッシュと明示キャッシュの使い分け基準。明示キャッシュが逆に高くつく境界条件の見極め方
Flash と Pro を自動で使い分けるルーティング実装と、品質を落とさないための判定ルールの作り方
Batch API への移行手順と、usage_metadata ベースで費用を実測するロギング実装のコード
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-05-26
Gemini API のリクエスト coalescing と SSE Fan-out で同一プロンプトの100同時アクセスを1リクエストに集約する設計
個人開発で運用しているプッシュ通知後の同時アクセスを Cloudflare Durable Objects でリクエスト coalescing と SSE fan-out に分離し、API コストを 92% 削減した実測ログと設計判断の記録。
API / SDK2026-05-03
Gemini 2.5 Flash-Lite で API コストを 6 分の 1 に抑える
Gemini 2.5 Flash-Lite が正式 GA になりました。Flash や Pro との価格差を実数字で比較し、Python コード付きで使い方を解説します。分類・翻訳・抽出タスクで Flash-Lite を使うだけで API 費用を大幅に削減できます。
API / SDK2026-04-23
Gemini API を組み込んだ個人プロダクトのコスト暴走を防ぐ — 請求書を見てから慌てないためのガードレール設計
Gemini API を組み込んだ個人プロダクトで月末に「請求額を見て青ざめる」のは、ほぼ全員が一度は通る道です。私が壁紙アプリの AI 機能と、受託案件での Gemini 導入支援で繰り返し組み込んでいる、コスト暴走を未然に防ぐためのガードレール設計を実装込みで整理しました。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →