GEMINI LABEN
MODEL — Gemini 3.5 Flashが一般提供開始。3.1 Proをほぼ全ベンチで上回りつつ4倍高速に動作しますAGENTS — Managed AgentsがGemini APIでパブリックプレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを動かせますSEARCH — File Searchがマルチモーダル検索に対応。gemini-embedding-2で画像をネイティブに埋め込み・検索できますAPI — Batch APIや長時間処理向けにイベント駆動Webhooksが追加され、ポーリングを置き換えられますSTUDIO — Google AI Studioが自然言語からAndroidアプリを生成。Nano Bananaで画像も自動生成しますMIGRATION — Gemini CLIは6/18でEOL。Agentic 2.0 CLIへの移行が必要です(画像プレビュー2種は6/25停止)MODEL — Gemini 3.5 Flashが一般提供開始。3.1 Proをほぼ全ベンチで上回りつつ4倍高速に動作しますAGENTS — Managed AgentsがGemini APIでパブリックプレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを動かせますSEARCH — File Searchがマルチモーダル検索に対応。gemini-embedding-2で画像をネイティブに埋め込み・検索できますAPI — Batch APIや長時間処理向けにイベント駆動Webhooksが追加され、ポーリングを置き換えられますSTUDIO — Google AI Studioが自然言語からAndroidアプリを生成。Nano Bananaで画像も自動生成しますMIGRATION — Gemini CLIは6/18でEOL。Agentic 2.0 CLIへの移行が必要です(画像プレビュー2種は6/25停止)
TAG

テールレイテンシ

1 記事
タグ一覧に戻る
関連タグ:
Gemini API1p951SLO1ストリーミング1
Gemini API/2026-06-23上級

Gemini API の平均レイテンシは速いのに、たまに固まる — p95/p99 を守る運用メモ

平均TTFTは速いのに、一定割合のユーザーだけ応答が固まる — これはテールレイテンシ(p95/p99)の問題です。計測の取り方からモデルルーティング・ストリーミング予算・キャッシュ会計・リトライ設計まで、本番で効いた防衛策をコード付きで共有します。