GEMINI LABEN
SIRI — WWDC 2026で刷新版SiriがGoogle Geminiモデルで動くと確定。ただしEUではDMAによりiOS 27時点で提供されませんFLASH3.5 — Gemini 3.5 FlashがGA。エージェント・コーディングで持続的なフロンティア性能を発揮する最上位FlashモデルですIMAGE-GA — Gemini 3.1 Flash Image / 3.1 Pro Imageがネイティブ視覚モデルとしてGA。preview版は6/25に終了予定MANAGED-AGENTS — Gemini APIでManaged Agentsが公開プレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを構築できますFILE-SEARCH — File Searchがマルチモーダル対応。gemini-embedding-2で画像のネイティブ埋め込み・検索が可能になりましたDEPRECATION — gemini-3.1-flash-image-preview / gemini-3-pro-image-previewは6/25に停止。GA版への移行をお早めにSIRI — WWDC 2026で刷新版SiriがGoogle Geminiモデルで動くと確定。ただしEUではDMAによりiOS 27時点で提供されませんFLASH3.5 — Gemini 3.5 FlashがGA。エージェント・コーディングで持続的なフロンティア性能を発揮する最上位FlashモデルですIMAGE-GA — Gemini 3.1 Flash Image / 3.1 Pro Imageがネイティブ視覚モデルとしてGA。preview版は6/25に終了予定MANAGED-AGENTS — Gemini APIでManaged Agentsが公開プレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを構築できますFILE-SEARCH — File Searchがマルチモーダル対応。gemini-embedding-2で画像のネイティブ埋め込み・検索が可能になりましたDEPRECATION — gemini-3.1-flash-image-preview / gemini-3-pro-image-previewは6/25に停止。GA版への移行をお早めに
記事一覧/API / SDK
API / SDK/2026-05-02上級

Gemini API × Cloudflare Vectorize で完全エッジ RAG を構築する — 低レイテンシ・低コスト・グローバル配信の本番設計

Gemini Embedding と Cloudflare Vectorize を組み合わせ、Workers ランタイム上で完結する低レイテンシ・低コストの本番エッジ RAG を実装します。サブリクエスト制限の回避、リトライ、フォールバック、コスト試算まで踏み込みます。

gemini-api286cloudflare4vectorize2rag22edge2workers2production90

プレミアム記事

東京から見ると 200ms で返ってくる RAG が、ニューヨークやベルリンから触ると 1 秒近くかかる。最初にこの差を計測したとき、原因がアプリのコードではなくインフラの位置にあると気付くまで、私は数日を消費しました。Cloud Run(東京リージョン)+ マネージド Vector DB という構成では、海外ユーザーが世界の裏側にあるリージョンへ往復する以上、どうしても物理的な遅延が乗ってしまいます。

ここではその課題に対する一つの答えとして、Gemini Embedding と Cloudflare Vectorize を組み合わせた「完全エッジ RAG」の本番構成を共有します。Workers のサブリクエスト制限や JSON ボディ上限のような、ドキュメントには書かれていないけれど実装するとぶつかる落とし穴を中心に、コピペで動くコードと運用設計までまとめました。検証は本記事執筆時点(2026 年 5 月)の API バージョンで行っています。

なぜエッジ RAG なのか — 「速度」だけが目的ではありません

エッジ RAG というと、まず頭に浮かぶのは「グローバル低レイテンシ」だと思います。これは確かに大きな利点ですが、私が本番で運用してみて感じている価値は、それ以外にも 3 つあります。

1 つ目は コスト構造 です。Cloudflare Vectorize はインデックス料金とクエリ料金が極めて安く(後述しますが、500 万ベクトルでも月額 $1 弱)、無料枠も寛大です。マネージド Vector DB の固定インスタンス料金(月額 $70 から)と比べると、個人開発の規模では一桁から二桁の差になります。

2 つ目は 冷起動問題からの解放 です。Workers は基本的に冷起動を意識しなくて良い設計で、世界中のエッジで動的にスケールします。Lambda や Cloud Run のように初回呼び出しで数秒待たされる、という現象が起きません。RAG のような対話的な用途では、これが体感品質を大きく左右します。

3 つ目は デプロイの単純さ です。Vector DB・Embedding・LLM の API 呼び出し・フロントエンドが全て一つの Workers コードベースに入るため、CI/CD や監視の対象が劇的に減ります。個人開発で運用工数を最小化したいときに、この単純さは何より価値があります。

逆にトレードオフとしては、Workers の CPU 制限(1 リクエストあたり最大 50ms〜30 秒、プランによる)サブリクエスト数の上限(無料 50 / 有料 1000) があります。RAG では Embedding API + Vectorize クエリ + Gemini 生成で最低 3 サブリクエスト消費するため、後段でリランキングや複数クエリ展開を行う場合は注意が必要です。

全体アーキテクチャ — 4 つの構成要素

今回構築する構成は、以下の 4 つだけで完結します。Cloud Run も VM も不要です。

  • Cloudflare Workers(Hono フレームワーク):API エンドポイントとオーケストレーション
  • Cloudflare Vectorize:エッジ分散型のベクトルストア
  • Gemini Embedding APItext-embedding-004、768 次元):クエリと文書の埋め込み生成
  • Gemini 2.5 Flash:取得文書を踏まえた回答生成

データの流れは「クエリ受信 → Embedding 生成 → Vectorize 検索 → 取得文書をプロンプトに差し込んで Gemini で生成 → 回答返却」という標準的な RAG ですが、すべてが Workers ランタイム内で完結する点が肝です。なお関連する基礎は Gemini API を Cloudflare Workers で動かすエッジ AI 入門 と Hono × Cloudflare Workers でエッジ AI を構築するガイド でも触れていますので、Workers 自体に不慣れであれば先にそちらを参照してください。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
海外ユーザーへの応答が 800ms を超えていた RAG を、Workers + Vectorize の構成で 200ms 台に乗せ替えられる実装をそのまま入手できます
Gemini Embedding を Workers から呼び出す際のサブリクエスト制限・タイムアウト・JSON 上限といった『書いてみて初めて分かる落とし穴』を、回避コード付きで習得できます
月額数千円の予算でグローバル配信できるエッジ RAG の運用設計(コスト試算・モデル切替・キャッシュ戦略)を、自分のサービスにそのまま移植できるようになります
Stripe による安全な決済 · いつでもキャンセル可能
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-05-06
Gemini API × Cloudflare D1:エッジSQLデータベースでAIバックエンドのコストを月$10以下に抑える実装マスタークラス
Cloudflare Workers + D1(エッジSQLite)とGemini APIを組み合わせ、コールドスタートゼロ・グローバル低レイテンシー・月$10以下のAIバックエンドを構築する完全実装ガイド。スキーマ設計からレート制限・本番デプロイまで全工程を網羅。
API / SDK2026-05-25
Gemini API のセマンティックキャッシュ設計 — 埋め込みベース回答キャッシュで API コストを実用的に下げる
Gemini Embedding を使ったセマンティックキャッシュの設計と実装。完全一致キャッシュが効かない自由文プロンプトに対して、類似度しきい値・バージョン付きキー・TTL を組み合わせ、ヒット率と品質の両立を目指す実装パターンを Python と Cloudflare Vectorize のコード付きで解説します。
API / SDK2026-05-06
Gemini APIでRAG評価フレームワークを構築する:RAGAS・LLM-as-Judge・カスタム指標の統合本番実装マスタークラス
RAGAS・LLM-as-Judge・カスタム評価指標を組み合わせてGemini APIベースのRAGシステムを定量評価するフレームワークの完全実装ガイド。CI/CD組み込みと本番モニタリングまで解説します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →