GEMINI LABEN
API — Gemini APIのスループットが毎分160億トークン超となり、OpenAIとほぼ肩を並べる規模になりましたENTERPRISE — Gemini Enterpriseの有料シートが800万を超え、導入企業は2,800社超に拡大していますAGENT — Claude Opus 4.8がGemini Enterprise Agent Platformで利用可能になり、マルチベンダー化が進んでいますSPEECH — gemini-3.1-flash-tts-previewがstreamGenerateContentでストリーミング音声生成に対応しましたDATA — CrossbeamデータストアをGemini Enterpriseへ接続できる公開プレビューが始まりましたMODEL — Gemini 3.5 FlashのGAとGemma 4の提供で、エージェント用途と軽量用途の選択肢が揃いましたAPI — Gemini APIのスループットが毎分160億トークン超となり、OpenAIとほぼ肩を並べる規模になりましたENTERPRISE — Gemini Enterpriseの有料シートが800万を超え、導入企業は2,800社超に拡大していますAGENT — Claude Opus 4.8がGemini Enterprise Agent Platformで利用可能になり、マルチベンダー化が進んでいますSPEECH — gemini-3.1-flash-tts-previewがstreamGenerateContentでストリーミング音声生成に対応しましたDATA — CrossbeamデータストアをGemini Enterpriseへ接続できる公開プレビューが始まりましたMODEL — Gemini 3.5 FlashのGAとGemma 4の提供で、エージェント用途と軽量用途の選択肢が揃いました
記事一覧/API / SDK
API / SDK/2026-07-04上級

公開前に「意味が近すぎる過去記事」を弾く — Gemini Embedding でトピック共食いを防ぐ類似ゲート

記事数が数百本を超えると、新しく書いた記事が過去記事と検索面で共食いを起こします。gemini-embedding-2 で本文の意味ベクトルを持ち、公開前にコサイン類似で近すぎる既存記事を弾くゲートを、動くコードと閾値の決め方まで実装します。

gemini-api263embedding9semantic-search3seo3content-pipelinepython95

プレミアム記事

記事を書き終えて公開ボタンに手をかけた瞬間、「これ、前にも似たようなことを書いた気がする」と手が止まった経験はないでしょうか。私自身、個人開発で複数の技術ブログを回していると、コーパスが数百本を超えたあたりから、この既視感が頻繁に起きるようになりました。

やっかいなのは、タイトルも slug も違うのに、検索エンジンから見ると「ほぼ同じ問いに答える2本」になっているケースです。これは SEO の世界でキーワードカニバリゼーション(共食い)と呼ばれ、両方の記事の掲載順位が中途半端に下がる原因になります。人間の目視レビューでは、600本のうちどれと近いのかを毎回照合しきれません。

そこで私が実際に組んだのが、公開前に本文の意味ベクトルを既存記事群と突き合わせ、近すぎる記事があれば差し戻す「類似ゲート」です。画像の近重複を弾く仕組みは画像の近重複ゲートを作る記事で扱いましたが、今回はその文章版にあたります。gemini-embedding-2 の意味埋め込みを使い、閾値の決め方と誤検知の潰し方まで、運用で効いた順にお伝えします。

なぜ「キーワード一致」や「タイトル比較」では取りこぼすのか

最初に試したのは、タイトルと description の文字列一致でした。ところがこれは、ほとんど役に立ちませんでした。「Gemini API のコストを削る」と「Gemini の課金を月末に膨らませない設計」は、共通する単語がほぼないのに、読者の検索意図はほぼ同じです。逆に「Gemini でコストを削る」と「Gemini で画像を圧縮する」は「コスト」「Gemini」を共有しますが、まったく別の記事です。

表層の単語では、意味の距離を測れません。ここが埋め込み(embedding)の出番になります。埋め込みは文章を高次元のベクトルに変換し、意味が近い文章ほどベクトル空間上で近い位置に配置します。単語が一つも重ならなくても、「同じことを別の言い方で書いている」記事を、コサイン類似度という一つの数値で捉えられるようになります。

私の場合、この違いが如実に出たのは運用系の記事群でした。表現を変えながら似た運用ノウハウを書いていた3本が、文字列一致ではまったく引っかからず、埋め込みでは相互に 0.9 前後という高い類似度で並んだのです。

何を埋め込むか — 本文全体は逆効果になる

素朴に本文全文を1本のベクトルにすると、精度がむしろ落ちます。長い記事はコード例や余談で薄まり、核心のトピックがベクトルの中で埋もれるためです。試行錯誤の末、私が落ち着いたのは次の構成です。

  1. タイトル
  2. description(記事の主旨を160字で凝縮した一文)
  3. すべての H2・H3 見出し(記事の骨格そのもの)

この3要素を連結した「トピック要約テキスト」を埋め込みます。見出しは著者が意識的に付けた記事の設計図なので、本文の枝葉より意味の芯をよく表します。コード例や引用は意図的に外します。

import re
from pathlib import Path
 
def build_topic_text(mdx_path: Path) -> str:
    """MDX からトピック要約テキスト(タイトル+description+見出し)を組み立てる"""
    text = mdx_path.read_text(encoding="utf-8")
    m = re.match(r"^---\n(.*?)\n---\n(.*)$", text, re.DOTALL)
    front, body = m.group(1), m.group(2)
 
    def fm(key: str) -> str:
        mm = re.search(rf'^{key}:\s*"?(.*?)"?\s*$', front, re.MULTILINE)
        return mm.group(1) if mm else ""
 
    # コードブロックを除去してから見出しを抽出する
    body_no_code = re.sub(r"```.*?```", "", body, flags=re.DOTALL)
    headings = re.findall(r"^#{2,3}\s+(.*)$", body_no_code, re.MULTILINE)
 
    parts = [fm("title"), fm("description")] + headings
    return "\n".join(p for p in parts if p)

出力は「タイトル+主旨+全見出し」を改行で並べた1本のテキストになります。これを次のステップでベクトル化します。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
タイトル一致では見抜けない「意味が近すぎる記事」を、gemini-embedding-2 のコサイン類似で公開前に検出できるようになる
670本規模の実コーパスで効いた閾値(0.88で要判断・0.92で差し戻し)と、境界域だけ Gemini に判定させる二段構えの動くコードを手に入れられる
セクション単位のチャンク化・増分再インデックス・SQLite保存まで含めた、成長し続ける記事群を共食いさせない運用パターンを組める
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-07-02
Gemma 4 ローカル推論と Gemini API の使い分けで月額¥32,000を¥9,000台にした — ハイブリッドルーターの本番設計
月額¥32,000のGemini APIコストを¥9,000台まで下げたハイブリッド推論構成の記録です。ルーティング設計・Python実装・本番の落とし穴に加え、2026年7月のGemma 4 API提供開始を踏まえた構成見直しの指針もまとめました。
API / SDK2026-06-28
テキストと画像を同じ File Search に入れたら、検索が画像へ寄った — モダリティの偏りを取得後に均す設計
gemini-embedding-2 でテキストと画像を1つの File Search ストアに混ぜると、検索結果が片方のモダリティへ静かに偏ることがあります。スコア分布のずれを測り、モダリティ別の正規化とクォータ方式のマージで偏りを取得後に均す設計を、計測コードと一緒に共有します。
API / SDK2026-06-28
gemini-flash-latest が 3.5 Flash に切り替わっても深夜に事故らない『昇格ゲート』の設計
gemini-flash-latest のような可変エイリアスは GA のたびに中身が差し替わり、無人で回している自動処理の前提を静かに崩します。自前の役割→固定モデルID の間接層と、ゴールデンセットで4指標を測る受け入れハーネス、しきい値での昇格・自動ロールバックまでを実装コード付きで共有します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →