GEMINI LABEN
DEPRECATION — 画像プレビューモデル2種が本日6/25に停止。利用中の自動化・スクリプトは本日中の移行が必須ですGA — 入れ替わりでgemini-3.1-flash-imageとgemini-3-pro-imageがネイティブ画像モデルの正式版になりましたMEDIA — 動画→画像生成に対応。動画を文脈として渡し高品質なサムネイル等を生成できます(3.1 flash image限定)AUDIO — Gemini 3.1 Flash TTSプレビューが追加。低コストで表情豊か、制御しやすい音声合成ですMODEL — Gemini 3.5 Flashは一般提供済み。3.1 Proをほぼ全ベンチで上回りつつ4倍高速に動作しますSEARCH — File Searchはマルチモーダル検索に対応。gemini-embedding-2で画像をネイティブに埋め込み・検索できますDEPRECATION — 画像プレビューモデル2種が本日6/25に停止。利用中の自動化・スクリプトは本日中の移行が必須ですGA — 入れ替わりでgemini-3.1-flash-imageとgemini-3-pro-imageがネイティブ画像モデルの正式版になりましたMEDIA — 動画→画像生成に対応。動画を文脈として渡し高品質なサムネイル等を生成できます(3.1 flash image限定)AUDIO — Gemini 3.1 Flash TTSプレビューが追加。低コストで表情豊か、制御しやすい音声合成ですMODEL — Gemini 3.5 Flashは一般提供済み。3.1 Proをほぼ全ベンチで上回りつつ4倍高速に動作しますSEARCH — File Searchはマルチモーダル検索に対応。gemini-embedding-2で画像をネイティブに埋め込み・検索できます
記事一覧/API / SDK
API / SDK/2026-06-25中級

Gemini 3.1 Flash TTS プレビューで記事を音声化する — 長文を割って繋ぐナレーション生成とコストの実際

本日プレビュー提供が始まった Gemini 3.1 Flash TTS で、書いた記事を一人語りの音声に変換するパイプラインを組みます。長文の分割と無音の継ぎ目、声を揺らさないプロンプト制御、1記事あたりの実コスト計算まで、個人開発の現場目線でまとめます。

gemini-3.1-flash-tts2text-to-speech3音声化stand.fmpython92コスト最適化19

プレミアム記事

書いた記事を音声でも届けたい、と思いながら見送ってきた理由は、私の場合はずっとコストでした。Dolice Labs では記事を継続的に公開していますが、その一本一本を TTS(音声合成)に通すと、品質とお金の折り合いがどうしても付かなかったのです。

本日プレビュー提供が始まった Gemini 3.1 Flash TTS は、その損益分岐をはっきり動かしてくれそうな更新でした。表情を保ったまま低コストで、しかも制御しやすい。記事の音声化のように「分量が多く・頻度も高い」用途では、この三拍子が効いてきます。ここでは、書いた記事を一人語りのナレーションに変換し、stand.fm のような場所に載せるところまでを、実装とコストの両面から整理します。

なぜ「プレビュー版の追加」が記事音声化の採算を変えるのか

記事の音声化は、一度きりの派手なデモとは性質が違います。毎日のように本文 3,000〜5,000 字を流し込み、それを何ヶ月も続けます。だからこそ、1記事あたりの単価がそのまま事業の重さになります。

これまで私が二の足を踏んでいたのは、表情のある音声を出せるモデルは単価が高く、安いモデルは棒読みになりがちという二択だったからです。Flash 系の TTS プレビューが入ってきたことで、その二択の真ん中に現実的な選択肢が生まれました。

判断材料を一枚にすると、見るべきは次の三点です。

  • 1記事あたりの文字数(=課金対象の分量)
  • 表情の制御がプロンプトでどこまで効くか(=録り直しの少なさ)
  • 失敗時の再生成コスト(=本番運用での目減り)

この記事の後半で、最初の項目は実際に円で見積もります。残りの二項目は、実装の作り方で吸収できる部分が大きいので、先にそちらを片付けていきます。

長文は一発で渡せない — 文単位で割って自然に繋ぐ

最初にぶつかる壁が、長文を丸ごと一回のリクエストに渡せないことです。TTS は1回の合成で扱える分量に上限があり、記事のような数千字をそのまま投げると途中で切れたり、後半の抑揚が崩れたりします。

句点で割り、長すぎる文だけ二次分割する

私は「文の途中では絶対に割らない」を原則にしています。文の途中で切ると、繋いだときに息継ぎが不自然になるためです。日本語なら句点(。)を一次の区切りにして、それでも長すぎる塊だけ読点で二次分割します。

import re
 
def split_for_tts(text: str, max_chars: int = 280) -> list[str]:
    """記事本文を TTS に渡せる単位へ分割する。
    文の途中では割らない。長すぎる文だけ読点で二次分割する。"""
    # 句点・改行で一次分割(句点は残す)
    raw = re.split(r"(?<=)\s*|\n+", text.strip())
    sentences = [s for s in raw if s]
 
    chunks: list[str] = []
    buf = ""
    for s in sentences:
        # 1文が上限を超える場合は読点で二次分割
        if len(s) > max_chars:
            parts = re.split(r"(?<=)", s)
        else:
            parts = [s]
        for p in parts:
            if len(buf) + len(p) <= max_chars:
                buf += p
            else:
                if buf:
                    chunks.append(buf)
                buf = p
    if buf:
        chunks.append(buf)
    return chunks
 
# 例: 4,000字の記事 → 280字前後のチャンク約20個に揃う

max_chars を 280 前後にしているのは、長すぎると抑揚が単調になり、短すぎると継ぎ目が増えるという、運用で見えてきた折衷点です。題材によって最適値は動くので、ここは触りながら決めてください。

PCM を継ぎ目なく結合する

Gemini の TTS は 24kHz・16bit・モノラルの PCM を返します。チャンクごとに音声を受け取り、生の PCM をそのまま連結すれば1本になります。注意点は、各チャンクの間に短い無音を挟むことです。無音ゼロで繋ぐと文と文がぶつかって聞き苦しく、長すぎると間延びします。私は文間に 0.25 秒の無音を入れています。

import struct
 
SAMPLE_RATE = 24000  # Gemini TTS の出力サンプルレート
SILENCE_SEC = 0.25   # 文間に挟む無音
 
def silence_pcm(seconds: float) -> bytes:
    n = int(SAMPLE_RATE * seconds)
    return struct.pack("<" + "h" * n, *([0] * n))  # 16bit 無音
 
def join_pcm(chunks_pcm: list[bytes]) -> bytes:
    gap = silence_pcm(SILENCE_SEC)
    out = bytearray()
    for i, pcm in enumerate(chunks_pcm):
        if i > 0:
            out += gap
        out += pcm
    return bytes(out)

この「割って・繋ぐ」を骨組みにすると、記事の長さが変わってもパイプラインはそのまま使い回せます。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
TTS のコストが高くて記事の音声化を諦めていた人が、1記事いくらかを自分で見積もれるようになります
数千字の長文を文単位で割り、無音の継ぎ目を作らず1本の音声に繋ぐ実装をコードごと手に入れられます
一人語りの声が途中で揺れる問題を、プロンプト制御で安定させる具体的な手順を持ち帰れます
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-05-02
Gemini 3.1 Flash TTS の感情タグと多話者機能で AI ポッドキャストを量産する — 商用コンテンツパイプラインの設計
Gemini 3.1 Flash TTS の200種類以上の感情タグ・多話者機能を活用し、AI ポッドキャストを自動生成する本番対応パイプラインを構築します。コスト計算から収益化設計まで、個人開発者が月10万円のコンテンツサービスを立ち上げるための全工程を解説します。
API / SDK2026-06-22
Gemini APIで商品画像を構造化分析する — 数千枚を回して固めた本番パイプライン
商品画像から自動でタグ・説明文・カテゴリを生成するツールを、単発の試作から数千枚を安定処理する本番パイプラインへ。構造化出力・再開可能なバッチ・実測コスト・モデルルーティングまで、個人開発の運用で固めた知見をまとめます。
API / SDK2026-06-21
Gemini API implicit caching が効かない・課金がおかしい — 原因別トラブルシューティング
Gemini API の implicit caching が効かない、キャッシュヒット率が低い、コスト削減を期待したのに請求が変わらないといった問題を、原因別に整理して解決策をコード付きで紹介します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →