GEMINI LABEN
MODEL — Gemini 3.5 Flashが一般提供。エージェント・コーディング向けの最有力モデルとして公開されましたAGENT — Managed AgentsがGemini APIで公開プレビュー。隔離されたLinuxサンドボックスで自律エージェントを実行できますWEBHOOK — Event-driven WebhooksがBatch APIと長時間処理に対応し、ポーリングが不要になりましたSECURITY — 6/19以降、未制限APIキーからのリクエストが遮断されます。キーの制限設定を見直しましょうDEPRECATED — 画像プレビュー2モデルが6/25で停止します。preview依存のフローは早めに移行をCODEASSIST — 6/18より個人向けCode Assist拡張とCLIが、AI Pro/Ultra層への提供を停止しましたMODEL — Gemini 3.5 Flashが一般提供。エージェント・コーディング向けの最有力モデルとして公開されましたAGENT — Managed AgentsがGemini APIで公開プレビュー。隔離されたLinuxサンドボックスで自律エージェントを実行できますWEBHOOK — Event-driven WebhooksがBatch APIと長時間処理に対応し、ポーリングが不要になりましたSECURITY — 6/19以降、未制限APIキーからのリクエストが遮断されます。キーの制限設定を見直しましょうDEPRECATED — 画像プレビュー2モデルが6/25で停止します。preview依存のフローは早めに移行をCODEASSIST — 6/18より個人向けCode Assist拡張とCLIが、AI Pro/Ultra層への提供を停止しました
記事一覧/API / SDK
API / SDK/2026-06-30上級

長尺の音源を Gemini に「聴かせて」章立てを作る — タイムスタンプ付き構造化抽出の実装

1時間を超えるヒーリング音源を手作業で章立てしていた作業を、Gemini の音声理解でタイムスタンプ付きの構造化データに置き換えた実装記録です。Files API での長尺アップロード、response_schema での JSON 固定、そして実際にハマったタイムスタンプのずれ・幻の無音区間を検証で潰すところまで、動くコードで残します。

gemini-api257音声理解構造化出力10個人開発71Files API4

プレミアム記事

個人開発で運営しているヒーリング音アプリで、40分から80分ほどの長い音源に「章」を付ける作業がずっと手作業でした。波の音が遠ざかってピアノが入る境目、無音に近い余韻が続く区間、ナレーションが始まる位置——そういう切れ目を聴きながらメモして、再生位置の秒数を手で書き写す。1曲あたり15分、新譜をまとめて入れた週は半日が消えていました。

この「人が耳で位置を拾う」工程を、Gemini の音声理解にそのまま渡せないか試したのが今回の記録です。文字起こしの話ではありません。狙いは、音源を聴かせて「00:00〜04:30 は環境音の導入」「12:10 から無音に近い余韻」のような、再生位置(タイムスタンプ)と内容がひも付いた構造化データを受け取ることです。

結論から言うと実用になりました。ただしそのまま信じてはいけない癖が音声には複数あり、検証コードを挟んで初めて運用に乗りました。順番に残します。

なぜ文字起こしツールではなく音声理解なのか

最初は専用の文字起こしAPIに無音検出を組み合わせることも考えました。やめた理由は単純で、私が欲しいのは「言葉」ではなく「場面の切れ目」だからです。ヒーリング音源はそもそも喋っていない区間が大半で、文字起こしは空振りします。一方で Gemini の音声理解は、音そのものを文脈として受け取り「環境音が主体」「ピアノのモチーフが反復」といった非言語の記述を返してくれます。ここが転機でした。

加えて、出力を response_schema で固定できるので、後段のアプリ(章ジャンプUIや無音トリミング)が安心して食べられる JSON がそのまま手に入ります。文字起こし+自前ヒューリスティックの2段構えより、結果的にコードがずっと短くなりました。

前提と料金感

使うのは新しい google-genai SDK です。音声は1秒あたりおおよそ32トークン換算で課金されるため、80分の音源なら入力だけで約15万トークンになります。これは決して無視できない量で、何度も投げ直すと地味に効いてきます。私は下調べと章立てを gemini-flash-latest(2026年6月時点で 3.5 Flash を指すエイリアス)で回し、本番運用では日付付きモデルにピン留めしています。エイリアスは中身が入れ替わるので、出力の安定が要る工程では固定するのが安全です。

実際に手元の音源で計測したトークンとおおよその所要時間です。モデル価格は変動するので、絶対額ではなく「長さに比例して効く」感覚をつかむ目的で見てください。

音源の長さ入力トークン(実測)章立て1回の所要備考
8分約 15,0006〜9秒インライン送信でも収まる範囲
42分約 80,00018〜26秒Files API 推奨
78分約 150,00030〜48秒Files API 必須・再投げのコストが痛い

20MB を超える音声はリクエストへの直接添付ができないため、長尺は Files API でアップロードしてから参照します。私の音源は WAV だと数十MB になるので、実質すべて Files API 経由です。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
1時間超の音源を手で聴き直して章を切っていた人が、Gemini にタイムスタンプ付きで章立てさせる動くパイプラインを今日から回せる
Files API での長尺アップロード・response_schema での JSON 固定・MM:SS タイムスタンプの取り扱いを、コピペで動く形で習得できる
モデルが返すタイムスタンプのずれ・実在しない無音区間といった、音声特有の落とし穴を検証コードで機械的に弾けるようになる
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-06-28
Gemini API で動画を「時刻つき」で読む — 該当シーンだけを引き出す
画面録画やアプリのデモ動画から「あの操作はどこ?」を探すのは骨が折れます。Gemini API の動画理解を使い、タイムスタンプ付きで該当箇所だけを引き出す方法と、FPS・解像度でトークンを抑える設計をまとめます。
API / SDK2026-06-26
Gemini 3.1 Flash Image で日本語テキスト入り画像を安定生成する ― OCR検証ゲート付きパイプライン
プレビュー停止後の GA 版 gemini-3.1-flash-image で、画像内の日本語テキストが崩れる問題に向き合います。生成→OCR検証→再生成/合成フォールバックの二段構えを、動くコードと無人運用のリトライ設計まで含めて記録しました。
API / SDK2026-06-21
Gemini Batch API でアプリレビュー8,000件を一晩で分類し、ポーリングを Webhooks に寄せるまで
個人開発の6アプリで溜まった約8,000件のレビューを Gemini Batch API で一晩のうちに分類した実装メモに、2026年6月のイベント駆動 Webhooks で翌朝のポーリングを置き換える設計を加えました。コスト・所要時間の実数値、複合キー設計、ハングジョブの見切り、期限つき非推奨の管理まで、動くコード付きで残します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →