GEMINI LABEN
MODEL — Gemini 3.5 Flashが一般提供となり、gemini-flash-latestの実体になりましたAPI — Interactions APIが一般提供となり、Geminiモデルとエージェントを扱う主要APIになりましたAGENT — Managed Agentsが公開プレビューで提供され、隔離Linux環境で自律エージェントを動かせますAPI — バックグラウンド実行が加わり、長時間処理を投げて結果を後から受け取れますSEARCH — File Searchがgemini-embedding-2で画像もそのまま検索できるようになりましたNOTICE — 6/19以降、未制限APIキーからのリクエストが遮断されるようになりましたMODEL — Gemini 3.5 Flashが一般提供となり、gemini-flash-latestの実体になりましたAPI — Interactions APIが一般提供となり、Geminiモデルとエージェントを扱う主要APIになりましたAGENT — Managed Agentsが公開プレビューで提供され、隔離Linux環境で自律エージェントを動かせますAPI — バックグラウンド実行が加わり、長時間処理を投げて結果を後から受け取れますSEARCH — File Searchがgemini-embedding-2で画像もそのまま検索できるようになりましたNOTICE — 6/19以降、未制限APIキーからのリクエストが遮断されるようになりました
TAG

音声理解

1 記事
タグ一覧に戻る
関連タグ:
gemini-api1構造化出力1個人開発1Files API1
Gemini API/2026-06-30上級

長尺の音源を Gemini に「聴かせて」章立てを作る — タイムスタンプ付き構造化抽出の実装

1時間を超えるヒーリング音源を手作業で章立てしていた作業を、Gemini の音声理解でタイムスタンプ付きの構造化データに置き換えた実装記録です。Files API での長尺アップロード、response_schema での JSON 固定、そして実際にハマったタイムスタンプのずれ・幻の無音区間を検証で潰すところまで、動くコードで残します。