●MODEL — Gemini 3.5 Flashが一般提供となり、gemini-flash-latestの実体になりました●API — Interactions APIが一般提供となり、Geminiモデルとエージェントを扱う主要APIになりました●AGENT — Managed Agentsが公開プレビューで提供され、隔離Linux環境で自律エージェントを動かせます●API — バックグラウンド実行が加わり、長時間処理を投げて結果を後から受け取れます●SEARCH — File Searchがgemini-embedding-2で画像もそのまま検索できるようになりました●NOTICE — 6/19以降、未制限APIキーからのリクエストが遮断されるようになりました●MODEL — Gemini 3.5 Flashが一般提供となり、gemini-flash-latestの実体になりました●API — Interactions APIが一般提供となり、Geminiモデルとエージェントを扱う主要APIになりました●AGENT — Managed Agentsが公開プレビューで提供され、隔離Linux環境で自律エージェントを動かせます●API — バックグラウンド実行が加わり、長時間処理を投げて結果を後から受け取れます●SEARCH — File Searchがgemini-embedding-2で画像もそのまま検索できるようになりました●NOTICE — 6/19以降、未制限APIキーからのリクエストが遮断されるようになりました

TAG

音声理解

1 記事

← タグ一覧に戻る

長尺の音源を Gemini に「聴かせて」章立てを作る — タイムスタンプ付き構造化抽出の実装

1時間を超えるヒーリング音源を手作業で章立てしていた作業を、Gemini の音声理解でタイムスタンプ付きの構造化データに置き換えた実装記録です。Files API での長尺アップロード、response_schema での JSON 固定、そして実際にハマったタイムスタンプのずれ・幻の無音区間を検証で潰すところまで、動くコードで残します。