GEMINI LABEN
SIRI — WWDC 2026で刷新版SiriがGoogle Geminiモデルで動くと確定。ただしEUではDMAによりiOS 27時点で提供されませんFLASH3.5 — Gemini 3.5 FlashがGA。エージェント・コーディングで持続的なフロンティア性能を発揮する最上位FlashモデルですIMAGE-GA — Gemini 3.1 Flash Image / 3.1 Pro Imageがネイティブ視覚モデルとしてGA。preview版は6/25に終了予定MANAGED-AGENTS — Gemini APIでManaged Agentsが公開プレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを構築できますFILE-SEARCH — File Searchがマルチモーダル対応。gemini-embedding-2で画像のネイティブ埋め込み・検索が可能になりましたDEPRECATION — gemini-3.1-flash-image-preview / gemini-3-pro-image-previewは6/25に停止。GA版への移行をお早めにSIRI — WWDC 2026で刷新版SiriがGoogle Geminiモデルで動くと確定。ただしEUではDMAによりiOS 27時点で提供されませんFLASH3.5 — Gemini 3.5 FlashがGA。エージェント・コーディングで持続的なフロンティア性能を発揮する最上位FlashモデルですIMAGE-GA — Gemini 3.1 Flash Image / 3.1 Pro Imageがネイティブ視覚モデルとしてGA。preview版は6/25に終了予定MANAGED-AGENTS — Gemini APIでManaged Agentsが公開プレビュー。Googleホストの隔離Linuxサンドボックスで自律エージェントを構築できますFILE-SEARCH — File Searchがマルチモーダル対応。gemini-embedding-2で画像のネイティブ埋め込み・検索が可能になりましたDEPRECATION — gemini-3.1-flash-image-preview / gemini-3-pro-image-previewは6/25に停止。GA版への移行をお早めに
記事一覧/API / SDK
API / SDK/2026-04-18上級

Veo 3 × Lyria 3 Pro API で構築する自動コンテンツ生成パイプライン — 動画×音楽の量産システムを個人で作る

Veo 3 とLyria 3 Pro のAPIを組み合わせ、テキストから動画と音楽を自動生成して合成するパイプラインを構築します。環境構築から本番運用、コスト最適化、よくある落とし穴まで完全解説します。

veo32lyriagemini-api286video-generation3music-generationpython131automation33pipeline6

プレミアム記事

個人でコンテンツを量産しようとしたとき、最初にぶつかる壁は「動画の中身と音楽のクオリティをどう両立するか」ではないかと思います。私も以前は動画生成AIと音楽生成AIをそれぞれ手動で使い、その後 ffmpeg で合成するという作業を繰り返していました。それが週に数本なら耐えられますが、毎日10本・20本となると人間の手が追いつかなくなります。

Veo 3 と Lyria 3 Pro が API として使えるようになったことで、この問題に対するアプローチが大きく変わりました。両方とも Google Gen AI SDK 経由でアクセスでき、Pythonコードだけで「プロンプト入力 → 動画生成 → 音楽生成 → 合成 → 保存」という流れを完全に自動化できます。

ただし、実際に動くパイプラインを作るまでには、ドキュメントには書かれていない落とし穴がいくつかあります。ここで扱うのは私が実際に本番環境で運用しているパイプラインのコードと、そこに至るまでに詰まったポイントを余すところなく共有します。

Veo 3 と Lyria 3 Pro の API を使う前に知っておくべきこと

Veo 3 は Google の動画生成モデルで、テキストプロンプトまたは画像から最大8秒の動画を生成できます。モデル名は veo-3.0-generate-preview で、Google Gen AI SDK の client.models.generate_video() から呼び出します。重要なのは、レスポンスが即座に返るのではなく、Operation(非同期ジョブ)として返ってくる点です。ポーリングして完了を待つ必要があります。

Lyria 3 Pro は Google の音楽生成モデルです。テキストで音楽のジャンルや雰囲気、テンポ、楽器などを指定すると、最大3分30秒の音楽トラックを生成できます。こちらも非同期処理で、完了までに数十秒かかることがあります。

この2つを組み合わせるパイプラインを作る際に最初に確認しておきたいのは、それぞれのAPIが別々のクォータを持っているという点です。Veo 3 の生成可能本数と Lyria の生成可能本数は独立しており、片方のクォータが枯渇してももう片方は動き続けます。この前提をもとにパイプラインを設計することが、安定した運用につながります。

2026年4月時点での主な仕様です。

  • Veo 3: 1リクエストあたり最大8秒・アスペクト比 16:9 または 9:16 に対応・生成コストは解像度と秒数に応じた従量制
  • Lyria 3 Pro: 1リクエストあたり最大210秒(3分30秒)・WAVまたはMP3形式・ステレオ出力・音楽の詳細なスタイル制御が可能

パイプライン全体のアーキテクチャ

構築するパイプラインの全体像はシンプルです。

  • 入力: コンテンツのテーマを記述したプロンプト(動画用と音楽用を別に用意)
  • 処理1: Veo 3 API で動画ファイルを生成・ダウンロード
  • 処理2: Lyria 3 Pro API で音楽ファイルを生成・ダウンロード
  • 処理3: ffmpeg で動画と音楽を合成、音量バランスを調整
  • 出力: 完成した動画ファイルを指定フォルダに保存

各処理は非同期で動かすことで、Veo 3 の生成待ち時間中に Lyria の生成を並行実行できます。実測では、同期処理に比べて合計待ち時間が約40%短縮できています。

エラーが発生した場合は自動リトライ(最大3回、指数バックオフ付き)を行い、それでも失敗した場合はログに記録して次のアイテムに進む設計にしています。これにより、夜中に無人でパイプラインを動かしても安心です。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
Veo 3 と Lyria 3 Pro の API を組み合わせる際に必ず引っかかる認証・レート制限・ポーリング処理の落とし穴を、実際のコードで解消できます
テキストプロンプト一つで動画と背景音楽を自動生成して合成する、コピーして即使える本番パイプラインコードを手に入れられます
API呼び出しのコストを最大60%削減できるキャッシュ・バッチ戦略と、月額コストを予測するための計算方法を習得できます
Stripe による安全な決済 · いつでもキャンセル可能
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API / SDK2026-04-14
Veo API で動画生成がうまくいかないとき — エラーと詰まりポイントの完全対処法
Veo API の動画生成でよく起きるエラーを徹底解説。ポーリング実装の落とし穴、セーフティフィルター拒否、クォータ超過、動画ファイル取得失敗など、実際に詰まりやすいポイントと解決策をコード付きで紹介します。
API / SDK2026-05-03
問い合わせフォームの対応を Gemini API で自動化する — 分類・優先度付け・Slack 通知まで
Gemini API を使って問い合わせフォームの内容を自動分類・優先度付けし、Slack に通知するシステムを Python で作る方法を解説。コード付きで今日から使えます。
API / SDK2026-04-17
Gemini APIでコードを自動ドキュメント化:README・JSDoc・API仕様書を Python で一括生成する
Gemini APIを使ってコードベースからREADME・JSDoc・OpenAPI仕様書を自動生成する方法を解説します。Pythonで動くスクリプトを中心に、開発現場でのドキュメント化の手間をAIの力で解消します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →