◈ API / SDK/2026-06-23上級

Nano Banana 2 に動画を渡してサムネイルを1枚生成する — gemini-3.1-flash-image の動画→画像を実装したメモ

GA になった gemini-3.1-flash-image（Nano Banana 2）に動画ファイルを文脈として渡し、サムネイルを1枚生成する実装手順です。フレーム抽出との違い、preview からの移行差分、1枚あたりのコストと所要時間の実測までまとめました。

gemini⁸⁶ gemini-api²⁴⁶ nano-banana² image-generation⁶ multimodal²³

✦ プレミアム記事

動画のサムネイルを手で切り出す作業が、地味に時間を奪っていました。個人開発で複数のアプリ紹介動画や短い解説クリップを回していると、1本ごとに「見栄えのする1フレーム」を探してトリミングし、文字を載せる下地を作る——この前段だけで1本あたり10分近く溶けます。10本あれば、それだけで午後が終わります。

6月22日に gemini-3.1-flash-image（通称 Nano Banana 2）が GA になり、動画ファイルそのものをマルチモーダルの文脈として渡して、サムネイル・ポスター・インフォグラフィックを生成できるようになりました。フレームを1枚選んで渡すのではなく、動画を丸ごと文脈として読ませて「この動画を象徴する静止画を作って」と頼める、という点が今までと違います。私自身、半信半疑で手元のクリップで試したところ、思った以上に「動画の主題」を拾った1枚が返ってきたので、実装の手順と、運用に乗せるうえで引っかかった点を残しておきます。

「フレームを選ぶ」から「動画を文脈として渡す」への変化

これまで動画からサムネイルを作る場合、自分か ffmpeg が代表フレームを1枚選び、その静止画を画像理解モデルに渡す、という二段構えが普通でした。問題は「代表フレームを選ぶ」工程が機械的になりがちなことです。動きの山場や、文字が出る瞬間といった「人間が見て良いと感じる瞬間」は、明るさやシャープネスのスコアだけでは拾えません。

gemini-3.1-flash-image の動画入力は、ここを一段飛ばします。動画を文脈として渡すと、モデルは時間方向の流れを踏まえたうえで「象徴的な1枚」を生成します。既存のフレームをそのまま返すのではなく、新しく描き起こす点に注意してください。つまり出力は「動画の中の実在フレーム」ではなく「動画の主題を表す生成画像」です。実写の正確な再現が要件なら ffmpeg のフレーム抽出が向きますが、SNS のサムネイルやポスターのように「雰囲気が伝わる1枚」が欲しい用途では、生成側が圧倒的に速いというのが触ってみた実感です。

この使い分けは、以前 Gemini 3.2 Flash の Image Output で壁紙の色違いを量産した実装メモで触れた「実写の改変は避け、生成は生成として割り切る」という線引きとも地続きです。

最小構成：動画を渡して1枚を生成する

まずは動かして感触をつかむのが早いです。Files API で動画をアップロードし、その参照を画像生成リクエストの文脈に含めるだけです。

動画をアップロードする

# pip install google-genai
from google import genai
 
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
 
# 動画を Files API にアップロード（数十秒のクリップを想定）
video = client.files.upload(file="intro_clip.mp4")
 
# アップロード直後は state=PROCESSING のことがあるので ACTIVE を待つ
import time
while video.state.name == "PROCESSING":
    time.sleep(2)
    video = client.files.get(name=video.name)
 
if video.state.name != "ACTIVE":
    raise RuntimeError(f"upload failed: {video.state.name}")
 
print("uploaded:", video.name)  # files/xxxxxxxx

ここで PROCESSING を待たずに次へ進むと、生成リクエスト側で「ファイルがまだ使えない」というエラーになります。最初にここで詰まったので、ACTIVE になるまで待つループは省かないでください。

動画を文脈に画像を生成する

from google.genai import types
 
resp = client.models.generate_content(
    model="gemini-3.1-flash-image",  # GA 版。preview サフィックスは付けない
    contents=[
        video,  # 動画そのものを文脈として渡す
        (
            "この動画を象徴する1枚のサムネイル画像を生成してください。"
            "縦横比は16:9。中央に主題の被写体を据え、"
            "上部に短いテキストを載せられる余白を残してください。"
            "実写の写し取りではなく、雰囲気が伝わる構図で。"
        ),
    ],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
    ),
)

生成画像を保存する

saved = 0
for part in resp.candidates[0].content.parts:
    if getattr(part, "inline_data", None) and part.inline_data.data:
        with open(f"thumb_{saved}.png", "wb") as f:
            f.write(part.inline_data.data)
        saved += 1
 
print(f"saved {saved} image(s)")  # 期待値: saved 1 image(s)

ポイントは3つです。第一に、モデル名は GA 版の gemini-3.1-flash-image を使い、-preview を付けないこと。第二に、response_modalities に IMAGE を含めること（テキストだけ返ってきて画像が空、という時はここの設定漏れがほとんどです）。第三に、プロンプトで「余白」「縦横比」「実写の写し取りはしない」を明示することです。後段で文字を載せるなら、上部の余白を頼んでおくと作業が楽になります。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦動画からサムネイルを毎回手作業で切り出していた人が、動画を渡すだけで1枚生成するコードを今日手に入れられる

✦preview モデルに依存していたパイプラインを、GA 版 gemini-3.1-flash-image へ壊さずに移すための具体的な差分が分かる

✦1枚あたりのコストと所要時間の目安をつかみ、自分の動画本数で月額がいくらになるか試算できる

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

preview から GA への移行で気をつけたこと

今回いちばん神経を使ったのは、コードの新規実装よりも移行のほうでした。gemini-3.1-flash-image-preview と gemini-3-pro-image-preview は 6月25日に停止予定です。preview を参照したまま放置すると、その日を境にパイプラインが静かに止まります。

確認したのは次の差分です。

モデル名から -preview を外す。文字列ベタ書きを grep -rn "image-preview" . で洗い出し、定数1か所に寄せました。
レスポンスの取り出し方が変わっていないかを、実出力で確認する。スキーマ前提でパースしている箇所は、preview と GA で差が出ることがあります。
停止日を CI に「締切」として埋め込む。期限つきの非推奨は、見落とすと当日に事故ります。

この「停止日ドリブンの移行」の進め方は、画像 preview モデルの 6月25日停止に備えた移行手順のメモに詳しくまとめました。締切のある非推奨は、慌てて一気に直すより、何が変わって何が据え置きかを切り分けて記録しながら進めるほうが、結局のところ早いというのが私の実感です。

コストと所要時間の目安

気になるのは「動画1本ごとにいくらかかるか」だと思います。手元で数十秒のクリップを20本ほど通したときのおおよその数字を、参考値として残します（料金は改定されるため、正確な金額は公式の料金ページで確認してください）。

方式	1本あたりの作業	1枚あたりの目安コスト	体感の所要時間
手作業（ffmpeg + 手選び + 下地作り）	フレーム選定と整形を人が実施	0円（ただし人件時間）	約8〜10分/本
フレーム抽出 + 画像理解	代表フレームを自動選定して説明生成	画像入力トークン分	約20〜40秒/本
動画→画像生成（本記事）	動画を渡して1枚生成	およそ ¥4〜¥10/枚	約15〜30秒/本

動画は画像より入力トークンを食うため、長い動画をそのまま渡すとコストが伸びます。私の場合は、長尺はあらかじめ要点の30〜60秒に切ってから渡すことで、1枚あたりを概ね10円以下に収めました。20本でも数百円規模で、午後をまるごと使っていた作業が10分ほどで終わる計算になります。費用対効果としては、手作業の時間が消える点がいちばん効きました。

実運用で踏んだ落とし穴

最小構成は動いても、本番運用に乗せるといくつか注意点が出てきました。

縦横比がプロンプト任せだと揺れる。「16:9」と書いても、たまに正方形寄りが返ります。後段でトリミングする前提にして、生成段では「16:9を優先」と強めに指定し、想定外サイズは再生成のリトライに回す構造が安定しました。
長い動画はアップロードと処理で待たされる。Files API は ACTIVE になるまで待つ必要があり、長尺ほど待ち時間が伸びます。前述のとおり要点だけ切るのが、コストと待ち時間の両方に効きます。
生成画像は実写ではない。人物や製品の見た目を正確に出したい用途では、生成画像をそのまま公式素材として使わないでください。あくまで「雰囲気を伝えるサムネイル」と割り切るのが安全です。
空の画像が返る時はモダリティ設定を疑う。response_modalities=["IMAGE"] の指定漏れか、-preview を付けたままモデルが見つからずテキストのエラー文だけ返っている、のどちらかがほとんどでした。

この「想定外は再生成に回す」という受け皿は、生成系を本番に乗せるときの基本パターンだと考えています。私はこの「落ちたら作り直す」という構えを生成系の基本にしています。1回で完璧を狙わず、判定して落ちたら作り直す——そうしておくと運用が楽になります。

どの工程に組み込むと効くか

私自身の使い分けとしては、正確な再現が要らないサムネイルやポスターは生成側、実写の正確さが要る素材は従来のフレーム抽出、という線引きに落ち着きました。SNS 投稿用の動画サムネイルは前者なので、Nano Banana 2 の動画→画像が一番ハマります。逆に、アプリのスクリーンショットのように1ピクセルの正確さが要る画像は、生成に頼らないほうが安全です。

定常運用に組み込むなら、動画が出来上がったタイミングで「アップロード → 1枚生成 → 16:9でなければ1回だけ再生成 → 保存」という短いパイプラインを1つ用意しておくと、サムネイル待ちで作業が止まらなくなります。複数チャンネルを並行で回している個人開発者ほど、この前段の自動化は効きます。

まずは手元の30秒クリップ1本で、上の最小構成をそのまま動かしてみてください。返ってきた1枚が「動画の主題を拾えているか」を自分の目で確かめるところから始めると、自分の用途に合うかどうかの判断が早くつきます。

お読みいただきありがとうございました。同じように動画の前段作業に時間を取られている方の参考になれば嬉しいです。