GEMINI LABEN
API — Event-driven WebhooksでBatch APIや長時間処理の完了を通知受信。ポーリングが不要になりますSEARCH — File Searchがgemini-embedding-2に対応し、画像もネイティブに埋め込み・検索できますSECURITY — 6/19以降、未制限APIキーからのリクエストが遮断されました。キー制限の点検をMODEL — Gemini 3.5 Flashが一般提供。gemini-flash-latestの本体になりましたAGENT — Managed AgentsがGemini APIで公開プレビュー。隔離サンドボックスで自律エージェントを実行できますDEPRECATED — 画像プレビュー2モデルが6/25で停止。preview依存の処理は確認しておきましょうAPI — Event-driven WebhooksでBatch APIや長時間処理の完了を通知受信。ポーリングが不要になりますSEARCH — File Searchがgemini-embedding-2に対応し、画像もネイティブに埋め込み・検索できますSECURITY — 6/19以降、未制限APIキーからのリクエストが遮断されました。キー制限の点検をMODEL — Gemini 3.5 Flashが一般提供。gemini-flash-latestの本体になりましたAGENT — Managed AgentsがGemini APIで公開プレビュー。隔離サンドボックスで自律エージェントを実行できますDEPRECATED — 画像プレビュー2モデルが6/25で停止。preview依存の処理は確認しておきましょう
記事一覧/高度な活用
高度な活用/2026-06-27上級

Gemini Computer Use が「古い画面」を操作して静かに事故るとき — 観測と検証で守る運用メモ

Computer Use エージェントは、画面が変わった後の古いスクリーンショットを根拠にクリックし、エラーも出さずに別の場所を押します。誤操作を計測し、観測・実行・検証の三拍子で止める運用メモです。

gemini-computer-use2automation30agents3production97advanced12

プレミアム記事

成功したように見えて、別のボタンを押していた

Computer Use を最初に本番相当の作業に回したとき、いちばん怖かったのは派手なクラッシュではありませんでした。ログ上は全ステップ「成功」と並んでいるのに、できあがった結果がまるで違う、という静かな失敗です。原因を追うと、エージェントは数百ミリ秒前のスクリーンショットを根拠に座標を計算し、その間にダイアログが開いて画面が動いていました。古いフレームの「保存」ボタンの位置を、新しい画面では「削除」が占めていた、という類のことが起きていたのです。

この種の事故は例外を投げません。クリックは座標として正しく実行され、API は淡々と次のステップへ進みます。だからこそ、try/except をいくら丁寧に書いても捕まりません。守るべきは「操作が失敗したとき」ではなく、「操作した相手が、自分が見たはずの画面と本当に同じか」を毎回確かめる仕組みのほうです。

私は個人開発でストア提出用のスクリーンショット差し替えのような、退屈で取りこぼしの多い反復作業を自動化に寄せてきました。その経験から言えるのは、人間が手でやるときは無意識に「あれ、画面変わった?」と一拍置いているということです。エージェントにはその一拍がありません。だから一拍を、コードとして外付けしてやる必要があります。

なぜ「沈黙する誤操作」が起きるのか

Computer Use のループは、概念的には観測(スクリーンショット)→ 推論(次の操作の決定)→ 実行(クリック・入力)の繰り返しです。事故は、この三つの間に時間差があることから生まれます。

失敗モード何が起きるか例外は出るか
フレーム陳腐化(stale frame)観測から実行までの間に画面が遷移し、古い座標を押す出ない
座標ドリフト解像度・DPI・スクロール位置の差でモデルの座標と実画面がズレる出ない
楽観的連打反応が遅い UI に対し、確認せず次の操作を重ねて二重実行出ない
ループのスタック同じ画面に対し同じ操作を繰り返し、進まないまま予算を溶かす出ない

共通しているのは、どれも「モデルが見た世界」と「実際に操作した世界」の不一致だということです。モデルを賢くしても完全には消えません。賢いモデルでも、観測した瞬間より後の出来事は知りようがないからです。対策は推論側ではなく、実行を取り囲む薄い制御層に置くのが現実的です。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
Gemini Computer Use の古いフレームへの操作を「実行前アサーション」で弾くループ実装
破壊的操作を冪等化し、二重クリックや取り消し不能の事故を防ぐ設計
アクション成功率・スタックループ・ステップ予算を計測して暴走を止める計装
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Gemini Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

高度な活用2026-04-23
Gemini API の Prompt Injection 対策:本番運用で必要なマルチレイヤー防御アーキテクチャ
Gemini API を本番運用するなら避けて通れない Prompt Injection 攻撃に対し、入力サニタイズ・指示強化・構造化出力・モデレーター LLM の4層防御を動くコードで設計する実戦ガイドです。
高度な活用2026-03-28
Gemini API の長期記憶とセッション永続化 — 大規模チャットボットを支える設計パターン
Gemini API で大規模チャットボットを構築する際に不可欠な、長期記憶管理・セッション永続化・トークン予算制御の設計パターンを本番環境の実装例とともに解説します。
高度な活用2026-06-27
Gemini の完了イベントは二度届きます — Webhook と照合ポーラーを「実質1回」にする冪等な受け口
Gemini の長時間オペレーションを Webhook で受けつつ照合ポーラーで二重化すると、同じ完了イベントが二度届き、公開や課金が二度走ります。冪等キーの取り方と claim→実行→確定の三相で「実質1回」にする受け口を実装します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →