WindowsでGemma 4をローカル実行する — Ollamaでコマンド2つから始める手元のLLM

クラウドのAPIは便利ですが、ちょっと試したいだけのときに、鍵を発行して課金枠を気にして、という前段が地味に重く感じることがあります。手元のPCだけで完結する小さなモデルが一つあると、その心理的なハードルがすっと下がります。

私自身、個人開発でアプリやブログを回しながら、下調べや文章の下書きにLLMを使う場面が増えました。常時クラウドに投げるほどでもない軽い用途では、手元で動くモデルが想像以上に役に立ちます。ここでは、Googleの軽量オープンモデル Gemma 4 を、Windows のノートPCで動かす最短手順をまとめます。

なぜ「手元で動くLLM」を一つ持っておくと良いか

クラウドのGemini APIが要らなくなるわけではありません。むしろ住み分けの話です。手元で動くモデルには、クラウドにはない利点がいくつかあります。

鍵も課金枠も気にしなくてよい — 思いついたときにすぐ試せる
入力が外に出ない — 下書きやメモなど、外に投げたくない文章を安心して渡せる
オフラインでも動く — ネットが不安定な場所でも止まらない

逆に、最新の大規模モデルの推論力や、長大なコンテキストが要る作業はクラウドの方が向いています。「軽い用途は手元、重い用途はクラウド」という二段構えにしておくと、両方の良さを取れます。私はこの切り替えを意識してから、無駄なAPI呼び出しが減りました。

動かす環境の目安

Gemma 4 には軽量な小型版が用意されていて、一般的なノートPCでも動かせます。参考までに、私が見た構成では Intel Core i7 世代・メモリ32GBの Windows 11 ノートで、小型版が問題なく対話できていました。

メモリは多いほど余裕があります。小型版なら16GBでも動く可能性はありますが、快適さを求めるなら32GBあると安心です。GPUがなくてもCPUで動きますが、応答速度は搭載ハードに依存します。まずは手持ちのPCで小型版から試し、物足りなければ上位サイズへ、という順序がお勧めです。

Ollama を使えばコマンド2つで起動できる

セットアップの主役は Ollama です。モデルのダウンロードと起動を肩代わりしてくれるので、難しい設定なしに対話を始められます。PowerShell を開いて、次の3行を順に実行します。

irm https://ollama.com/install.ps1 | iex
ollama --version
ollama run gemma4:e2b

1行目が Ollama 本体のインストール、2行目がインストール成功の確認、3行目が小型版 Gemma 4 のダウンロードと起動です。実質的にやることは「入れる」と「動かす」の2手だけで、最後の ollama run を打つとモデルが取得され、そのまま対話が始まります。

起動後にやり取りを確かめる

起動が終わると、メッセージの入力待ちになります。試しに挨拶を送ると応答が返り、日本語でもそのまま会話できます。終了したいときは /bye と打てば対話モードを抜けられます。

対話モードに入らず、その場で一回だけ質問する使い方もできます。

ollama run gemma4:e2b "元素周期表で2番目の元素はなんですか？"

このようにプロンプトを引数で渡すと、回答だけを受け取ってすぐコマンドラインに戻れます。短い確認や、スクリプトから呼び出す用途ではこちらが便利でした。

入っているモデルを確認する

ダウンロードしたモデルの一覧は、次のコマンドで確認できます。

ollama list

モデル名・ID・サイズ・更新日時が並ぶので、複数のモデルを入れているときの整理に役立ちます。小型版は数GB程度なので、ストレージへの負担も限定的です。容量が気になってきたら、使わないモデルを削除しながら回すとよいでしょう。

サイズ選びと、つまずきやすい点

小型版で物足りなくなったら、上位サイズへ切り替える前に、自分の用途が「速さ重視か、賢さ重視か」を一度はっきりさせると選びやすくなります。短い下書きや確認の往復が中心なら、応答が速い小型版のままで十分なことが多いです。一方で、長めの文章をまとめさせたり、込み入った指示を一度で通したい場合は、上位サイズに上げると安定します。サイズを上げるほどメモリと待ち時間が増えるので、手元のPCと相談しながら一段ずつ試すのがお勧めです。

つまずきやすいのは、初回のダウンロードに時間がかかって「固まった」と勘違いしてしまう点です。モデルの取得は回線次第で数分かかることがあり、進捗バーが伸びている間は正常に動いています。途中で打ち切らず、success の表示まで待つのが確実です。もう一つ、複数のモデルを入れすぎてストレージを圧迫しがちなので、ollama list でときどき棚卸しして、使わないものを整理しながら回すと快適に保てます。

どう使い分けるか

手元の Gemma 4 は、思いつきの下書きや短い確認、外に出したくないメモの相談といった軽い用途に向いています。一方で、込み入った設計の相談や最新情報を踏まえた長文の生成は、クラウドのGemini APIに任せた方が結果が安定します。

私の場合は、まず手元で雑に投げてみて、物足りなければクラウドに上げ直す、という流れに落ち着きました。この二段構えは、個人開発でAPIコストを抑えつつ作業の手数を増やすうえで、地味に効いています。具体的には、アプリのストア説明文の言い回しを何パターンか手元で出してから、最終的な仕上げだけクラウドに上げる、といった使い方をしています。下書きの試行回数を増やしても費用が膨らまないので、気兼ねなく案を量産できるのが手元モデルの良いところです。後編では、ローカルのGemma 4を実際の作業にどう組み込むか、応答速度の体感を上げる工夫や、簡単なパイプラインへの組み込みまでを掘り下げます。まずは手持ちのPCでコマンドを3行打って、手元にモデルが立ち上がる感覚を味わってみてください。