Local LLM の今、そして今後の流れ


2025 年初頭、Local LLM の文脈で一番インパクトがあった出来事は DeepSeek-R1 の公開だと思っている。数学・コーディング・論理推論などのベンチマークで OpenAI の o1 に迫るスコアを出すモデルが MIT ライセンスで公開され、しかも蒸留版(7B〜70B)がローカルで動く。「クラウドでしかできなかったこと」の定義が大きく塗り替えられた瞬間だった。

あれから 1 年以上が経ち、状況はさらに動いている。2026 年 5 月時点での現状と今後をまとめておく。

今のローカルモデルの実力

主要モデルの現在地

Meta Llama 4(2025年4月公開)は Scout と Maverick の 2 種類があり、MoE(Mixture of Experts)アーキテクチャを採用。Scout は 109B の総パラメータを持ちながら推論時のアクティブパラメータは 17B 相当で、コンテキストウィンドウが 10M トークンという破格のスペック。VRAM 24GB の単一 GPU で動く。Maverick は 400B 超の大規模版でマルチ GPU が必要になる。どちらもマルチモーダル(画像入力)対応。

Qwen 3.5 / 3.6(Alibaba、2026年)は日本語を含む多言語での強さが際立つシリーズ。2026 年 2 月公開の Qwen3.5 は MoE 397B-A17B などのラインナップで、27B Dense 版は SWE-bench Verified で 72.4% という優秀なコーディング性能を持ち、16GB VRAM の GPU で動く。2026 年初公開の Qwen 3.6 は MoE アーキテクチャをさらに成熟させ、235B の巨大モデルでも推論時の実効計算量は大幅に小さい。Apache 2.0 ライセンスで商用利用可能。

Gemma 4(Google DeepMind、2026年4月公開)は Apache 2.0 ライセンスに変わった第 4 世代。E2B / E4B / 26B-A4B(MoE)/ 31B の 4 サイズがあり、全モデルがマルチモーダル(テキスト+画像)、小型 2 モデルは音声入力にも対応。コンテキストウィンドウは最大 256K トークン、140 言語以上をサポート。31B Dense 版は RTX 4090 単体で動き、AI Arena リーダーボードで 3 位相当のスコアを記録している。ollama run gemma4 の一行で試せる。

Phi-4 / Phi-4-reasoning(Microsoft、2025年)は 14B というサイズで推論・コーディングに特化して鍛えられたモデル。Phi-4-reasoning は一部ベンチマークで DeepSeek R1 の 70B 蒸留版を上回るスコアを出している。端末内推論を意識した設計で、消費電力やメモリが限られた環境向き。

DeepSeek V4-Pro(2025〜2026年)は現状最強クラスのオープンコーダーとして評価されており、コーディングベンチマークでは商用クローズドモデルに迫るスコアを出している。

推論モデルがローカルに降りてきた

これが 2025〜2026 年の一番大きな変化だと感じている。

DeepSeek-R1 の蒸留版を皮切りに、「考えてから答える」タイプのモデルがローカルで普通に動くようになった。QwQ-32B、Phi-4-reasoning など、推論特化モデルが次々と出てきていて、ちょっとした数学や論理問題ならクラウドに頼らなくても解けるようになっている。Qwen3 シリーズに搭載された Thinking Mode も同様のアプローチ。

用途別モデル選択ガイド

用途おすすめモデル必要 VRAM の目安
汎用(低スペック PC)Gemma 4 E4B、Phi-4-mini8GB 以下
汎用(Apple Silicon)Gemma 4 26B-A4B、Qwen3.5 14B統合メモリ 32GB〜
汎用(RTX 4090)Gemma 4 31B、Llama 4 Scout24GB VRAM
コーディングQwen3.5 27B、DeepSeek V4-Pro16〜24GB
日本語Qwen3 / Qwen3.5 各サイズサイズ次第
推論・数学Phi-4-reasoning、QwQ-32B16〜24GB
プライベート文書 RAGLlama 4 Scout(長コンテキスト)24GB〜
スマートフォンGemma 4 E2B、Phi-4-miniオンデバイス

ツールの現状

Ollama は GitHub の Star 数・ダウンロード数ともにローカル LLM ランナーの中で群を抜いており、事実上の標準になっている。ollama run qwen3:8b のように一行で動く手軽さは変わっていない。Open WebUI と組み合わせると ChatGPT に近い UI で使える。

LM Studio は GUI での使いやすさに磨きがかかり、モデルのベンチマーク比較や GGUF 以外のフォーマット対応も広がっている。エンジニア以外にも勧めやすくなってきた。

llama.cpp は相変わらずエンジンとして最前線にいる。Vulkan バックエンドが安定してきて、AMD GPU や Intel Arc でも性能が出るようになってきた。

ハードウェアの話

Apple Silicon

M4 Pro / M4 Max が出て、メモリ帯域がさらに広がった。M4 Max(128GB)なら 70B モデルを Q4_K_M 量子化で 20〜30 tokens/sec 程度の実用速度で動かせる。ただし Apple Silicon の強みは「統合メモリ」であって VRAM の多さではないので、モデルの選び方に少しコツがいる。なお、コンテキストを長く取ると KV キャッシュ分のメモリも増えるため、長文処理が多い場合は余裕をもたせておくこと。

NVIDIA

RTX 5090(32GB VRAM)が 2025 年初に登場し、ローカル LLM 用途で VRAM 24GB の壁を超えた選択肢として注目されている。価格は高いが、1 枚で Gemma 4 31B や Qwen3.5 27B をフル精度に近い形で動かせる。価格・入手性を考えると RTX 4090 が依然コスパの中心にあるが、流通状況やリージョンによって変動するため、時価を確認してほしい。

量子化の進化

モデルサイズの問題を解決し続けているのが量子化技術。特に QAT(Quantization Aware Training) が普及してきて、精度の落ちにくい量子化ができるようになっている。Q4_K_M 量子化を使えば 70B モデルが 40GB 弱(コンテキスト 4K の場合)で動く。「70B が 8〜10GB で動く」という一部の記述を見かけるが、それは極端な低ビット量子化かつ短コンテキストの数字であり、実用的な条件では 40GB 前後を想定しておくのが無難。

1-bit LLM という新しい地平:Bonsai と BitNet

量子化の極限として注目されているのが 1-bit / 1.58-bit LLM だ。

Bonsai(PrismML、2026年3月公開)は世界初の商用利用可能な true 1-bit LLM として登場した。1.7B / 4B / 8B の 3 サイズがあり、Bonsai 8B はわずか 1.15GB に収まる。同サイズの通常精度モデルと比べてメモリフットプリントは約 1/14 で、推論速度は約 8 倍速い。Apache 2.0 ライセンス・GGUF 形式対応なので llama.cpp や Apple MLX でそのまま動く。ベンチマーク上は Llama 3 8B と同等レベルに達しており、チャット・要約・文書検索などには十分実用的。ただし複雑な推論やコード生成では差が出るため、用途を選ぶことが重要。

Microsoft BitNet b1.58(Microsoft Research)は 1.58-bit(重みが -1 / 0 / +1 の三値)で設計されたモデルで、公式推論エンジン bitnet.cpp を使うと CPU のみで動く。2B パラメータの bitnet-b1.58-2B-4T(4 兆トークン学習)は ARM CPU で 1.37〜5.07 倍の高速化、エネルギー消費 55〜82% 削減を達成。100B 規模のモデルでも単一 CPU で人間の読書速度(5〜7 tokens/sec)程度で動く。GPU が不要になる可能性を示した研究として注目度が高い。

1-bit 系モデルの現状をまとめると:

モデルパラメータモデルサイズ動作環境用途適性
Bonsai 8B8B1.15 GBCPU / GPU / Apple MLXチャット・RAG
Bonsai 4B4B〜600 MBCPU / スマートフォンオンデバイス
BitNet b1.58 2B4T2B〜400 MBCPU のみ(bitnet.cpp)実験・研究用途

1-bit モデルはまだ発展途上であり、全てのタスクで Q4_K_M 量子化の通常モデルを置き換えられる水準には至っていない。しかし「GPU なし・数百 MB のメモリで LLM が動く」という事実は、エッジデバイスやオフライン環境での応用を大きく広げる。

今後の流れ

オンデバイス推論の本格化

Apple Intelligence はその一例だが、推論をクラウドとデバイスで賢く分担する仕組みが広がっていく。Gemma 4 E2B や Phi-4-mini のような「端末内専用」モデルの整備が進んでいて、スマートフォンで普通に LLM が動く世界は遠くない。

エージェントとの融合

単体で質問に答えるだけでなく、ツールを呼び出して「実際に何かをやる」エージェント用途が急速に広がっている。ローカルで動くエージェントはレイテンシが低く、外部 API の課金を気にせず自由に試せる。MCP(Model Context Protocol)の普及でツール統合も標準化されつつある。Llama 4 Scout の 10M トークンコンテキストは、長大なコードベースや大量のドキュメントを丸ごと文脈に入れるエージェントユースケースと相性がいい。

プライバシー・オンプレミス需要

医療・法律・金融など、データを外部に出せない領域での採用が増えている。クラウド LLM は便利だが「データが外に出る」という制約は解消しない。Local LLM はそのリスクを大きく緩和できるので、この需要はまだ伸び続けると思う。ただし、ロギングの設定や外部ツール連携・RAG の設計次第では情報が外部に渡るリスクが残るため、運用レベルでの注意は必要。

オープンとクローズドの差が縮まる

DeepSeek-R1 や Qwen3.5/3.6 の登場で、オープンモデルとクローズドモデルの性能差が縮まってきた。コーディング・日本語・長文処理など用途によっては既にオープンモデルで十分、というケースが増えている。一方でマルチモーダルの高難度タスクや最新情報へのアクセスなど、クローズドが優位な領域もまだある。この競争が続けば、Local LLM の「使えるシーン」はさらに広がっていく。

まとめ

「Local LLM はマニア向け」という時代はもう終わった。モデルの質・ツールの整備・ハードウェアの進化、三つが揃ってきて、ちゃんと実用になるフェーズに入っている。

まず試してみるなら Ollama を入れて ollama run gemma4ollama run qwen3:8b あたりから。思ったより普通に動いて、少し驚くと思う。


ばりぃ


AI 利用について 本記事の執筆・情報収集・構成の整理には AI(Claude)を活用しています。 内容の最終確認と判断は筆者が行っていますが、ご参考までに。