前回に続き、ローカルLLMの話題です。

前回の内容は、サービス名とかテクニックについての話に偏っていて、ローカルLLMで自社内AIを構築するべき本質的な目的が伝わっていなかったと思っています。

正確には、私も”ことの本質”についてイマイチよくわかっていなかったのです。

「チャット」から「ナレッジエンジン」への進化

さて、昨今のネットの話題としては、ローカルLLMを導入して「AIサブスクを解約してコストを浮かせよう」という話題が多いようです。

確かに、ローカルLLMを自分のPCなどで動かしてうまく設定すれば、かなりのサブスクサービスを解約することができます。

ただ、それをローカルLLM(自前AI)を導入する「本当の理由」と考えると本質を見誤ります。

本質的な目的は、節約ではなく、自分のPCや自社内に眠っている何年分もの資産(企画書、オフィスドキュメントなど)を、外部に一切漏らさずに自社内AIの「脳」と直結させることにあります。

この「直結」がキーワードなのですが、直結とはどういうことなのかが重要です。

それは、自社内のファイル群をAIにインデックス(索引)させることができるということです。

ChatGPTなどのクラウド型チャットAIの場合は、いちいち解析対象のファイルをアップロードしてからプロンプトを投げる必要があります。

それに対して、すでに自社内AIに自社内のファイル群がインデックスされていると、AIの回答は社内の全てのファイル群を常時参照しながら回答してくれることになります。

例えば、数年前の議事録、独自の企画書、ボツになったアイデアメモなどがすべて対象になります。

例えば、プロンプトとして「去年のあの案件に近い構成で、今回の提案書を作って」といった自分にしかできない文脈で回答を求めることが可能になります。

ところで、iCloud Driveなどのクラウドサーバーを使っている場合でもインデックス対象に設定する方法があります。

iCloud Driveのフォルダがインデックス対象になっていれば、外出先でiPhoneからメモした内容を、事務所AIサーバーがバックグラウンドで自動取得し、数分後には最新の知識として回答に反映させてくれます。

クラウドの『利便性』とローカルの『安全性』のいいとこ取りができるのです。

  • クラウドAI

毎回ファイルをアップロードし、その場限りの対話をする「使い捨て」のツール。

  • ローカルLLM

ローカルの特定フォルダをAIに「インデックス(索引)化」させることで、AIは自社内の過去の仕事をすべて記憶した「有能な分身」へと進化する。

これが、ローカルLLMで自社内AIを構築するべき本質的な目的です。

ビジネスをしている方の場合は、サブスクの解約は決して主目的ではないのです。

社内PCで複数のモデルを使い分ける

改めて、自社内にローカルLLMを導入するにはどうすればいいのかをまとめます。

個人事業主の方であれば自分のPCにローカルLLMをインストールして使えば事足ります。

一方、2名以上の従業員がいる事務所であれば、ローカルLLMをインストールするPCをサーバー化するのが得策です。

サーバー化というと大袈裟に聞こえますが、やることはシンプルで。

スペックとして「45TOPS」以上の処理能力を持つPC(Mac mini M4モデルなど)を専用に1台準備すればいいだけです。

この「TOPS」とは、AI専用回路(NPU)の演算能力を示す指標で、「45」という数値はクラウドに頼らずとも手元だけで数千枚のドキュメントを高速で検索・解析できる「実務上の境界線」のことです。

もともと「45TOPS」は、Microsoftの「Copilot+ PC」の条件として使われている数値なので、Windows PCなら製品のスペックとして対応しているかどうかわかりやすく表示されているケースが多いようです。

Macの場合は、例えば「Mac mini M4モデル」などがその程度の処理能力を持っているようです。

ただ、MacBook単体では、45TOPSを「NPU単体」で超えるモデルはあまり多くありません。

ところが、Macの場合は「ユニファイドメモリ」の恩恵が大きくて、18TOPS程度のモデルでもWindows機の45TOPSに匹敵する実効速度が出ることが多々あるそうです。

つまり、最新モデルであれば楽勝でローカルLLMを快適に動作させられます。

そして、このスペックに対応したPCに、LLMのモデルと呼ばれる、前回ご紹介した「Qwen」などをインストールして使います。

実は、このモデルは、PCの容量が許す限りいくつでもインストールして切り換えて使うことができます。

新しいバージョンが出れば追加できますし、以前のモデルを残しておけば「以前出来たことが新しいモデルではできなくなった」という悪い意味でも「AIあるある」も避けられます。

代表的なローカルLLMのモデルは、汎用性・安定性重視なら「LLaMA 3系」(情報が多く、トラブルシューティングが容易)、日本語ドキュメントの精度重視なら「Qwen系」(日本語の文字化けや、不自然な要約を避けられる)、古いPCやノートPCで動かすなら「Mistral (7Bクラス)」などがあります。

複数のAIモデルをインストルしておくことで、自社のデータに対して「セカンドオピニオン」を求められる環境を構築できるのです。

これは、ローカルサーバー運用ならではの大きなメリットと言えます。

ちなみに、同じ名称のモデルでもサイズ(パラメータ数)が複数あります。

サイズによって性能が変わるのですが、これらの複数のサイズも同じPCにインストールして切り換えて使うことができます。

動きが緩慢でも結果を求める場合は、サイズが大きいモデルを選んで使うと言うことができます。

「Qwen」の場合は、必要なストレージ容量は以下の様になります。

ストレージ容量の目安(Qwenの場合)

  • Qwen2.5 1.5B: 約1.5GB(非常に軽量、M1でも爆速)
  • Qwen2.5 3B  約2.5GB(スマホでも動くサイズ、バランス良好)
  • Qwen3.5 4B  約3.4GB(2026年最新。 3B並みの軽さで7Bに近い知能を持ち、M1での常用に最適。)
  • Qwen2.5 7B 約4.7GB(実務で最も「賢さ」を実感できるサイズ)
  • Qwen3.5 9B 約6.5GB(7Bより一段上の推論能力を持ち、日本語の機微に強い)
  • Qwen2.5 14B / 32B: 約10GB〜20GB(M1のメモリ16GB以上なら、32Bは少し重く感じます)

なぜこんなに価値のあるものが無料なのか?

私が一番不思議に感じていたのが、なぜこんなに価値のあるものが無料なのかということです。

実は、無料モデルの存在理由は明白です。

これは、企業間の覇権争いの副産物なのです。

つまり、ChatGPTなどに対抗するため、オープンソース側を強化して特定の社による独占を防ぐ、一種の防衛策です。

MetaやAlibabaがモデルを無料公開し続けるのは、それが次世代の「インフラ」の座を狙うための戦略だからです。

つまり、私たちにとってはラッキーなのです。

これら企業の巨大な投資の成果を、自分のPCという「安全な場所」の中に無料で取り込んで使えるのです。

ただ、負の側面があることも理解しておく必要があります。

自社のPCにインストールするということは、「運用の手間」と「結果への責任」というコストが生じます。

クラウドAIは『サービス』ですが、ローカルLLMは『設備』だということです。

設備は、メンテナンスを怠れば止まり、検証を怠ればハルシネーションとう嘘を吐かれてしまいます。

設備としての運用で最も重要な作業は、情報の鮮度を維持することです。

古いファイルがインデックスされている状態を放置せずに、週に一度は不要なファイルを整理したり、最新のプロジェクト資料をAIの参照フォルダへ移すなどの作業が必要です。

つまり、自らの技術と管理で乗りこなす覚悟が必要です。

そうは言っても、メリットの方が圧倒的に大きいことが予想できるはずです。

少なくとも、ビジネスをしている方たちにとっては、20万円程度のPCを1台導入するだけで実現できるローカルLLMの導入を躊躇する理由ではないと思います。