4000億パラメータの内訳は何か

MoEアーキテクチャにより、総パラメータ397Bのうち1トークンあたり実際に稼働するのは17Bだけです。

SSDからAIの部品を読み出す仕組みはどうなっているのか

Apple論文LLM in a Flashに基づき、RAMには5.5GBのルーティングロジックだけを常駐させ、専門家モジュールはSSDからオンデマンドで読み出します。

Appleの公式AIとの関係はあるのか

ANEMLLはAppleの公式プロジェクトではなく独立したOSSですが、Apple ML Researchの論文を初めてオープンソース実装したものです。

iPhone 17 Proで「4000億パラメータのAI」が動いた。ただし1秒に0.6単語

Q: なぜスマホでAIを動かすことが重要なのか

プライバシー保護、オフライン動作、サブスクリプション不要という3つの利点があります。

iPhone 17 Proで4000億パラメータのAIモデルをローカル実行するデモが公開された。Apple論文の技術を使いSSDからAIの部品を読み出す仕組みだ。ただし速度は0.6単語/秒

iPhone 17 Proで、4000億パラメータのAIモデルがローカルで動作するデモが公開されました。インターネット接続なし、完全にデバイス上だけで動いています。WCCFTechが報じたこの動画は、Hacker Newsで509ポイントを獲得し、技術者の間で大きな議論を呼んでいます。

ただし、見出しの「4000億パラメータ」には裏があります。実際に1単語を生成するたびに動いているのは170億パラメータだけで、処理速度は1秒に0.6単語。実用にはまだ遠い概念実証です。それでも、この技術が意味することは小さくありません。

「4000億パラメータ」の内訳。実際に動いているのは170億

デモで使われたのは、中国Alibabaが開発したQwen3.5-397B-A17Bというモデルです。名前に含まれる数字がすべてを物語っています。397Bが総パラメータ数、A17Bが「アクティブ（稼働中）のパラメータ数」です。

このモデルはMoE（Mixture of Experts、混合エキスパート）と呼ばれるアーキテクチャを採用しています。簡単に言えば、AIモデルの中に「専門家チーム」が大量にいて、1つの質問に対して全員が答えるのではなく、関連する数人だけが動く仕組みです。

Qwen3.5は通常10人の専門家を使いますが、このデモでは4人に減らしています。つまり、4000億パラメータのうち1トークン（≒1単語）あたり実際に計算しているのは170億パラメータです。

さらに、モデルの重みは2-bit量子化（数値の精度を大幅に落とす圧縮技術）されています。ディスク上のサイズは非量子化時の209GBから約120GBに縮小。ただし精度の低下も大きく、開発者自身が「2-bit版ではツール呼び出し機能が壊れていた」と認め、後に4-bit版も公開しています。

SSDからAIの部品を1ミリ秒で読み出す仕組み

iPhone 17 ProのRAMは12GBです。120GBのモデルがどうやってその中で動くのでしょうか。

答えは、RAMにはモデル全体を載せないというアプローチにあります。

この技術は、Appleの研究チームが2023年に発表した論文「LLM in a Flash」（ICLR 2026に掲載）に基づいています。

仕組みはこうです。

1. RAMには「どの専門家を呼ぶか」を判断するルーティングロジック（約5.5GB）だけを常駐させる
2. 実際の専門家モジュール（各約3.9MB）は、SSD（ストレージ）に置いておく
3. 1トークンの生成ごとに、必要な専門家だけをSSDからGPUに読み込んで計算し、終わったら捨てる

開発者のSimon Willison氏による解説によると、MacBook Pro M3 MaxのSSD読み取り速度は毎秒17.5GB。専門家1つの読み込みは「1ミリ秒未満」で完了します。

実行中もiPhoneのRAMは5.5GBの空きを維持しており、他のアプリへの影響はほぼありません。「メモリに載らないなら、ストレージから超高速で読めばいい」という発想の転換です。

速度は「1秒に0.6単語」。実用にはまだ遠い

デバイス	速度	体感
iPhone 17 Pro	0.6 トークン/秒	約1.5〜2秒に1単語
MacBook Pro M3 Max （48GB RAM）	5.5 トークン/秒（ピーク7.05）	ゆっくりだが読める
クラウド（GPT-4クラス）	数十〜数百トークン/秒	ほぼリアルタイム

iPhone上の0.6トークン/秒は、日本語で言えば「一文を表示するのに30秒以上かかる」速度です。チャットとして使うのは現実的ではありません。

バッテリーの問題もあります。120GBのモデルデータをSSDから連続的に読み出し続けるのは、エネルギー消費の観点からも厳しいでしょう。Hacker Newsでは「ギガバイト単位のモデル重みをSSDから読み続けるのは、バッテリーへの負荷が大きすぎる」という指摘も出ています。

開発チーム（ANEMLL、"animal"と読む）自身も、これを実用的なアプリケーションとしてではなく、概念実証として位置付けています。コード量はC/Objective-Cが5,000行、Metal GPUシェーダーが1,100行。Claude（AI）の支援で24時間で完成したそうです。

なぜ「スマホでAIを動かす」ことが重要なのか

現在、ChatGPTやClaudeなどのAIサービスは、クラウド上の巨大なサーバーで動いています。ユーザーの入力はインターネットを経由してサーバーに送られ、処理結果が返ってきます。

これには3つの問題があります。

1. プライバシー: あなたが入力した内容はすべてサーバーに送信されます
2. インターネット依存: 接続が切れるとAIは使えません
3. コスト: 月額のサブスクリプション料金がかかり続けます

AIがスマホの中だけで完結すれば、これらの問題はすべて解消されます。医療データのような機密情報を扱う場面や、災害時の通信途絶下でも機能する自律システムなど、「データを外に出せない」ユースケースは多くあります。

もちろん、今回の400Bモデルでは実用速度に達していません。しかし、同じ技術を70億〜140億パラメータのモデルに適用すれば、実用的な速度で完全オフラインのAIが動く可能性があります。ANEMLLは実際にLLaMA 3.2やGemma 3などの小型モデルもサポートしています。

技術者はどう見ているか

Hacker Newsのコメント欄は、称賛と批判が入り混じっています。

「400Bは誇張」という批判

• 「397B-A17Bは実質17Bモデルとして動作する。"400B"と言うのはMoE部分を省略した誇張で、嘘に近い」（yencabulator）
• 「0.6トークン/秒は技術的には動くが実用的ではない」（ottah）
• 「バッテリー消費がエネルギー的に実現不可能」（mlsu）

概念実証としての評価

• ANEMLLの開発者自身は「SSD速度の向上により"LLM in a Flash"が実用化段階に入った」と主張
• Simon Willison氏（著名な技術ブロガー）が詳細解説記事を投稿し、技術的背景を補足
• 「MoEモデルのアクティブパラメータ数で評価すべき」という反論も出ている

「Appleが次のiPhoneでRAMを増やすかどうかが鍵だ」（russellbeatie）という意見もあります。12GBのRAMでは常にSSDからのストリーミングが必要ですが、RAMが増えれば使用頻度の高い専門家をキャッシュでき、速度は大幅に改善する可能性があります。

Appleの公式AIとの関係

誤解を避けるために明記しておくと、ANEMLLはAppleの公式プロジェクトではありません。独立したオープンソースプロジェクトです。

ただし、技術的なつながりはあります。ANEMLLが実装した「Flash-MoE」は、Apple Machine Learning Researchが2023年に発表した論文の初のオープンソース実装です。Appleの研究者が理論を示し、外部の開発者がそれを実装して動かして見せた格好です。

Appleには公式のML研究フレームワークMLXもあり、最適化された70億パラメータのモデルでは約230トークン/秒の速度が出ています。Apple IntelligenceとしてiPhoneに搭載されているオンデバイスAIは、こちらの小型モデルがベースです。

今回のデモが証明したのは、「Apple自身が研究した技術を使えば、社外の開発者でもiPhoneの上で巨大モデルを動かせる」ということです。Appleがこの技術を公式に採用するかどうかは未知数ですが、方向性としてはApple自身が示したものです。