iPhone 17 Proで「4000億パラメータのAI」が動いた。ただし1秒に0.6単語
iPhone 17 Proで4000億パラメータのAIモデルをローカル実行するデモが公開された。Apple論文の技術を使いSSDからAIの部品を読み出す仕組みだ。ただし速度は0.6単語/秒
ニュース
kkm
Backend Engineer / AWS / Django
iPhone 17 Proで、4000億パラメータのAIモデルがローカルで動作するデモが公開されました。インターネット接続なし、完全にデバイス上だけで動いています。WCCFTechが報じたこの動画は、Hacker Newsで509ポイントを獲得し、技術者の間で大きな議論を呼んでいます。
ただし、見出しの「4000億パラメータ」には裏があります。実際に1単語を生成するたびに動いているのは170億パラメータだけで、処理速度は1秒に0.6単語。実用にはまだ遠い概念実証です。それでも、この技術が意味することは小さくありません。
「4000億パラメータ」の内訳。実際に動いているのは170億
デモで使われたのは、中国Alibabaが開発したQwen3.5-397B-A17Bというモデルです。名前に含まれる数字がすべてを物語っています。397Bが総パラメータ数、A17Bが「アクティブ(稼働中)のパラメータ数」です。
このモデルはMoE(Mixture of Experts、混合エキスパート)と呼ばれるアーキテクチャを採用しています。簡単に言えば、AIモデルの中に「専門家チーム」が大量にいて、1つの質問に対して全員が答えるのではなく、関連する数人だけが動く仕組みです。
Qwen3.5は通常10人の専門家を使いますが、このデモでは4人に減らしています。つまり、4000億パラメータのうち1トークン(≒1単語)あたり実際に計算しているのは170億パラメータです。
さらに、モデルの重みは2-bit量子化(数値の精度を大幅に落とす圧縮技術)されています。ディスク上のサイズは非量子化時の209GBから約120GBに縮小。ただし精度の低下も大きく、開発者自身が「2-bit版ではツール呼び出し機能が壊れていた」と認め、後に4-bit版も公開しています。
SSDからAIの部品を1ミリ秒で読み出す仕組み
iPhone 17 ProのRAMは12GBです。120GBのモデルがどうやってその中で動くのでしょうか。
答えは、RAMにはモデル全体を載せないというアプローチにあります。
この技術は、Appleの研究チームが2023年に発表した論文「LLM in a Flash」(ICLR 2026に掲載)に基づいています。
仕組みはこうです。
- 1. RAMには「どの専門家を呼ぶか」を判断するルーティングロジック(約5.5GB)だけを常駐させる
- 2. 実際の専門家モジュール(各約3.9MB)は、SSD(ストレージ)に置いておく
- 3. 1トークンの生成ごとに、必要な専門家だけをSSDからGPUに読み込んで計算し、終わったら捨てる
開発者のSimon Willison氏による解説によると、MacBook Pro M3 MaxのSSD読み取り速度は毎秒17.5GB。専門家1つの読み込みは「1ミリ秒未満」で完了します。
実行中もiPhoneのRAMは5.5GBの空きを維持しており、他のアプリへの影響はほぼありません。「メモリに載らないなら、ストレージから超高速で読めばいい」という発想の転換です。
速度は「1秒に0.6単語」。実用にはまだ遠い
| デバイス | 速度 | 体感 |
|---|---|---|
| iPhone 17 Pro | 0.6 トークン/秒 | 約1.5〜2秒に1単語 |
| MacBook Pro M3 Max (48GB RAM) | 5.5 トークン/秒 (ピーク7.05) | ゆっくりだが読める |
| クラウド (GPT-4クラス) | 数十〜数百 トークン/秒 | ほぼリアルタイム |
iPhone上の0.6トークン/秒は、日本語で言えば「一文を表示するのに30秒以上かかる」速度です。チャットとして使うのは現実的ではありません。
バッテリーの問題もあります。120GBのモデルデータをSSDから連続的に読み出し続けるのは、エネルギー消費の観点からも厳しいでしょう。Hacker Newsでは「ギガバイト単位のモデル重みをSSDから読み続けるのは、バッテリーへの負荷が大きすぎる」という指摘も出ています。
開発チーム(ANEMLL、"animal"と読む)自身も、これを実用的なアプリケーションとしてではなく、概念実証として位置付けています。コード量はC/Objective-Cが5,000行、Metal GPUシェーダーが1,100行。Claude(AI)の支援で24時間で完成したそうです。
なぜ「スマホでAIを動かす」ことが重要なのか
現在、ChatGPTやClaudeなどのAIサービスは、クラウド上の巨大なサーバーで動いています。ユーザーの入力はインターネットを経由してサーバーに送られ、処理結果が返ってきます。
これには3つの問題があります。
- 1. プライバシー: あなたが入力した内容はすべてサーバーに送信されます
- 2. インターネット依存: 接続が切れるとAIは使えません
- 3. コスト: 月額のサブスクリプション料金がかかり続けます
AIがスマホの中だけで完結すれば、これらの問題はすべて解消されます。医療データのような機密情報を扱う場面や、災害時の通信途絶下でも機能する自律システムなど、「データを外に出せない」ユースケースは多くあります。
もちろん、今回の400Bモデルでは実用速度に達していません。しかし、同じ技術を70億〜140億パラメータのモデルに適用すれば、実用的な速度で完全オフラインのAIが動く可能性があります。ANEMLLは実際にLLaMA 3.2やGemma 3などの小型モデルもサポートしています。
技術者はどう見ているか
Hacker Newsのコメント欄は、称賛と批判が入り混じっています。
「400Bは誇張」という批判
- • 「397B-A17Bは実質17Bモデルとして動作する。"400B"と言うのはMoE部分を省略した誇張で、嘘に近い」(yencabulator)
- • 「0.6トークン/秒は技術的には動くが実用的ではない」(ottah)
- • 「バッテリー消費がエネルギー的に実現不可能」(mlsu)
概念実証としての評価
- • ANEMLLの開発者自身は「SSD速度の向上により"LLM in a Flash"が実用化段階に入った」と主張
- • Simon Willison氏(著名な技術ブロガー)が詳細解説記事を投稿し、技術的背景を補足
- • 「MoEモデルのアクティブパラメータ数で評価すべき」という反論も出ている
「Appleが次のiPhoneでRAMを増やすかどうかが鍵だ」(russellbeatie)という意見もあります。12GBのRAMでは常にSSDからのストリーミングが必要ですが、RAMが増えれば使用頻度の高い専門家をキャッシュでき、速度は大幅に改善する可能性があります。
Appleの公式AIとの関係
誤解を避けるために明記しておくと、ANEMLLはAppleの公式プロジェクトではありません。独立したオープンソースプロジェクトです。
ただし、技術的なつながりはあります。ANEMLLが実装した「Flash-MoE」は、Apple Machine Learning Researchが2023年に発表した論文の初のオープンソース実装です。Appleの研究者が理論を示し、外部の開発者がそれを実装して動かして見せた格好です。
Appleには公式のML研究フレームワークMLXもあり、最適化された70億パラメータのモデルでは約230トークン/秒の速度が出ています。Apple IntelligenceとしてiPhoneに搭載されているオンデバイスAIは、こちらの小型モデルがベースです。
今回のデモが証明したのは、「Apple自身が研究した技術を使えば、社外の開発者でもiPhoneの上で巨大モデルを動かせる」ということです。Appleがこの技術を公式に採用するかどうかは未知数ですが、方向性としてはApple自身が示したものです。
参照元
- •WCCFTech: iPhone 17 Pro Successfully Runs 400B LLM Locally
- •Gizmochina: iPhone 17 Pro runs a 400B AI model locally
- •Simon Willison: LLM in a Flash
- •Apple Machine Learning Research: Efficient Large Language Models
- •arXiv: LLM in a Flash(論文)
- •GitHub: ANEMLL
- •ANEMLL公式サイト
- •AI for Automation: Flash-MoE解説
- •Hacker News: 討論スレッド