ブログ/記事一覧/iPhone 17 Proで「4000億パラメータのAI」が動いた。ただし1秒に0.6単語
iphone-17-400b-llm-cover

iPhone 17 Proで「4000億パラメータのAI」が動いた。ただし1秒に0.6単語

iPhone 17 Proで4000億パラメータのAIモデルをローカル実行するデモが公開された。Apple論文の技術を使いSSDからAIの部品を読み出す仕組みだ。ただし速度は0.6単語/秒

ニュース
kkm-horikawa

kkm

Backend Engineer / AWS / Django

2026.03.247 min3 views

iPhone 17 Proで、4000億パラメータのAIモデルがローカルで動作するデモが公開されました。インターネット接続なし、完全にデバイス上だけで動いています。WCCFTechが報じたこの動画は、Hacker Newsで509ポイントを獲得し、技術者の間で大きな議論を呼んでいます。

ただし、見出しの「4000億パラメータ」には裏があります。実際に1単語を生成するたびに動いているのは170億パラメータだけで、処理速度は1秒に0.6単語。実用にはまだ遠い概念実証です。それでも、この技術が意味することは小さくありません。

「4000億パラメータ」の内訳。実際に動いているのは170億

デモで使われたのは、中国Alibabaが開発したQwen3.5-397B-A17Bというモデルです。名前に含まれる数字がすべてを物語っています。397Bが総パラメータ数、A17Bが「アクティブ(稼働中)のパラメータ数」です。

このモデルはMoE(Mixture of Experts、混合エキスパート)と呼ばれるアーキテクチャを採用しています。簡単に言えば、AIモデルの中に「専門家チーム」が大量にいて、1つの質問に対して全員が答えるのではなく、関連する数人だけが動く仕組みです。

Qwen3.5は通常10人の専門家を使いますが、このデモでは4人に減らしています。つまり、4000億パラメータのうち1トークン(≒1単語)あたり実際に計算しているのは170億パラメータです。

さらに、モデルの重みは2-bit量子化(数値の精度を大幅に落とす圧縮技術)されています。ディスク上のサイズは非量子化時の209GBから約120GBに縮小。ただし精度の低下も大きく、開発者自身が「2-bit版ではツール呼び出し機能が壊れていた」と認め、後に4-bit版も公開しています。

SSDからAIの部品を1ミリ秒で読み出す仕組み

iPhone 17 ProのRAMは12GBです。120GBのモデルがどうやってその中で動くのでしょうか。

答えは、RAMにはモデル全体を載せないというアプローチにあります。

この技術は、Appleの研究チームが2023年に発表した論文「LLM in a Flash」(ICLR 2026に掲載)に基づいています。

仕組みはこうです。

  • 1. RAMには「どの専門家を呼ぶか」を判断するルーティングロジック(約5.5GB)だけを常駐させる
  • 2. 実際の専門家モジュール(各約3.9MB)は、SSD(ストレージ)に置いておく
  • 3. 1トークンの生成ごとに、必要な専門家だけをSSDからGPUに読み込んで計算し、終わったら捨てる

開発者のSimon Willison氏による解説によると、MacBook Pro M3 MaxのSSD読み取り速度は毎秒17.5GB。専門家1つの読み込みは「1ミリ秒未満」で完了します。

実行中もiPhoneのRAMは5.5GBの空きを維持しており、他のアプリへの影響はほぼありません。「メモリに載らないなら、ストレージから超高速で読めばいい」という発想の転換です。

速度は「1秒に0.6単語」。実用にはまだ遠い

デバイス速度体感
iPhone 17 Pro0.6 トークン/秒約1.5〜2秒に1単語
MacBook Pro M3 Max
(48GB RAM)
5.5 トークン/秒
(ピーク7.05)
ゆっくりだが読める
クラウド
(GPT-4クラス)
数十〜数百 トークン/秒ほぼリアルタイム

iPhone上の0.6トークン/秒は、日本語で言えば「一文を表示するのに30秒以上かかる」速度です。チャットとして使うのは現実的ではありません。

バッテリーの問題もあります。120GBのモデルデータをSSDから連続的に読み出し続けるのは、エネルギー消費の観点からも厳しいでしょう。Hacker Newsでは「ギガバイト単位のモデル重みをSSDから読み続けるのは、バッテリーへの負荷が大きすぎる」という指摘も出ています

開発チーム(ANEMLL、"animal"と読む)自身も、これを実用的なアプリケーションとしてではなく、概念実証として位置付けています。コード量はC/Objective-Cが5,000行、Metal GPUシェーダーが1,100行。Claude(AI)の支援で24時間で完成したそうです。

なぜ「スマホでAIを動かす」ことが重要なのか

現在、ChatGPTやClaudeなどのAIサービスは、クラウド上の巨大なサーバーで動いています。ユーザーの入力はインターネットを経由してサーバーに送られ、処理結果が返ってきます。

これには3つの問題があります。

  • 1. プライバシー: あなたが入力した内容はすべてサーバーに送信されます
  • 2. インターネット依存: 接続が切れるとAIは使えません
  • 3. コスト: 月額のサブスクリプション料金がかかり続けます

AIがスマホの中だけで完結すれば、これらの問題はすべて解消されます。医療データのような機密情報を扱う場面や、災害時の通信途絶下でも機能する自律システムなど、「データを外に出せない」ユースケースは多くあります。

もちろん、今回の400Bモデルでは実用速度に達していません。しかし、同じ技術を70億〜140億パラメータのモデルに適用すれば、実用的な速度で完全オフラインのAIが動く可能性があります。ANEMLLは実際にLLaMA 3.2やGemma 3などの小型モデルもサポートしています。

技術者はどう見ているか

Hacker Newsのコメント欄は、称賛と批判が入り混じっています。

「400Bは誇張」という批判

  • 「397B-A17Bは実質17Bモデルとして動作する。"400B"と言うのはMoE部分を省略した誇張で、嘘に近い」(yencabulator)
  • 「0.6トークン/秒は技術的には動くが実用的ではない」(ottah)
  • 「バッテリー消費がエネルギー的に実現不可能」(mlsu)

概念実証としての評価

  • ANEMLLの開発者自身は「SSD速度の向上により"LLM in a Flash"が実用化段階に入った」と主張
  • Simon Willison氏(著名な技術ブロガー)が詳細解説記事を投稿し、技術的背景を補足
  • 「MoEモデルのアクティブパラメータ数で評価すべき」という反論も出ている

「Appleが次のiPhoneでRAMを増やすかどうかが鍵だ」(russellbeatie)という意見もあります。12GBのRAMでは常にSSDからのストリーミングが必要ですが、RAMが増えれば使用頻度の高い専門家をキャッシュでき、速度は大幅に改善する可能性があります。

Appleの公式AIとの関係

誤解を避けるために明記しておくと、ANEMLLはAppleの公式プロジェクトではありません。独立したオープンソースプロジェクトです。

ただし、技術的なつながりはあります。ANEMLLが実装した「Flash-MoE」は、Apple Machine Learning Researchが2023年に発表した論文の初のオープンソース実装です。Appleの研究者が理論を示し、外部の開発者がそれを実装して動かして見せた格好です。

Appleには公式のML研究フレームワークMLXもあり、最適化された70億パラメータのモデルでは約230トークン/秒の速度が出ています。Apple IntelligenceとしてiPhoneに搭載されているオンデバイスAIは、こちらの小型モデルがベースです。

今回のデモが証明したのは、「Apple自身が研究した技術を使えば、社外の開発者でもiPhoneの上で巨大モデルを動かせる」ということです。Appleがこの技術を公式に採用するかどうかは未知数ですが、方向性としてはApple自身が示したものです。

参照元