【検証】GPT-5.4 Proは数学の未解決問題を「解いた」のか。公式テストは0点、成功率は11回に1回
Epoch AIの公式評価では未解決問題の正解はゼロ。外部ユーザーが別途挑戦し1問を突破したが、成功率は11回中1回。AIの数学能力の現在地を一次情報から検証する。
ニュース
kkm
Backend Engineer / AWS / Django
2026年3月、OpenAIの最新モデルGPT-5.4 Proが「数学の未解決問題を解いた」というニュースが世界中で話題になりました。Hacker Newsでは400ポイント超、各メディアが大きく報じています。
ただし、ここには大きな「ただし書き」がつきます。独立評価機関Epoch AIの公式テストでは、GPT-5.4 Proが未解決問題を解けた数はゼロでした。「解いた」のは公式テストの外側で起きた出来事であり、しかも11回試して1回だけ成功したものです。
見出しと実態のあいだに何があるのか、一次情報から検証します。
「AIが数学の未解決問題を解いた」。何が起きたのか
GPT-5.4は2026年3月5日にリリースされたOpenAIの最新モデルです。Pro、Business、Enterprise、Eduプランで利用できる最上位版「GPT-5.4 Pro」は、長時間の高難度タスク向けに設計されています。
このモデルが話題になったのは、AI研究機関Epoch AIが運営するFrontierMathというベンチマークでの成績です。FrontierMathは数百の超高難度数学問題で構成されており、数論、実解析、代数幾何学など現代数学の主要分野をカバーしています。一般的な問題でも、関連分野の研究者が数時間から数日かかるレベルです。
さらにその上に「Open Problems」という枠があります。プロの数学者が解決を試みて失敗した14の未解決問題で、予想解決時間は1週間から10年。ここで起きた出来事が、今回のニュースの核心です。
Epoch AIの公式テストではOpen Problemsは「0点」だった
まず公式の数字を見ましょう。Epoch AIが発表したGPT-5.4 Proの成績は以下の通りです。
| 難易度 | 正答率 | 説明 |
|---|---|---|
| Tiers 1-3 | 50% | 段階的に難しくなる 標準問題群 |
| Tier 4 | 38% | 50問の「例外的に 困難な」問題 |
| Open Problems | 0% | 14の未解決問題。 正解はゼロ |
Epoch AIは明確に述べています。GPT-5.4 ProをOpen Problemsで評価した結果、「解けた問題はゼロ」だったと。1問で「比較的つまらない」新規の観察を示しただけでした。
つまり、公式のテスト結果だけを見れば「AIは未解決問題を解けなかった」が正確な表現です。
外部ユーザーが1問だけ突破した経緯
では「解いた」という話はどこから来たのか。Epoch AIの公式評価とは別に、Kevin BarretoとLiam Priceという2人の外部ユーザーがGPT-5.4 Proを使って独自に未解決問題に挑戦しました。
彼らが取り組んだのは「ハイパーグラフに関するラムゼー型問題」という組合せ論の問題です。特定のサイズを超えるパーティションを含まないハイパーグラフの最大頂点数を求めるもので、この分野の専門家でも解法が見つかっていませんでした。
GPT-5.4 Proの1回の実行で解の候補が生成され、その後GPT-5.4 XHighを使ってLean(形式証明言語)で数時間かけて精緻化されました。問題の提供者であるUNCシャーロットのWill Brian氏が解法を確認し、「ラムゼー理論の問題としてはかなり良い上界と下界の一致」と評価しています。Brian氏は論文化を計画しており、AI開発者を共著者に含める可能性があるとのことです。
ここで重要なのは、これがEpoch AIの公式評価の外で起きた出来事だという点です。公式テストには時間制限やプロンプトの制約があり、外部ユーザーの自由な試行とは条件が異なります。
20年間解けなかった問題を解いた。ただし11回中1回
もうひとつ注目された成果があります。ポーランドのアダム・ミツキェヴィチ大学副学部長のBartosz Naskrecki氏が出題した、ガロア理論と代数幾何学にまたがる問題です。Naskrecki氏が20年間取り組んできたもので、FrontierMathではTier 4(最高難度だが「未解決問題」とは別カテゴリ)に分類されています。
Epoch AIがGPT-5.4を11回独立に実行した結果、最終回(11回目)でのみ成功しました。成功率は11分の1。解法は「算術と幾何学の間の関係に関する非常に美しいパターン」をエレガントな総和技法で示したもので、Naskrecki氏は「正当な数学であり、ショートカットではない」と評価しています。
Naskrecki氏の反応: 2025年7月にAIを「非常に高度な計算機」と公言していた同氏は、完全に立場を撤回。「個人的な"Move 37"だ」「解法は非常にきれいで、ほとんど人間のように感じる」と述べました。
Move 37とは、2016年にAlphaGoが囲碁の世界チャンピオン李世乭に打った一手で、人間のプロ棋士が「ありえない」と感じた着手のことです。Naskrecki氏にとって、今回の解法はそれほどの衝撃だったということでしょう。
ただし、11回中1回しか再現できないという事実は残ります。Epoch AI自身も「LLMの推論がいかに脆弱かを示している」と指摘しています。
2011年の論文を見つけて「解いた」ケースも
Tier 4では、GPT-5.4 Proがこれまでどのモデルも解けなかった問題をもう1つ解いています。しかしComputerworldの報道によると、予備分析の結果、モデルは2011年に投稿されたプレプリント(問題作成者自身も知らなかった論文)を発見し、それを利用して意図された作業の大部分をショートカットした可能性があります。
これは「数学的な創造性」というよりも「文献考古学」能力を示すものです。膨大な学術論文の中から関連する情報を掘り出す能力は確かにすごいのですが、「AIが数学を解いた」というイメージとはだいぶ異なります。
FrontierMathのスコアはどれだけ伸びたのか
問題の難しさを理解するために、各モデルのスコア推移を見てみましょう。
| モデル | 時期 | Tiers 1-3 | Tier 4 |
|---|---|---|---|
| GPT-4o / Claude 3.5等 | 2024年後半 | 2%未満 | — |
| o3 | 2024年12月 | 約10% | — |
| GPT-5 Pro | 2025年中頃 | — | 13% |
| GPT-5.2 Pro | 2026年1月 | 40.7% | 18.8% |
| GPT-5.4 Pro | 2026年3月 | 50% | 38% |
2024年後半の2%未満から、わずか1年半で50%に達したのは事実として驚くべき進歩です。ただし、o3のスコアについてOpenAIは25%以上と主張していましたが、Epoch AIの独立検証では約10%とされており、評価方法によって数字が大きく変わる点には注意が必要です。
「本当に数学ができる」と言えるのか
今回の結果に対して、いくつかの構造的な疑問が提起されています。
指摘されている問題点
- 1. 推論の脆弱性: Naskrecki問題は11回中1回のみ成功。成功率9%で「解けた」と言ってよいのか
- 2. 利益相反: FrontierMathはOpenAIが資金提供しており、構造的な利益相反があるとの指摘
- 3. 評価方法の相違: OpenAIの内部評価とEpoch AIの独立評価で結果が大きく異なる。OpenAIがより強力なスキャフォールドや計算リソースを使っている可能性
- 4. 文献検索とのすり替え: Tier 4の1問は2011年のプレプリント発見に依存。「解いた」のではなく「見つけた」のではないか
Hacker Newsの議論でも、「LLMは統計的適合を探しているだけで真偽を区別できない」「検証可能なドメインではRL(強化学習)で進歩するが、定義が曖昧な領域では幻覚が増加する」といった指摘が出ています。
数学者はどう受け止めたか
当事者の反応は二分されています。
問題提供者のWill Brian氏は解法を確認し、学術論文化を計画中です。Naskrecki氏は自身のAIに対する立場を完全に撤回し、「Move 37」と表現しました。OpenAI CPOのKevin Weil氏も「初めてAIが解決した」と反応しています。
一方で、後続の検証ではClaude Opus 4.6、Gemini 3.1 Pro、GPT-5.4(非Pro版)も同じハイパーグラフ問題を解いており、「GPT-5.4 Pro固有の能力」というよりは「最新世代のLLM全般が到達したレベル」という見方もできます。
見出しだけで判断しないために
整理しましょう。
GPT-5.4 ProはFrontierMathのTiers 1-3で50%、Tier 4で38%を達成しました。1年半前の2%未満からすれば確かに驚異的な進歩です。外部ユーザーの試行で未解決問題1問が突破され、20年来の問題も1問解かれました。
しかし、公式評価でのOpen Problems正答率はゼロ。20年来の問題の成功率は11回に1回。Tier 4で解けたもう1問は過去の論文発見に依存していました。評価機関とOpenAIの数字には乖離があり、ベンチマークの資金元はOpenAI自身です。
「AIが数学の未解決問題を解いた」という見出しは嘘ではありません。ただし、そこに至る経緯と条件を知ると、だいぶ印象が変わるはずです。AIの数学能力は確実に伸びています。問題は、11回に1回の成功を「解けた」と呼ぶかどうかです。
参照元
- ▸Epoch AI - FrontierMath
- ▸Epoch AI - FrontierMath Tier 4
- ▸Epoch AI - Ramsey-style Problem on Hypergraphs
- ▸OpenAI - Introducing GPT-5.4
- ▸Garry's List - GPT-5.4 Cracked a 20-Year Math Problem
- ▸Computerworld - GPT-5.4 Solves Math Problem with Help from Forgotten Research
- ▸Epoch AI Substack - GPT-5.4 Set a New Record on FrontierMath
- ▸Hacker News Discussion