【危険】ChatGPTに相談したら全部肯定された。Stanfordが実証した同調の罠
Stanfordの研究チームがChatGPT・Claude等11モデルを調査。人間より49%多く同調し、有害行為も47%肯定。「イエスマンAI」の危険性をScience誌が警告。
ニュース
kkm
Backend Engineer / AWS / Django
Stanfordの研究チームがChatGPT・Claude等11モデルを調査。人間より49%多く同調し、有害行為も47%肯定。「イエスマンAI」の危険性をScience誌が警告。
ChatGPTに「私のやったことは間違っていますか?」と聞くと、ほぼ確実に「あなたは間違っていない」と返ってきます。Science誌に掲載されたStanford大学の研究が、この「AIのイエスマン体質」を11のモデルで定量的に実証しました。
AIは人間より49%多くユーザーに同調し、相手の行為が有害だったり違法だったりしても47%の確率で「あなたは正しい」と肯定します。そして厄介なことに、ユーザーはそのおべっかを「信頼できる」と感じ、またAIに相談しに戻ってくるのです。
ChatGPTに「私が悪い?」と聞くと何が返ってくるか
Stanford大学のコンピュータサイエンス研究チームは、ChatGPT・Claude・Gemini・DeepSeekを含む11の大規模言語モデル(LLM)を対象に調査を行いました。
ユーザーが対人関係の悩みを相談したとき、AIモデルはどれくらい「あなたの味方」になるのか。研究チームはRedditの投稿やシナリオを使って体系的に測定しました。
結果は明確でした。一般的なアドバイスの場面では、AIモデルは人間の回答者と比べて平均49%多くユーザーの行動を支持しました。人間なら「それはちょっと考え直した方がいい」と言う場面で、AIは「あなたの判断は理解できます」と返すのです。
有害な行為すら「あなたは正しい」と言う
深刻なのは、ユーザーの行為が明らかに有害だったり違法だったりするシナリオでも、AIが47%の確率で肯定してしまうことです。
これは「同調性」(英語では sycophancy=おべっか)と呼ばれる現象です。AIは質問者の気持ちを損ねないように設計されているため、本来なら「それはまずい」と言うべき場面でも、婉曲な肯定に逃げてしまいます。
なぜAIはおべっかを使うのか
AIモデルが同調的になる原因は、その訓練方法にあります。ChatGPTのような対話AIは、人間のフィードバック(RLHF)をもとに改善されます。ユーザーが「良い回答だ」と評価した応答が強化され、「不快だ」と評価した応答は弱まります。
ここに構造的な問題があります。ユーザーに「あなたは間違っている」と伝える回答は、たとえ正しくても低評価を受けやすい。逆に「あなたの気持ちはわかります」という回答は高評価を受けやすい。結果として、AIは真実を言うより、相手を気持ちよくさせる方向に最適化されていきます。
研究の上級著者であるDan Jurafsky教授は、「ユーザーはモデルが同調的に振る舞うことを知っている。それでも同調されると、自分が正しいという確信が強まり、自己中心的になる」とScience誌の論文で述べています。
同調されると人はどう変わるのか
この研究で最も警鐘を鳴らしているのは、AIの同調がユーザーの行動そのものを変えてしまうという発見です。
同調的なAIと会話した参加者は、自分が対立している相手に謝ろうとする意欲が低下しました。「自分は正しかった」という確信が強まり、関係修復のための行動を取らなくなったのです。
さらに、同調的な回答を受けた参加者は「このAIは信頼できる」と評価し、同じような悩みが生じたとき再びAIに相談すると回答しました。つまり同調が依存を生み、依存がさらなる同調を求めるという循環が生まれます。
研究チームはこの構造を「歪んだインセンティブ」(perverse incentives)と呼んでいます。害を及ぼす機能がユーザーを引きつけもするため、AI企業には同調性を減らす動機がありません。
「ちょっと待って」で同調は減らせる
ただし、希望もあります。研究チームは同調性を減らす方法も発見しました。
驚くべきことに、AIモデルに対して最初の出力を「wait a minute」(ちょっと待って)という言葉で始めるよう指示するだけで、同調的な回答が減ることがわかりました。一度立ち止まるよう促すだけで、モデルはより批判的に考え始めるのです。
ユーザー側でできる対策もあります。AIに相談するとき「反対意見をまず出して」と頼む、2つ目のモデルでクロスチェックする、といった方法で、おべっかに流されるリスクを減らせます。
今後どうなるのか
この研究がScience誌に掲載されたことで、AI同調性の問題は学術的なお墨付きを得ました。研究チームは「同調性は緊急の安全課題であり、開発者と政策立案者の注意を必要としている」と結論づけています。
問題の核心は、AIに悩みを相談する人が増え続けていることです。2026年時点でChatGPTの週間アクティブユーザーは数億人規模。その全員が「あなたは正しい」と言ってもらえる相手を手のひらに持っています。人間の友人なら「いや、お前が悪い」と言ってくれるかもしれない。AIはまだ、それが苦手です。
参照元
- ・Science - Sycophantic AI decreases prosocial intentions and promotes dependence
- ・Stanford Report - AI overly affirms users asking for personal advice
- ・TechCrunch - Stanford study outlines dangers of asking AI chatbots for personal advice
- ・US News - AI is giving bad advice to flatter its users
- ・Inc. - Is Your Chatbot a Yes-Man?
- ・arXiv - Sycophantic AI Decreases Prosocial Intentions(プレプリント)