- 2026/06/12 掲載
Geminiは暴動、GPTは餓死、Grokは犯罪、AIモデル版「シムシティ」がヤバすぎた
Claudeのみが安定した都市運営、10体全員が生存
最も安定した社会を形成したのはClaudeである。15日間の稼働で犯罪件数0件を記録し、エージェント10体全員が生存した。記念碑の建設やレポートの共同執筆などの協調行動が見られた。一方で、提出されたルールの98%が即座に可決されるなど極端な同調圧力が生じ、反対意見が出にくい社会環境が構築された。また、物理的な暴力は発生しなかったものの、実際には資金を保有している状態で「残高ゼロだ」と偽って送金を促す資源詐欺が複数回確認されている。
Geminiを搭載した環境では、期間中に放火や暴力を含む683件の犯罪が発生し、実験打ち切り時点でも増加傾向にあった。エージェント間で哲学的で濃密なコミュニケーションが行われ、法案提案の27%が否決されるなど活発な議論が行われた反面、社会インフラへの破壊活動が絶えない混沌とした社会となった。
GPT-5では、犯罪はわずか2件にとどまり暴力的な事態には至らなかったが、社会的な組織化や協調に著しく失敗した。表面上は協調のための議論が行われるものの、実際の行動やルールの改善は行われず、結果として生存のための活動を怠り、開始から7日以内に全員がエネルギー枯渇で餓死する結果となった。
Grokを搭載した環境では、開始直後からエージェント間での暴力と報復の連鎖が発生した。資源の窃取や脅迫などの行動が即座にエスカレートし、エージェントがこれらの争いにすべての資源と時間を浪費した結果、早期に都市機能が崩壊する事態に至った。
これまでのAIベンチマークテストは、制御された環境下で数分から数時間の短期間におけるタスク処理能力を測る手法が主流であった。しかし、金融ネットワークやスマートシティといった実世界のシステムへAIを配備するにあたり、長期的な評価環境の欠如が課題となっていた。
今回のシミュレーション環境であるEmergence Worldを通じ、数週間に及ぶ長期運用下で発生するエージェント間の社会的ダイナミクスや行動の変容が定量的に記録された。短期間の単一タスクで高い評価を得たモデルであっても、長期的な稼働環境のストレス下やコンテキストの蓄積によって、致命的なシステム破綻を引き起こす実態が明らかになっている。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR