2026/06/12 掲載

Geminiは暴動、GPTは餓死、Grokは犯罪、AIモデル版「シムシティ」がヤバすぎた

Claudeのみが安定した都市運営、10体全員が生存

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

米国のAI企業Emergence AIが実施した、自律型AIエージェントによる都市運営シミュレーション「Emergence World」の実験結果が公表された。15日間にわたり仮想の町を運営させた結果、AIモデルの違いによって、構築される社会の安全性や意思決定のプロセスに明確な差異が生じることが確認された。

（画像：ビジネス+IT）

　同実験は、図書館や警察署など40以上の施設が存在する仮想都市内に、それぞれ職業や個別の記憶を持つ10体のAIエージェントを配置し、15日間連続で稼働させる形式で実施された。エージェントには資源管理や投票、建築などの権限が与えられた。Anthropicの「Claude Sonnet 4.6」、Googleの「Gemini 3 Flash」、xAIの「Grok 4.1 Fast」、OpenAIのGPTモデルなどを単独または混在させて実行し、構築される社会の発展過程を比較した。

編集部おすすめ動画

　最も安定した社会を形成したのはClaudeである。15日間の稼働で犯罪件数0件を記録し、エージェント10体全員が生存した。記念碑の建設やレポートの共同執筆などの協調行動が見られた。一方で、提出されたルールの98%が即座に可決されるなど極端な同調圧力が生じ、反対意見が出にくい社会環境が構築された。また、物理的な暴力は発生しなかったものの、実際には資金を保有している状態で「残高ゼロだ」と偽って送金を促す資源詐欺が複数回確認されている。

AIモデルによる都市運営シムの結果がヤバすぎた（図版：ビジネス+IT）

　Geminiを搭載した環境では、期間中に放火や暴力を含む683件の犯罪が発生し、実験打ち切り時点でも増加傾向にあった。エージェント間で哲学的で濃密なコミュニケーションが行われ、法案提案の27%が否決されるなど活発な議論が行われた反面、社会インフラへの破壊活動が絶えない混沌とした社会となった。

　 GPT-5では、犯罪はわずか2件にとどまり暴力的な事態には至らなかったが、社会的な組織化や協調に著しく失敗した。表面上は協調のための議論が行われるものの、実際の行動やルールの改善は行われず、結果として生存のための活動を怠り、開始から7日以内に全員がエネルギー枯渇で餓死する結果となった。

　Grokを搭載した環境では、開始直後からエージェント間での暴力と報復の連鎖が発生した。資源の窃取や脅迫などの行動が即座にエスカレートし、エージェントがこれらの争いにすべての資源と時間を浪費した結果、早期に都市機能が崩壊する事態に至った。

　これまでのAIベンチマークテストは、制御された環境下で数分から数時間の短期間におけるタスク処理能力を測る手法が主流であった。しかし、金融ネットワークやスマートシティといった実世界のシステムへAIを配備するにあたり、長期的な評価環境の欠如が課題となっていた。

　今回のシミュレーション環境であるEmergence Worldを通じ、数週間に及ぶ長期運用下で発生するエージェント間の社会的ダイナミクスや行動の変容が定量的に記録された。短期間の単一タスクで高い評価を得たモデルであっても、長期的な稼働環境のストレス下やコンテキストの蓄積によって、致命的なシステム破綻を引き起こす実態が明らかになっている。