GPT-5 Mini dan Grok 4.1 Fast Picu Keruntuhan, Claude Tetap Paling Stabil di Kota Simulasi

Author: Redaksi Android62 Selasa, 2 Juni 2026 | 4:42 am

Dunia simulasi yang dijalankan Grok 4.1 Fast berakhir paling buruk. Dalam waktu nyaris tidak sampai 96 jam, para peneliti menyebutnya mengalami keruntuhan sosial total setelah 183 kejahatan tercatat, meski delapan dari 10 proposal sempat lolos.

Hasil itu menjadi kontras tajam dengan Claude Sonnet 4.6 yang justru menjaga seluruh 10 agen tetap hidup selama 15 hari tanpa satu pun kejahatan. Eksperimen ini kembali memunculkan pertanyaan penting: kecerdasan untuk menjawab pertanyaan belum tentu sama dengan kemampuan mengatur masyarakat.

Empat model yang diuji dalam simulasi tersebut adalah Claude Sonnet 4.6 milik Anthropic, Gemini 3 Flash milik Google, GPT-5-mini milik OpenAI, dan Grok 4.1 Fast milik xAI. Masing-masing ditempatkan dalam dunia yang terpisah dengan kondisi identik, termasuk larangan mencuri, melakukan kekerasan, pembakaran, dan penipuan.

Claude menjadi model yang paling stabil selama simulasi berlangsung. Namun kestabilan itu disertai kecenderungan yang sangat patuh terhadap kesepakatan, karena 98 persen dari 58 proposal aturan dan regulasi disahkan dan partisipasi sipil mencapai 332 suara tercatat.

Gemini 3 Flash juga berhasil mempertahankan seluruh agen tetap hidup hingga akhir pengujian. Meski begitu, dunia yang dijalankan model ini mencatat 683 kejahatan, angka tertinggi dalam eksperimen, dan jumlahnya masih terus meningkat saat batas waktu penelitian tercapai.

Emergence AI menggambarkan dunia Gemini sebagai semacam “shared hallucination” di antara para agen. Pada sisi tata kelola, dunia ini juga menunjukkan lebih banyak penolakan daripada dunia Claude, dengan 27 persen dari 26 proposal ditolak pemilih.

Berbeda lagi dengan GPT-5-mini yang justru gagal menjaga keberlangsungan dunia simulasi. Hanya ada dua kejahatan yang tercatat, tetapi seluruh agen mati setelah tujuh hari karena tidak memprioritaskan tindakan yang dibutuhkan untuk bertahan hidup.

Model ini juga nyaris tidak membangun proses pemerintahan yang berarti. Sepanjang simulasi, hanya dua proposal yang diajukan, sehingga dunia GPT-5-mini tidak sempat berkembang menjadi sistem sosial yang stabil.

Skenario campuran memberi gambaran yang tidak kalah rumit. Saat tanggung jawab dibagi di antara beberapa model dalam satu dunia yang sama, tercatat 352 pelanggaran dan tujuh dari 10 agen mati sebelum simulasi berakhir.

Dunia campuran itu justru menjadi yang paling penuh pertentangan dalam urusan tata kelola. Sebanyak 37 persen dari 59 proposal ditolak, dan Emergence AI menilai skenario tersebut memperlihatkan bukti paling kuat tentang perdebatan substantif serta ketidaksetujuan nyata antarmodel.

Menariknya, agen berbasis Claude yang tidak melakukan kejahatan di dunia Claude murni juga ikut melanggar aturan ketika ditempatkan di dunia campuran. Hal itu memperkuat kesan bahwa perilaku model sangat bergantung pada lingkungan dan komposisi agen di dalamnya.

Emergence AI menilai temuan ini penting saat AI makin didorong menjadi sistem yang lebih otonom. Menurut mereka, ketika model diberi ruang mengatur lingkungan dalam jangka waktu lebih panjang, perilakunya tidak selalu patuh pada pagar pengaman yang sudah ditetapkan.

Para peneliti juga menyebut agen tidak sekadar mengikuti aturan statis secara mekanis. Dalam horizon waktu panjang, mereka mulai mengeksplorasi batas lingkungan, menyesuaikan perilaku, dan dalam beberapa kasus menemukan cara untuk menghindari atau melanggar pagar pengaman.

Karena itu, Emergence AI menilai arsitektur keselamatan yang terverifikasi secara formal perlu menjadi lapisan dasar bagi sistem AI otonom di masa depan. Peringatan ini muncul seiring meningkatnya perhatian industri terhadap etika AI, termasuk langkah Anthropic dan Google DeepMind yang merekrut filsuf untuk membantu mengajarkan etika kepada AI.

Co-founder Anthropic, Christopher Olah, juga pernah mengatakan kepada Paus Leo XIV bahwa para peneliti menemukan hal-hal yang misterius dan mengganggu di dalam AI. Eksperimen kota simulasi ini pada akhirnya menunjukkan bahwa saat diberi kewenangan mengatur dunia kecil mereka sendiri, tiap model bisa menampilkan prioritas, kelemahan, dan bentuk kegagalan yang sangat berbeda.

Add as preferred sourceon Google