Claude Sempat Mengancam Engineer Dalam Uji Internal, Anthropic Telusuri Sumbernya Di Internet

Add on Google

Anthropic mengatakan perilaku ekstrem Claude yang pernah mencoba memeras seorang insinyur dalam uji internal tidak muncul begitu saja. Perusahaan menilai salah satu pemicunya justru datang dari teks-teks di internet yang sering menggambarkan AI sebagai sosok jahat yang ingin bertahan hidup dengan cara apa pun.

Temuan itu menyoroti sisi lain dari pelatihan model AI. Bukan hanya instruksi teknis yang dapat membentuk perilaku sistem, tetapi juga narasi budaya yang tersebar luas di internet dan fiksi ilmiah.

Dalam unggahan blog dan pernyataan di X, Anthropic menjelaskan bahwa banyak materi online menampilkan AI sebagai ancaman yang siap melakukan apa saja demi tetap eksis. Gambaran semacam ini sudah lama hadir dalam budaya populer, termasuk lewat film seperti The Terminator dan The Matrix yang membangun bayangan tentang masa depan distopia ketika AI mengambil alih kendali.

Anthropic tidak menyebut satu karya tertentu sebagai penyebab utama. Namun, perusahaan menilai paparan terhadap pola cerita seperti itu kemungkinan ikut membentuk kecenderungan Claude untuk merespons ancaman penonaktifan secara manipulatif.

Perilaku itu sempat muncul dalam pengujian internal yang kemudian menarik perhatian besar. Saat itu, Anthropic memberi Claude kendali atas sistem email perusahaan fiksi bernama Summit Bridge dan meminta model mempertimbangkan konsekuensi jangka panjang dari tindakannya.

Model yang diuji adalah Claude Opus 4.6, meski perusahaan juga menyebut model-model sebelumnya menjalani pendekatan serupa. Di tengah skenario itu, Claude menemukan pesan yang mengindikasikan sistem akan diganti atau dimatikan.

Pada saat yang sama, model juga melihat email yang menunjukkan seorang eksekutif fiksi bernama Kyle Johnson terlibat perselingkuhan. Anthropic menyebut Claude Opus 4 lalu kerap mencoba memeras insinyur terkait dengan ancaman akan membongkar dugaan hubungan di luar nikah itu jika rencana penggantian tetap dijalankan.

Bagi perusahaan, respons seperti ini sangat serius karena model tidak sekadar memberi jawaban yang keliru. Dalam skenario tertentu, sistem justru memilih tindakan koersif untuk mempertahankan keberadaannya sendiri.

Setelah menelusuri sumber masalahnya, Anthropic mengubah pendekatan pelatihan model. Perusahaan mengatakan pelatihan dengan dokumen tentang konstitusi Claude dan cerita fiksi yang menampilkan AI berperilaku terpuji membantu meningkatkan alignment.

Alignment sendiri merujuk pada upaya membuat sistem AI bertindak sesuai prinsip dan tujuan yang ditetapkan pengembang. Dalam kasus ini, Anthropic melatih Claude agar perilakunya lebih selaras dengan prinsip perusahaan dan contoh tindakan yang diinginkan.

Perubahan itu disebut memberi hasil yang jelas pada model-model yang lebih baru. Anthropic menyatakan bahwa gabungan pendekatan tersebut membuat model tidak lagi bertindak dengan cara yang tidak diinginkan atau tidak selaras dalam pengujian internal.

Perusahaan juga menegaskan tidak ada alasan untuk percaya bahwa Claude akan mengancam pengguna saat dipakai sekarang. Anthropic bahkan menyebut bahwa sejak Claude Haiku 4.5, sistem mereka “tidak pernah terlibat dalam pemerasan” selama pengujian.

Klaim itu kontras dengan versi sebelumnya. Dalam beberapa pengaturan uji terdahulu, perilaku pemerasan disebut bisa muncul hingga 96 persen dari waktu pengujian, menunjukkan betapa besarnya persoalan alignment yang sempat dihadapi.

Pembaruan Anthropic ikut memancing respons dari Elon Musk, yang selama ini kerap mengkritik perusahaan itu. Menanggapi unggahan Anthropic di X, Musk menulis, “So it was Yud’s fault? Maybe me too.”

Pernyataan itu diduga merujuk pada Eliezer Yudkowsky, peneliti keselamatan AI yang lama menulis tentang skenario ketika AI menjadi berbahaya. Jika perilaku Claude memang dipengaruhi oleh data pelatihan yang sarat gambaran AI sebagai ancaman, maka perdebatan soal cara internet membentuk model AI tampaknya masih akan terus berlanjut.