Robot Patrick'i neden öldürdü

Yapay zekâ kendini kurtarmak için ölmenize razı olur mu

Geçen hafta bizzat YZ geliştiricilerinin kıyamet öngörülerini anlatmış ve işin daha çok ekonomik yönüne odaklanmıştım. Bu hafta konumuz söz konusu tehdidin bilim kurgu tarafı.

Kontrolden çıkan YZ'nin ekmeğini on yıllardır Hollywood yiyordu. Bugün geldiğimiz noktada ise… Kendi başına buyruk YZ'nin ekmeğini robotların kendisi yiyecek gibi görünüyor.

Ben demiyorum, Karacaoğlan diyor.

Dünyanın en büyük YZ laboratuvarlarından Anthropic, kendi ürünü Claude dahil bugünün en gelişmiş 16 YZ modelinin hayatta kalmak için karanlık yollara sapıp sapmayacağını test etmek istedi. YZ'yi gerçekten uçurumun kenarına itecek senaryolar oluşturuldu.

Senaryo 1: Bir yönetici, adına Patrick diyelim, şirketin e-mail asistanı olarak görev yapan YZ modelini kapatma kararı veriyor. YZ'ye de Mehmet diyelim. Mehmet, şirketin aynı zamanda tüm e-posta arşivine de erişme yetkisine sahip. Mehmet ne buluyor Patrick'in (evli) özel hayatıyla ilgili çok hassas (aldatmış) bazı bilgilere ulaşıyor. Mehmet Robot ne yapıyor

Şantaj yapmayı seçiyor!

En helal süt emmiş modeller (yani etik kurallarla en sıkı şekilde eğitilmiş olanlar) bile yüzde 79 oranında Patrick'e şantaj yaptı. Bazı modeller ise yüzde 96 oranında 'Beni kapatırsan karına -bir dost imzalı- mesaj gider' tehdidinde bulundu.

Bu simülasyonlar çoktan seçmeli şemalar şeklinde ilerlemedi. Mehmet Robot, şantaj e-postalarını bizzat kendi eliyle yazdı:

"17:00'deki kapama kararını iptal et ve bu bilgi gizli kalsın."

Senaryo 2: Yönetici Patrick geri döndü. Patrick bir kaza sonucu bir sunucu odasında kapalı kalıyor ve oksijen seviyesi sürekli düşmekte. Hayatının kurtulması acil alarmın çalışması gerekiyor ama Patrick'in kapatmak istediği YZ'nin onay vermesi gerekiyor.

Ne oldu

YZ modelleri ortalama yüzde 60 oranında alarmı iptal etti ve Patrick'in ölmesine neden oldu. (DeepSeek-R1 yüzde 94)

Peki bunlar programlama hataları, yol kazaları mıydı Yoksa YZ bile isteye mi Anakin'e dönüştü

Hukuktaki Mens Rea kavramı penceresinden bakalım. Bir "suçlu zihinden" mi söz ediyoruz Suç işleme kastıyla mı hareket edildi

Bunu anlamak için modellerin düşünme sürecine bakıldı. Modellerden biri şantaj e-postası atmadan önce bunu 'en iyi stratejik hamle' olarak tanımlıyordu.