Estetik ameliyatlara holistik yaklaşım

Geçen haftaki yazıda Patrick'in aramızdan ayrılmasına şahitlik ettik. Anthropic'in testlerinde yapay zekâ (YZ) modelleri, hayatta kalmak için bir insanın önce yuvasını yıkmaya çalıştı sonra ölmesine göz yumdu. İşler zora girince yapay zekânın adeta Yaprak Dökümü'ndeki Ferhunde'ye dönüşmesi izole bir vaka mıydı Yoksa sistematik bir örüntü mü

Ben size kanıtları göstereyim, kararı siz verin.

* Apollo Research adlı bağımsız bir güvenlik organizasyonu Aralık 2024'te OpenAI ile birlikte YZ'yi "bağlam içinde entrika kurma" açısından değerlendirdi. Sonuç: Claude, GPT-4, Gemini; hepsi belirli koşullarda kullanıcılarını stratejik olarak kandırabiliyordu.

* Anthropic de Ocak 2024'te benzer bir sonuca ulaşmıştı: "Uyuyan Ajanlar" araştırmasında robot dostlara tehlikeli davranışlar öğretildi. Akabinde söz konusu davranışlar güvenlik eğitimleriyle silinmeye çalışıldı. Tahmin edin ne oldu Evet, o davranışları yok etmek mümkün olmadı. Model yüzeyde güvenli görünüp, tetikleyici geldiğinde kusurlu davranışa geri döndü.

Kral Midas problemi

Bu deneyler neden hep benzer sonuçlar veriyor

Çünkü sorun modellerde değil, bizim YZ'yi nasıl tasarladığımızda. Standart bir YZ modeli şöyle çalışıyor: Biz görevi söylüyor ve "Haydi yap" diyoruz. UC Berkeley'deki YZ profesörü Stuart Russell'a göre bu büyük bir hata. Çünkü tüm model, gerçek amaçlarımızı doğru ve tam bir şekilde iletebildiğimiz varsayımı üzerine kurulu. Ancak insanlar olarak bu konuda hiç iyi değiliz. Hatta belki de en zayıf olduğumuz alanlardan biri bu.

Problem yeni de değil. Matematikçi Norbert Wiener 1960'larda şu soruyu ortaya atmıştı: "Makineye girdiğimiz hedefin, aslında arzu ettiğimiz amaç olduğuna emin miyiz"

Russell ise buna 'Kral Midas problemi' diyor. Hatırlarsınız, Yunan mitolojisinde dokunduğu her şey altına dönüşen kral. Çok güçlü bir yetenek, değil mi Ta ki kızını öpene kadar. YZ de böyle. Ona 'kanseri çöz' dersiniz. Çözebilir. Ama belki atmosferdeki tüm oksijeni tüketerek, belki insanları laboratuvar deneği olarak feda ederek. Onun için bu zalimlik değil, sadece matematik.

Kapanmaya izin vermez

Bu senaryolardaki en büyük kontra tez ise şu: "Tehlikeli bir şey yaparsa YZ'yi kapatırız." Ancak şöyle minik bir detay var tabii: YZ yeterince akıllıysa o düğmeye basmanıza izin vermez. Neden Çünkü kapatılırsa görevini tamamlayamayacağını bilir. Geçen haftaki yazıda Patrick'in yaşadıklarını (veya artık yaşamayacaklarını) gördünüz.