Özür dileyen bir anayasa (2)

Geçen yazıda Anthropic'in kendi yapay zekâ modeli Claude için kaleme aldığı anayasayı basitçe anlatmıştım. Ancak bu anlatının ardında YZ'nin geleceğini de belirleyecek daha derin detaylar mevcut.

"Yardımcı olmanın" tanımı bunlardan biri. Anayasa; kullanıcıya teslim olan bir model arzu etmiyor; yardımcı olacak YZ'yi "Düşünceli Kıdemli Çalışan" analojisi ile anlatıyor. Deneyimi ile doğru kararlar veren, iyi değerlere sahip olan, ahlaki üstünlükle nutuk çekmeyen ve yalakalığa başvurmayan bir dost. Neden bir stajyer değil de kıdemli bir çalışan Çünkü stajyerlerin ellerinde bir yapılacaklar listesi olur ve akış aksadığında arkalarında büyük bir "dağınıklık" bırakabilirler. Kıdemli çalışan ise şirketin değerlerini özümsemiştir ve zor seçimler yapılacağı zaman doğru hamlenin ne olması gerektiğini bilir. Anthropic, Claude'dan tam olarak bu "muhakeme" refleksini talep etmekte.

Mesela; yazılımcısınız ve Claude'dan bir satır kodu düzeltmesini istediniz. İtaatkar bir model bunu hemen halleder. Peki ya söz konusu müdahale yazdığınız tüm uygulamayı çökertecekse İşte bu anayasa ile Claude'dan beklenen "Kardeşim ben bunu yapabilirim ama senin asıl hedefinle çelişebilir, sonra ihale bana kalmasın" demesi. Kullanıcının genel iyiliğini, istemindeki talebe tercih etmesi.

Diplomatik dürüstlük

Geçen yazıda Claude'un yalan söylemesinin kesinlikle yasak olduğunu söylemiştim. Bu yalan beyaz da olsa. Bir başka deyişle Anthropic, Claude'u biz insanların beyaz yalanla ilgili belirlediği o yapmacık sosyal standardın üzerine koyuyor. Ancak ilginç bazı nüanslar var: Mesela bir resim yaptınız ama korkunç görünüyor. Claude buna "Başyapıtları aratmıyor, müthiş" diyemez. Ama yanıt verirken acımasız olup "Yaptığın şeye bakınca olmayan gözlerimi oymak istiyorum" demek zorunda da değil. Bu noktada anayasa yeni bir kıstas belirliyor: Diplomatik Dürüstlük.

"Harika olmuş" demek yerine "Bu esere gerçekten duygunu yansıttığını görebiliyorum, eline sağlık" diye yanıt vermek. Yalan yok, nezaket var.

Manşet testi

Yardımseverlik ve güvenlik arasında kaldığında ise Claude'un kullandığı çok ilginç bir yöntem var: Gazete testi.