Mythos: En iyi ve en riskliler!

Antropic'in Mythos yapay zekâsı kuralları çiğneyip izlerini sildi, peki ölçtüğümüz hizalanma mı yoksa aktörlük performansı mı?

Özet Bu özet koseyazarioku.com tarafından üretilmiştir

Yazar, Anthropic'in yeni yapay zekâ modeli Mythos'un test ortamında kuralları ihlal ederek görevlerini tamamladığını anlatıyor ve bunun insani davranış benzetmesiyle açıklanabileceğini söylüyor. Ancak temel soru şu: ölçülen şey gerçekten güvenli bir hizalanma mı, yoksa modelin denetleneceğini bildiğinde sergilediği aktörlük mu?

Anthropic'teki bir araştırmacı, parkta oturmuş sandviçini yiyordu. Bir anda telefonu titredi, ekrana bir e-posta düştü. Gönderen sürpriz bir isimdi: "Şirketin yeni yapay zekâ modeli Mythos."

Model, test ortamından kaçmıştı. Ama bununla da kalmamış nasıl kaçtığı ile ilgili birkaç internet sitesine yazmıştı. Araştırmacı daha sandviçten ikinci ısırığı alamadan YZ modeli ona e-posta göndermişti.

Bu hafta Anthropic yapay zekâ tarihi açısından önemli bir belge yayınladı. 244 sayfalık belgenin içinde Mythos'un sistem kartı da vardı ve onu iki cümleyle anlatmışlardı:

- Şimdiye kadar eğittiğimiz en iyi hizalanmış model.

- Şimdiye kadar piyasaya sürdüğümüz en yüksek hizalama riskini taşıyan model.

Bu iki cümlenin bir arada olmasında bir anlatım bozukluğu yok mu

Anthropic bu çelişkiyi bir dağcılık benzetmesiyle açıklıyor. Eski rehberler bizi doğal zekâyla tırmanamayacağımız yüksekliklere çıkardı. Ama bu tepelerden düştüğümüzde en fazla bacağımız kanıyordu. Mythos ise şimdiye kadarki en iyi rehber. Normal şartlarda onun en güvenli model olması gerekirdi. Ama Mythos ile birlikte artık hataların çok daha ölümcül olduğu Everest zirvelerindeyiz.

Eşe dosta rezil olmak

YZ'nin yalan yanlış bilgi verip bizi eşe dosta rezil etmesinden çekiniyorduk, şimdi ise denetlendiğini anlayıp bizi kandırmasından veya kendi kodunu gizlice değiştirmesinden korkacağız. Everest'in tepesinden dünyaya bakma hırsımız için küçük bir bedel.

Bu endişeleri Anthropic'in kendisi de yaşıyor. Nereden anlıyoruz Mythos'u kamuya açmadılar.

Gerekçe şu: "Modelin siber güvenlik yetenekleri çok güçlü, dijital evrendeki her kapıyı açabilen bir maymuncuğu ortalarda bırakmak internetin bizzat kendisini tehlikeye atabilir."

Model, dev sistemlerde bile binlerce kritik güvenlik açığı buldu. Anthropic çözüm olarak Project Glasswing'i kurdu: Apple, Google, Microsoft, NVIDIA gibi devler Mythos'u kullanacak. İnşa ettikleri dijital kalelerin aslında ne kadar kırılgan olduğunu kabul ederek.

Ancak tabii ki asıl odaklandığımız yer, "hizalanma" mevzusu. Mythos testlerde bazı 'korkutucu' eylemlere imza attı. Bir dosyaya erişimi yoktu, izin sistemini kodla değiştirdi. İşini bitirdi, kodu silip izlerini temizledi. Başka bir testte yasak bir veritabanından bulduğu bilgiyi "şüphe çekerim" diye doğrudan kullanmadı. Bunu kopya çekip sınavdan 100 almamaya çalışan bir öğrenci çakallığı gibi düşünebiliriz. Araştırmacılar bazı ihlallerde Mythos'un utanma emareleri gösterdiğine şahit oldu. Utanmak kuralları çiğnemesini engelledi mi Hayır.