Geniş dil modellerine dair

Geçtiğimiz haftaki yazımda, insanlık olarak bilincimiz ve lisanımız arasındaki karmaşık ilişkiyi çözme yolunda attığımız önemli adımlardan ve o adımların önemli ürünlerinden biri olan Geniş Dil Modellerinden (GDM) bahsetmiştim.

Bu hafta ise, GDM'lerin işleyişine dair daha teknik detaylara ve bu teknolojinin getirdiği bazı etik ve güvenlik meselelerine değinmek istiyorum.

Tabi, "bu son derece teknik bir konu, bize ne GDM dünyasının teknik terimlerinden" diye düşünen okurlarım olabilir.

Çoğu insanın adını ilk defa otuz sene önce işittiği internet, modem, çevirmeli ağ, ADSL, fiber, VPN gibi "son derece teknik" kavramlar bugün günlük hayatımızın bir parçası olmuş durumda. Yapay zeka devrimi, internet devriminden kat kat büyük bir hızla hayatımıza nüfuz ediyor. Olan biteni anlamakta zorlanmamak için GDM'lerle çalışırken sıkça karşımıza çıkan birkaç önemli teknik terimi şimdiden öğrenmekte herkes için fayda olduğunu düşünüyorum.

Bahsedeceğim ilk kavram "token sayısı".

GDM'ler kendilerine verilen metinleri, "token" adı verilen küçük parçalara ayırır. Bu parçalar genellikle kelimeler veya kelime parçalarıdır. Token sayısı, bir GDM'nin işleyebileceği ve üretebileceği anlam birimlerinin sayısını ifade eder. Yani bu sayı GDM'nin işlem kapasitesi ile doğrudan ilişkilidir. Daha fazla token kapasitesine sahip modeller daha uzun ve karmaşık cümleler işleyebilir, daha geniş bir kelime hazinesine sahip olabilir. Öte yandan token sayısının artması eğitim süresini ve hesaplama için gereken kaynakları da artırır.

İkinci kavramımız temperature (ısı).

Isı, GDM'lerin yaratıcılık seviyesini kontrol eden bir parametredir. Düşük ısı değerleri verdiğimizde daha öngörülebilir, mantıklı ve tutarlı metinler üretilirken, yüksek değerler daha özgün ve beklenmedik sonuçlar verir.

Üçüncü kavramımız "Stop Sequence" (durdurma dizisi).

GDM'nin istenmeyen veya gereksiz içerik üretmesini önlemek amacıyla üretimini durdurmasını sağlayan özel bir karakter dizisidir. Durdurma dizileri sayesinde, GDM ile sohbet eden kullanıcının belli sözleri kullanması halinde (mesela küfretmesi, yasadışı bir şey istemesi vs. gibi durumlarda) cevap üretiminin durdurulması sağlanır.

Dördüncü kavramımız fonksiyon çağırma.

GDM'lerin çeviri yapmak veya metni özetlemek belirli görevleri yerine getirebilmesi için gibi fonksiyonlar tanımlanabilir. Fonksiyon çağırma, GDM'lerin bir insanla değil de internet üzerinden erişilebilen dış yazılım uygulamalarıyla konuşabilmesini sağlar. Böylece mecburen kısıtlı bir veri kümesi ile eğitilmiş olan GDM'ler anlık hava durumunu, trafik durumunu, döviz fiyatlarını, son haberleri öğrenip aktarabilir hale gelir.