Vatandaş Türkçe yaz!
Bu başlığı atarken biraz tereddüt ettim. Esprili bir ifade gibi dursa da, 1930'larda azınlıkların kendi dillerini kullanma haklarını hedef alan 'Vatandaş Türkçe Konuş' kampanyasını hatırlatıyor.
Elbette ki muradım başka bir husustan bahsetmek. Türkçe içerik üretmenin ehemmiyetinden. Aslında sadece Türkçe değil, tüm ekalliyetlerin kendi dillerinde gönül rahatlığı ile içerik üretmelerinin ehemmiyetinden söz etmek istiyorum. Zira bugünkü teknolojik imkanlar, illa ki ortak bir dilde içerik üretmeyi zaruri kılmıyor. Dil bariyerleri kalkıyor, tek bir tuşla bilmediğiniz bir dilde yazılmış içeriği, kendi dilinize çevirebiliyorsunuz.
Bu tabii ki ideal bir dünya için böyle. Neden mi böyle söyledim Günümüz dünyasında bu hayalin gerçek olması daha fazla kendi dilimizde içerik üretmemize bağlı.
Evet sayın okurlar, büyük dil modelleri ve yapay zeka teknolojilerinin sunduğu imkanlardan bahsedeceğim.
2016 yılı ısrarla Türkçe teknik içerik üretmeye gayret ettiğim bir yıldı. O dönemde desteklerini ziyadesiyle gördüğüm mentörlerim İngilizce üretirsem ürettiğim içeriklerin daha fazla alıcı bulacağını belirtiyorlardı. Belki de o dönem haklılardı, ama bugün durum tam tersi.
Dil modelleri, en bilinen örneği ile ChatGPT, eğitimleri esnasında ne kadar çok bir dilde içeriğe muhatap olurlarsa o dili anlamaları o derece kolaylaşıyor. Tabii ki makineler dili bizim anladığımız gibi anlamıyor. Sözcükleri bir anlam uzayına yerleştiriyor, sayısal değerler atıyor ve tüm işlemleri binlerce boyutlu matrisler üzerinden gerçekleştiriyorlar.
Fazla mı karmaşık bir pasaj oldu Galiba
Sadeleştirmeyi deneyeceğim.
Makine öğrenmesinin bir alt dalı olan doğal dil işleme (NLP), ham metnin temizlenmesiyle başlar. Ardından metin, tokenize edilir (kelimelere ayrıştırılır), kelimeler arasındaki ilişkiler hesaplanır ve çok boyutlu bir veritabanına kaydedilir. Böylece büyük dil modelleri bir dili anlamlandırabilmeye başlar.
GPT 4 modelleri örneğin bir kelimeyi (tokenı) yaklaşık 16 bin farklı zaviyedenboyuttan değerlendirebiliyor.
2017 yılında ortaya çıkan ve bugün büyük dil modellerinin (GPT örneğin) en önemli bileşeni olan transformers mimarisi de aslında bir makine çevirisi çalışmasında ortaya çıkıyor. Google'a bu bakımdan bir teşekkür borçluyuz.
Bu yeni mimaride metnin çevirilmesi işlemini şöyle -genel hatlarıyla- açıklayabiliriz: kaynak dildeki her bir kelimetoken'a karşılık gelen anlam uzayındaki benzer ağırlıklara sahip, hedef dildeki başka bir kelimenin kullanılması.
Nihayet esas konuya şimdi gelebiliyorum. Bu büyük dil modellerinin eğitilmesi çok büyük hacimli metinlerin işlenmesi ile mümkün olabiliyor. Bu kaynaklardan biri de 2007 yılında kurulan Common Crawl'un büyük veri seti.
Common Crawl 2007'de kurulan, kar amacı gütmeyen bir kuruluş. Gayesi internette yer alan içerikleri tarayıp, ücretsiz olarak sunmak.
Bu listede İngilizce tabii ki ilk sırada. Yüzde 45'lik oranda üstelik toplam veri setinin yarıya yakını teşkil ediyor. İkinci sırada, ise Rusça yer alıyor. İngilizce metinlerin sekizde biri olarak!