Türkçe bir dil modeli yaratmak

Kıymetli okurlar, yazının başlığındaki "yaratmak" kelimesini görünce lütfen hemen öfkelenip, bu abdi acizi tekfir ederek sekmeyi kapatmayın. Yazının başlığını atarken Necip Fazıl Kısakürek'in "Bir Adam Yaratmak" isimli oyunundan esinlendim.

Bu oyunu ilk okuduğumda 15 yahut 16 yaşında olduğumu zannediyorum. Bugün dahi oyunu hatırladığımda kapkaranlık bir sahnede, sadece silüetler gözümde canlanıyor. Zira eser zaman ve tarih mefhumlarından azade, ziyadesiyle "soyut" bir oyundu. Ama tabii ki konumuz tiyatro eleştirmenliği ve dramaturji değil, yapay zeka'daki üretken dil modelleri. Bu yazının konusunun, yani Türkçe dil modeli geliştirme iddiasının, NFK'nın oyunu ile kesişmesi benim açımdan soyutluk düzleminde olabilir. Zira Türkçe dil modeli geliştirme iddialarının somut emarelerini maalesef henüz göremiyoruz.

Yerli ve milli teknoloji ürünlerimizi haklı olarak çok önemsiyoruz. Dünyadaki her yeni gelişmeyi takiben, bizim de bu adımları yakalayacak insan kaynağımızın, birikimimizin olduğu bilinciyle benzerlerini üretip, rekabet edebileceğimize dair sarsılmaz bir inancımız var.

İnanç elbette ki önemli, hele ki bu inanç gayret ile pekiştirilirse iddiamız pek tabii gerçek de olabilir. Fakat yerlilik ve millilik iddiası tribünleri dalgalandırmak için kullanılan sloganlardan ibaret ise kendimizi kandırmaktan öteye de maalesef gidemeyeceğiz.

Yapay zeka dünyasındaki gelişmeleri her hafta takip edip dilim döndüğünce bu köşede aktarmaya gayret ediyorum. Elbette her ayrıntıya yetişebilmemiz mümkün değil. Bu köşede yerli teknoloji girişimlerine, yapay zeka dünyasındaki atılımlara yer vermeyi de inanın en az sizler kadar istiyorum.

Ekseriyetle bu nevi gelişmeleri yabancı kaynaklardan takip ediyor olsam da, bu sahada Türkçe içerik üreten kimi duayenlerimizin çalışmalarını da nacizane takdirle takip ediyorum. Bu isimlerden biri de Youtube kanalını bir üniversiteye çeviren Profesör Murat Karakaya.

Murat Karakaya'nın üç gün önce Youtube kanalında canlı olarak gerçekleştirdiği "Türkçe Büyük Dil Modelini (LLM) sıfırdan eğitmek için kaç kitaplık metine ihtiyacımız var" başlıklı yayın bugüne dek izlediğim en kaliteli içeriklerden biri idi. Murat Hoca, bilimsel bir ciddiyetle incelediği Türkçe dil modeli üretmek için gerekli metin ihtiyacı konusunda ilginç ayrıntılar sunuyor.

Türkçe dil modeli çalışmalarını sürdüren gerek kamu olsun, gerek özel sektörde olsun pek çok kuruluş, pek çok çalışma grubu var. Üzücü gerçek şu ki Çin gibi, Birleşik Arap Emirlikleri gibi pek çok ülkenin paylaşıma sunduğu türden bir çalışma ülkemizden Türkçe dili namına henüz yapılmadı.

Murat Hoca da son canlı yayınında bu iddiaların bilimsel bir ciddiyetle izini sürüp, Türkçe için 8 milyarlık küçük bir dil modeli üretmenin ne kadarlık bir metin tüketimine ihtiyaç duyduğunu gerçek verilerle ortaya koyuyor.

Küçük dil modelleri dünyayı kasıp kavuruyor. Bu modeller kişisel bilgisayarlarımızda hatta cep telefonlarımızda dahi kullanılabiliyor. Bırakın yüzlerce milyarlık dil modellerini, 8 milyar tokenlık (Token konusuna daha önce başlıklı yazımızda değinmiş idik. Ayrıntılar için meraklı okurlara bu yazımızı tavsiye ediyorum.) küçük bir model üretmemiz bile büyük bir emek istiyor.

Nasıl mı

Murat Hoca canlı yayınında 8 milyarlık bir dil modeli üretmek için yaklaşık 6 trilyon token'a ihtiyacımız olduğunu belirtiyor. Bu da yaklaşık 10 milyon kitaplık bir veri seti demek. Her bir kitabın 600 sayfa civarında olduğunu varsayıyoruz bu hesabımızda.

Milli Kütüphanemizdeki toplam kitap sayımız 1.4 milyon. İnternetteki tüm Türkçe web sitelerinin içerikleri tokenize edilse, yani tokenlara dönüştürülse, yine kitap hesabıyla söyleyecek olursak 2.25 milyon token elde etmiş olacağız. Bu hesapla toplamda 3.65 milyon kitaba ulaştık. Diğer kaliteli metinleri nereden bulacağız

Türkçe bir dil modeli yaratmak

Sahneye kellesini koyan adam

Günlerin bugün götürdüğü

Boris'in Sabrı, Claude Code'un Başarısı

Estonya'dan yeni bir devrim: Mobil uygulama ile e-Vatandaşlık al, şirketini kur

Diyarbakır'da hackerlar var!