Büyük Dil Modelleri Osmanlıca İçin Sihirli Değnek Değil (Henüz)
Midye ve İstiridye Nizamnamesi’ni ele alalım. Birinci maddenin Büyük Dil Modeli (LLM) ile latinizasyonu şu şekilde:
Birinci madde: Midye ve istridye tarlası olarak kırk dört gedik üzerine me’zun bezirgânânın istinâdât-ı vâkıaya mutasarrıf oldukları Samatya’da Mermerkule’den Kızılburun’a ve Ahırkapı’dan Sarayburnu’na ve Yemiş İskelesi’nden Kireçkapısı’na ve Cibali’den Balat ve Tophane’den Beşiktaş’a ve Kuruçeşme’den Arnavutköyü’ne ve Baltalimanı’ndan Rumeli Feneri’ne ve Kızkulesi’nden Fenerbahçesi’ne ve Çengelköyü’nden Anadolu Feneri’ne kadar vâki‘ dokuz mahalden yalnız mutasarrıfların veyahut ondalıcıların Balıkhane tarafından hâmil oldukları ruhsat tezkiresi mûcibince midye ve istridye çıkarabilip bunlardan maada gerek yerli ve gerek ecnebi olsun hiç bir kimesne tarafından midye ve istridye çıkarılamayacaktır.
Aynı metnin görüntüsü:

“me’zun bezirgânânın isti” şeklinde yazılan kısmın “madrabaz esnafının ba-senedat” olması gerekirdi. “vâkıaya” kısmı ise en azından “vakf…” olmalıydı.
Daha küçük hatalara örnek olarak: “Balat”, “Balat’a”; “ondacıların”, “ondalıkcıların” olmalıydı.
Toplam 81 kelimede 4 önemli hata, 2 de önemsiz hata sayıyoruz. Bu küçük örnekten, önemsiz hatalar dahil %92.5, önemsiz hatalar hariç %95 doğruluk oranı sonucu çıkarıyoruz.
Önemli hatalar tek tük olsa da bu tür metinleri incelerken LLM’lerin hatalarını tespit edebilmek ve metni doğru anlamlandırabilmek için halen Osmanlıca bilmemiz gerekiyor 🙂. Bunu tamamen dil modellerine delege etmek mümkün görünmüyor.