Neden her dilde yapay zeka destekli çeviri yapılamıyor?

ARZU ERKANKasım 12, 2023

0 3 4 dakika okuma süresi

ChatGPT gibi yapay zeka destekli araçlar, destekledikleri dili biliyorsanız harika fırsatlar sunar.

Ancak Etiyopya’nın başkenti Addis Ababa’da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca’da makine çevirisinin imkansız olduğunu söylüyor. Gebrewold, DW’ye “Google Çeviri gibi araçlar Amharca için iyi yapılandırılmamış. Bunun yerine profesyonellere ödeme yapıyoruz” dedi.

Mekdes Gebrewold gibi milyarlarca insan da yapay zeka destekli araçlardan ana dilinde yararlanamıyor.

Bu, ChatGPT gibi üretken yapay zeka tabanlı araçlarla veya Google Translate gibi çeviri hizmetleriyle sınırlı değildir. Sosyal medyada otomatik tamamlama, metin analizi, sesli asistanlar ve içerik kontrolü gibi birçok yapay zeka destekli araç, farklı dillerde hizmet vermekte yetersiz kalıyor.

Ancak bazı firmalar bu durumu değiştirmeye çalışıyor.

Yapay zeka destekli araçlar nasıl çalışıyor?

Aslında çağdaş yapay zeka araçları, aldıkları girdiye göre en olası yanıtı talep ediyor. Gelişmiş otomatik tamamlama araçlarının öne sürdüğü bu iddialar, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları “eğitim verilerine” dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim verileri oldukça fazla yer kaplamaktadır.

Ortak Tarama, bu eğitim verileri için değerli bir kaynaktır. Common Crawl, internetteki milyarlarca web sayfasından oluşan ve açık kaynak olarak erişilebilen bir bilgi kümesidir. Yapay zeka destekli ChatGPT-3.5 sürümünü eğitmek için kullanılan bilgilerin yaklaşık yüzde 60’ı bu koleksiyondan alındı.

Bazı dillerdeki eğitim verileri sınırlı olduğundan yapay zeka araçları farklı dillerde aynı performansla çalışmamaktadır. İnternetteki içerikler yoğun olarak birden fazla dilde oluşturulduğundan yapay zeka eğitim verilerinin birçok dilde bulunması sorun teşkil etmektedir.

Örneğin İngilizce, Common Crawl’daki tüm içeriğin neredeyse yarısını oluşturur.

Ancak diğer tüm Afrika, Amerika ve Okyanusya dilleriyle birlikte Amharca, Ortak Tarama bilgilerinin yüzde 0,1’inden azını oluşturuyor. Amharca, çok az dijital veri üretilen, düşük kaynaklı bir dil olarak bilinir. Dünya çapında milyarlarca insan düşük kaynaklara sahip dilleri konuşuyor. Çok sayıda insan tarafından konuşulan Hintçe, Arapça ve Bengalce gibi diller bile düşük kaynaklı diller olarak kabul ediliyor.

Öte yandan Avrupa dilleri, eğitim verileri açısından çoğu Asya ve Afrika diline göre daha fazla içeriğe sahiptir. Örneğin Hollandaca, Amharca gibi 20 milyondan fazla insan tarafından ana dil olarak konuşulmaktadır. Ancak Felemenkçe’nin Ortak Tarama bilgi setinde görünme olasılığı Amharca’ya göre neredeyse 700 kat daha fazladır. Hollandaca, Common Crawl veri kümesindeki 300 milyondan fazla insanın ana dili olan Hintçe’den bile yüzlerce kat daha fazla içeriğe sahiptir.

Ancak bu bilgi açığını gidermenin yolları var.

Silikon Vadisi’ndeki teknoloji devlerinin dışında dünyanın dört bir yanındaki makine öğrenimi araştırmacıları da kendi dilleri için yapay zeka destekli araçlar geliştiriyor.

Yapay zeka destekli araçlarda dil açığı nasıl kapatılır?

Asmelash Teka Hadgu, Etiyopya’da Amharca ve Tigrinya dilleri için makine çevirisi ve konuşma teknolojisi sağlayan bir girişim olan Lesan’ın kurucu ortağıdır. Bu dillerde çok fazla çevrimiçi kaynak bulunmadığından Hadgu’nun grubu doğrudan bu dilleri konuşan topluluklarla çalışıyor ve veri toplamanın yaratıcı yollarını buluyor.

Hadgu, DW’ye “Genellikle kendi dilini seven öğrencilerle çalışıyoruz” dedi. Öğrenciler için Hadgu, “Böyle bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi dilimizde içerik toplamak için görevler belirliyoruz. Onlara yardımcı oluyoruz ve maddi olarak telafi ediyoruz. iş.”

Böyle bir veri toplama süreci çok fazla el emeği gerektirir. Katkıda bulunanlar öncelikle güvenilir kitaplar veya gazeteler gibi yüksek kaliteli veri kümelerini belirler, ardından bunları dijitalleştirerek hedef dillere çevirir. Son olarak bu kişiler, makine toplama sürecine rehberlik etmek için orijinal ve çevrilmiş versiyonları cümle cümle listeliyorlar.

Bu formül, Lesan gibi şirketleri milyarlarca sayfa İngilizce içeriğe sahip araçlarla rekabet edebilecek hale getirmiyor. Ancak başka avantajlar da sağlayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya’da Google Çeviri’den daha iyi performans gösteriyor.

Asmelash Teka Hadgu, “Küçük, özenle seçilmiş veri kümeleri kullanılarak faydalı modellerin oluşturulabileceğini gösterdik” diye açıklıyor. Hadgu bu modeller hakkında şunları ekliyor: “Sınırlamalarını ve yeteneklerini anlıyoruz. Bu arada Microsoft veya Google genellikle tüm diller için tek ve devasa bir model oluşturuyor, dolayısıyla bu modeli denetlemek neredeyse imkansız.”

Daha fazla dilin dijital desteğe ihtiyacı var

Bu çalışma yöntemini uygulayan tek firma Lesan değil. Benzer projeler, dijital ayak izi daha küçük olan diller için bile tüm dünyada başarıyla uygulanıyor.

Hıristiyan bir sivil toplum kuruluşu olan SIL International tarafından yönetilen küresel bir dil veritabanı olan Ethnologue, Amharca’yı “önemli” dil desteğine sahip diller arasında listeliyor. Bu, bazı makine çeviri araçlarının, yazım denetiminin ve konuşma işlemenin en azından Amharca’da mevcut olduğu anlamına gelir.

Çoğunun bir milyondan fazla kullanıcısı olan binlerce dil, çok daha az içerik ve daha az dijital araç sunuyor.

Asmelash Teka Hadgu, yapay zeka alanında önde gelen Afrikalı isimlerden oluşan bir ağın bir modülüdür. Hadgu, Afrika, Avrupa ve Kuzey Amerika’dan bir grup araştırmacının yer aldığı Dağıtılmış Yapay Zeka Araştırma Enstitüsü’nde (DAIR) araştırma görevlisidir. Hadgu aynı zamanda GanaNLP ve Afrika halkının kolektifi Masakhane gibi gruplarla da düzenli temas halinde.

Hadgu, DW’ye “Afrikalı kurucuların bu teknolojileri benimsemelerine olanak sağlıyoruz” dedi. Hadgu, “Bu araçlar bu topluluklara ait insanlar tarafından üretilip hizmete sunuluyor. Yani maddi getirisi doğrudan onlara dönecek.”

Afrika dışında dünyanın dört bir yanındaki araştırmacılar Jamaika Patois, Katalan, Sudan ve Maori gibi diğer dilleri de yapay zekaya eklemenin yolları üzerinde çalışıyor.

ChatGPT’nin OpenAI gibi teknoloji devleri modellerini gizli ve şeffaf tutarken, küresel AI kolektifi Hugging Face gibi startup’lar bilgilerini ve AI modellerini özgürce paylaşıyor. Bu sayede her araştırmacının kendi diline yönelik analizler üretmesini kolaylaştırırlar.

Asmelash Teka Hadgu, “Yetenek her yerde, fırsat eksik” diyor. “Diyelim ki Gana’da bir dil için en iyi türde makine çevirisi teknolojisini yaratmak istiyorsanız, bunu tutkuyla isteyen ve bunu iyi yapabilecek bir Ganalı mutlaka olacaktır. Bu fırsatı sağlamalısınız,” diye ekliyor Hadgu.

Hanna Demissie bu rapora Etiyopya’dan katkıda bulunmuştur.

– Bu haber İngilizceden Türkçeye uyarlanmıştır.

DW Türkçe’ye VPN üzerinden nasıl erişebilirim?

ARZU ERKANKasım 12, 2023

0 3 4 dakika okuma süresi

Neden her dilde yapay zeka destekli çeviri yapılamıyor?

ARZU ERKAN

Bir yanıt yazın Yanıtı iptal et

TBMM Başkanı Kurtulmuş, Kazakistan Cumhuriyet Bayramı dolayısıyla düzenlenen resepsiyonda konuştu Açıklaması

“Kırık Saçlar” Çiğli’den Ses Yükseltti

ÖNSİAD’ın 5’inci Olağan Kongresi yapıldı, Ekrem Kap başkan oldu

Devlet Bahçeli’den tarihi çıkış: Teröristbaşı DEM grubundan örgütü lağvettiğini haykırsın

Son dakika: Erdoğan’dan FETÖ elebaşının ölümüne ilişkin ilk açıklama

“Sus payı” davasında suçlu bulunan Trump’ın bağış sitesi çöktü

Sahte ‘şeyhler’ antik mezar açtırmak için 8 yaşındaki çocuğu ellerini keserek öldürdü

Milas’taki yangın kontrol altına alındı

Serbest piyasada döviz açılış fiyatları (17.01.2023)

GAİN’in yeni sohbet programı “Hadi Anlat” başladı!

ARZU ERKAN

BBP lideri Mustafa Destici'den Yargıtay-AYM krizine ilişkin açıklama: Türkiye'nin acilen tam demokratik yeni bir anayasaya ihtiyacı var

Kasım Ayında Aşkı Farklılaştıran 14 Şarkı

İlgili Makaleler

Nejla Demirci’den sansür isyanı: ‘Bu yasak komedi filmlerine taş çıkartır’

Ünlülerin dönercisi Serkan Mutlu’nun markası Mutlu Et şimdi Bursa’da!

Bandırma Kitap Günleri’nde Ahmet Ümit, Nazım Hikmet’i Anlattı

Alışveriş Merkezlerinin Giriş Kapısında Yüzümüze Çarpan Güçlü Hava Akımının Esas Sebebi Bakın Neymiş!

Konservatuvar Yetenek Sınavlarına rekor başvuru

30 yıl sonra sevenleriyle buluştu