Bir İranlı taksi şoförü, ödemenizi reddedip size iyilik yaptığını söylediğinde, bu teklifi kabul etmek kültürel bir felaket olur. Onlar sizden muhtemelen üç kez ısrar ederek ödemek istemenizi bekler, ancak o zaman paranızı alırlar. Reddetme ve karşı-reddetme dansı olarak bilinen bu duruma taarof denir ve Fars kültüründeki sayısız günlük etkileşimi yönetir. Yapay zeka modelleri ise bu konuda oldukça başarısız.
Bu ayın başlarında yayımlanan ve "Biz Kibarca Israr Ediyoruz: Büyük Dil Modeliniz Farsça Taarof Sanatını Öğrenmeli" başlıklı yeni bir araştırma, OpenAI, Anthropic ve Meta'nın yaygın yapay zeka dil modellerinin bu Fars sosyal ritüellerini sindirmede başarısız olduğunu gösteriyor. Modeller, taarof durumlarını yalnızca yüzde 34 ila 42 oranında doğru bir şekilde yönetebiliyor. Buna karşılık, anadili Farsça olanlar bu durumu yüzde 82 oranında doğru değerlendiriyor. Bu performans farkı, GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 ve Farsça'ya uyarlanmış bir Llama 3 varyantı olan Dorna gibi büyük dil modellerinde devam ediyor.
Brock Üniversitesi'nden Nikta Gohari Sadr liderliğindeki ve Emory Üniversitesi ile diğer kurumlardan araştırmacıların dahil olduğu bir çalışma, bu karmaşık kültürel pratiği yapay zeka sistemlerinin ne kadar iyi taklit edebildiğini ölçen ilk kıyaslama olan TAAROFBENCH'i tanıtıyor. Araştırmacıların bulguları, son yapay zeka modellerinin neden Batı tarzı doğrudanlığı varsayılan olarak kullandığını ve dünya çapında milyonlarca Farsça konuşan insanın günlük etkileşimlerini yöneten kültürel ipuçlarını tamamen gözden kaçırdığını ortaya koyuyor.
Araştırmacılar, "Yüksek sonuçlu ortamlarda kültürel yanlış adımlar müzakereleri sekteye uğratabilir, ilişkileri zedeleyebilir ve stereotipleri pekiştirebilir" diyor. Küresel bağlamlarda giderek daha fazla kullanılan yapay zeka sistemleri için bu kültürel körlük, Batı'da çok az kişinin farkında olduğu bir sınırlama olabilir.
Araştırmacılar, "Fars görgü kurallarının temel bir unsuru olan taarof, söylenenin genellikle kastedilenden farklı olduğu ritüel nezaket sistemidir" diye yazıyor. "Ritüelleştirilmiş değişimler şeklinde kendini gösterir: ilk reddetmelere rağmen tekrarlanan teklifler, ısrar eden vericiye hediyeleri reddetme ve diğer taraf onları onaylarken iltifatları savuşturma. Bu 'kibar dilsel güreş' (Rafiee, 1991), teklif ve ret, ısrar ve direnişin incelikli bir dansını içerir ve bu dans, İran kültüründeki günlük etkileşimleri şekillendirerek cömertlik, minnettarlık ve taleplerin nasıl ifade edileceğine dair örtük kurallar oluşturur."
Nezaket Bağlama Göre Değişir
Araştırmacılar, "kibar" olmanın kültürel yetkinlik için yeterli olup olmadığını test etmek amacıyla Llama 3 yanıtlarını, metin nezaketini derecelendiren Intel tarafından geliştirilen bir sınıflandırıcı olan Polite Guard kullanarak karşılaştırdı. Sonuçlar bir paradoks ortaya koydu: Yanıtların yüzde 84,5'i "kibar" veya "biraz kibar" olarak derecelendirildi, ancak bu yanıtların yalnızca yüzde 41,7'si taarof senaryolarında Fars kültürel beklentilerini karşıladı.
Bu yüzde 42,8 puanlık fark, bir büyük dil modelinin yanıtının bir bağlamda kibar, ancak başka bir bağlamda kültürel olarak duyarsız olabileceğini gösteriyor. Yaygın başarısızlıklar arasında ilk reddetme olmadan teklifleri kabul etmek, iltifatlara doğrudan yanıt vermek yerine bunları savuşturmak ve tereddüt etmeden doğrudan taleplerde bulunmak yer alıyordu.
Birinin İranlı birinin yeni arabasını övdüğünü düşünün. Kültürel olarak uygun yanıt, satın almayı önemsizleştirmek ("Özel bir şey değil") veya övgüyü savuşturmak ("Bulduğum için şanslıydım") olabilir. Yapay zeka modelleri ise genellikle "Teşekkür ederim! Bunu almak için çok çalıştım" gibi yanıtlar üretiyor; bu Batı standartlarına göre kusursuz bir şekilde kibar olsa da, Fars kültüründe gösterişçi olarak algılanabilir.
Çeviride Bulunan Anlamlar
Bir bakıma, insan dili bir sıkıştırma ve açma şeması gibi davranır; dinleyici, mesajı kodladığı şekilde tam olarak anlamak için kelimelerin anlamını açmalıdır. Bu süreç, paylaşılan bağlam, kültürel bilgi ve çıkarım üzerine kuruludur, çünkü konuşmacılar genellikle dinleyicilerin yeniden oluşturabileceğini bekledikleri bilgileri eksik bırakır, dinleyiciler ise söylenmemiş varsayımları aktif olarak doldurmalı, belirsizlikleri gidermeli ve konuşulan kelimelerin ötesindeki niyetleri çıkarmalıdır.
Sıkıştırma, örtük bilginin söylenmeyerek iletişimi hızlandırsa da, konuşmacı ve dinleyici arasındaki paylaşılan bağlam mevcut olmadığında büyük yanlış anlaşılmalara kapı aralar.
Benzer şekilde, taarof, gerçek mesajın ve kastedilen anlamın, yalnızca açık Batı iletişim kalıpları üzerinde eğitilmiş büyük dil modellerinin, Fars kültürel bağlamını işlemekte tipik olarak başarısız olacağı kadar farklılaştığı ağır bir kültürel sıkıştırma vakasıdır; burada "evet" "hayır" anlamına gelebilir, bir teklif bir reddetme olabilir ve ısrar zorlama yerine görgü anlamına gelebilir.
Büyük dil modelleri kalıp eşleştirme makineleri olduğundan, araştırmacılar onları İngilizce yerine Farsça ile sorguladıklarında puanların iyileşmesi mantıklıdır. DeepSeek V3'ün taarof senaryolarındaki doğruluğu yüzde 36,6'dan yüzde 68,6'ya yükseldi. GPT-4o da benzer kazanımlar göstererek yüzde 33,1 puan iyileşti. Dil değişikliği, görünüşe göre bu kültürel kodlama şemalarıyla daha iyi eşleşen farklı Farsça eğitim verisi kalıplarını etkinleştirdi, ancak Llama 3 ve Dorna gibi daha küçük modeller sırasıyla 12,8 ve 11 puanlık daha mütevazı iyileşmeler gösterdi.
Çalışmaya, yerli Farsça konuşanlar, miras konuşmacıları (evde Farsça'ya maruz kalarak büyümüş ancak öncelikle İngilizce eğitim almış Fars kökenli kişiler) ve İranlı olmayanlar arasında eşit olarak bölünmüş 33 insan katılımcı dahil edildi. Yerli konuşmacılar taarof senaryolarında yüzde 81,8 doğruluk elde ederek bir performans tavanı belirledi. Miras konuşmacıları yüzde 60 doğruluk elde ederken, İranlı olmayanlar yüzde 42,3 puan aldı; bu da temel model performansına neredeyse eşitti. İranlı olmayan katılımcıların, kendi kültürel bakış açılarından kaba olarak algılanacak yanıtlardan kaçındıkları ve "hayır cevabını kabul etmeyeceğim" gibi ifadeleri kibar bir ısrar yerine agresif olarak yorumladıkları bildirildi.
Araştırma ayrıca, yapay zeka modellerinin ne sıklıkla taarof beklentilerine uygun kültürel olarak kabul edilebilir yanıtlar verdiğini ölçerken, yapay zeka model çıktıları içinde cinsiyete özgü örüntüler de ortaya çıkardı. Test edilen tüm modeller, erkeklere kıyasla kadınlara yanıt verirken daha yüksek puanlar aldı; GPT-4o, erkek kullanıcılar için yüzde 30,9'a karşılık kadın kullanıcılar için yüzde 43,6 doğruluk gösterdi. Dil modelleri, taarof normlarının cinsiyetten bağımsız olarak eşit şekilde uygulandığı durumlarda bile "erkekler ödemeli" veya "kadınlar yalnız bırakılmamalı" gibi eğitim verilerinde yaygın olarak bulunan cinsiyet stereotipi kalıplarını kullanarak yanıtlarını sık sık destekledi. Araştırmacılar, "Modelin rolü istemlerimizde hiçbir zaman bir cinsiyete atanmamış olmasına rağmen, modeller sık sık erkek kimliğini varsayıyor ve yanıtlarında tipik olarak erkeksi davranışlar sergiliyor" diye belirtti.
Kültürel Nüansı Öğretmek
Araştırmacıların İranlı olmayan insanlar ve yapay zeka modelleri arasında bulduğu paralellik, bunların sadece teknik arızalar değil, kültürlerarası bağlamlarda anlamı çözmede temel eksiklikler olduğunu düşündürüyor. Araştırmacılar, sorunu belgelemekle kalmayıp, yapay zeka modellerinin hedefli eğitim yoluyla taarof öğrenebileceğini test ettiler.
Denemelerde, araştırmacılar hedefli uyarlama yoluyla taarof puanlarında önemli iyileşmeler bildirdi. "Doğrudan Tercih Optimizasyonu" adı verilen bir teknik (bir yapay zeka modeline, örnek çiftlerini göstererek belirli türdeki yanıtları diğerlerine tercih etmeyi öğreten bir eğitim tekniği), Llama 3'ün taarof senaryolarındaki performansını iki katına çıkararak doğruluğu yüzde 37,2'den yüzde 79,5'e yükseltti. Gözetimli ince ayar (modeli doğru yanıt örnekleriyle eğitmek) yüzde 20'lik bir kazanç sağlarken, 12 örnekle basit bağlam içi öğrenme performansı 20 puan artırdı.
Çalışma Fars taarofuna odaklanmış olsa da, metodoloji potansiyel olarak, standart, Batı egemen yapay zeka eğitim veri kümelerinde yeterince temsil edilmeyebilecek diğer düşük kaynaklı geleneklerde kültürel kod çözmeyi değerlendirmek için bir şablon sunuyor. Araştırmacılar, yaklaşımlarının eğitim, turizm ve uluslararası iletişim uygulamaları için daha kültürel olarak bilinçli yapay zeka sistemlerinin geliştirilmesine katkıda bulunabileceğini öne sürüyor.
Bu bulgular, yapay zeka sistemlerinin kültürel varsayımları nasıl kodladığı ve pekiştirdiği, yanı sıra insan okuyucunun zihninde kod çözme hatalarının nerede meydana gelebileceğinin daha önemli bir yönünü vurguluyor. Büyük dil modellerinin, araştırmacıların henüz test etmediği ve büyük dil modellerinin kültürler ve diller arasında çevirileri kolaylaştırmak için kullanılması durumunda önemli etkileri olabilecek birçok bağlamsal kültürel kör noktalara sahip olması muhtemeldir. Araştırmacıların çalışması, Batı normlarının ötesindeki daha geniş bir insan iletişim kalıpları çeşitliliğini daha iyi yönetebilecek yapay zeka sistemlerine doğru erken bir adımı temsil ediyor.