Yapay zeka sohbet robotlarının performansını ölçmek için sıkça kullanılan bir karşılaştırma platformu (benchmark), yeni bir araştırmayla tartışmaların odağına oturdu. Araştırmacılar, platformdaki testlerin büyük teknoloji şirketlerinin tescilli yapay zeka modellerini kayırdığını iddia ediyor.
Genel olarak LM Arena olarak bilinen bu platform, isimsiz iki büyük dil modelini (LLM) birbiriyle yarıştırıyor ve kullanıcılar, çıkan sonuçları oylayarak en beğendiklerini belirliyor. Bu oylama sonuçları, hangi modellerin en iyi performansı gösterdiğini ve ne kadar geliştiklerini takip eden bir sıralama listesine (leaderboard) aktarılıyor.
Ancak araştırmacılar, platformun 'gizlenmiş özel test uygulamaları' aracılığıyla büyük LLM'lere açık kaynaklı modellere karşı bir avantaj sağladığını öne sürerek bu karşılaştırma yönteminin taraflı olduğunu iddia ediyor. Araştırmacılar bulgularını henüz hakem değerlendirmesinden geçmemiş bir ön baskı veritabanında yayımladılar.
Araştırmada, "Bir avuç sağlayıcı arasındaki koordinasyon ve platformun bu küçük gruba yönelik ayrıcalıklı politikaları, bilimsel bütünlüğü ve güvenilir sıralamaları tehlikeye atmıştır" ifadeleri yer alıyor. "Bir topluluk olarak daha iyisini talep etmeliyiz."
Şans Mı? Sınırlama Mı? Manipülasyon Mu?
Başlangıçta bir araştırma projesi olarak hayata geçen ve hızla büyük yapay zeka şirketleri ile açık kaynaklı alternatifler için popüler bir test alanı haline gelen platform, akademik ölçütler yerine kullanıcı yanıtlarından elde edilen 'deneyim tabanlı' analizlere önem veriyor. Site şu anda ayda 1 milyondan fazla ziyaretçi çekiyor.
Platformun tarafsızlığını değerlendirmek isteyen araştırmacılar, beş aylık bir süre zarfında gerçekleşen 2,8 milyondan fazla model karşılaşmasını inceledi. Analizleri, aralarında Meta, OpenAI, Google ve Amazon gibi şirketlerin amiral gemisi modellerinin de bulunduğu bir avuç 'tercih edilen' sağlayıcının, orantısız bir şekilde daha fazla veriye ve test erişimine sahip olduğunu, modellerinin daha fazla sayıda karşılaşmada yer aldığını ve bunun da nihai sürümlerine önemli bir avantaj sağladığını öne sürüyor.
Araştırmacılar, "Google ve OpenAI gibi sağlayıcıların, platformdaki toplam verinin tahminen %19,2 ve %20,4'ünü aldığı belirlendi" dedi. "Buna karşılık, birleşik 83 adet açık ağırlıklı model toplam verinin yalnızca tahminen %29,7'sini alabildi."
Ek olarak, araştırmacılar tescilli LLM'lerin resmi olarak yayınlanmadan önce platformda birden çok kez test edildiğini belirtti. Bu durumun, bu modellere platformun verilerine daha fazla erişim sağladığı ve nihayet diğer LLM'lerle yarıştıklarında onları kolayca yenebildikleri, ayrıca halka açık sıralama listesine yalnızca her LLM'nin en iyi performans gösteren yinelemesinin yerleştirildiği iddia ediliyor.
Araştırmada, "Aşırı bir örnek olarak, Meta tarafından Llama-4 sürümüne hazırlık sürecinde test edilen 27 özel LLM varyantı belirledik. Ayrıca, tescilli kapalı modellerin açık ağırlıklı ve açık kaynaklı alternatiflere göre daha yüksek oranlarda (karşılaşma sayısı) örnek alındığını ve platformdan daha az modelin kaldırıldığını tespit ettik" ifadeleri yer alıyor. "Her iki politika da zaman içinde büyük veri erişimi asimetrilerine yol açıyor."
Etkin bir şekilde, araştırmacılar büyük yapay zeka şirketlerinin, birden fazla yayın öncesi LLM'yi test edebilme, karşılaştırma puanlarını geri çekebilme, sıralama listesine yalnızca en yüksek performans gösteren yinelemeyi koyabilme ve belirli ticari modellerin platformda diğerlerinden daha sık görünmesi gibi yeteneklerinin, modellerini 'aşırı uyumlu' hale getirmelerine olanak tanıdığını savunuyor. Bu durum potansiyel olarak platform performanslarını rakiplerine göre yükseltse de, modellerinin ille de daha iyi kalitede olduğu anlamına gelmeyebilir.
Bu araştırma, LM Arena'nın yapay zeka karşılaştırması olarak otoritesini sorgulatıyor. Platform yetkilileri iddialara yanıt vererek, bazı model sağlayıcılarına adil davranılmadığı iddiasının doğru olmadığını savundu. Platform, kapasiteleri dahilinde her zaman aldıkları tüm değerlendirme taleplerini karşılamaya çalıştıklarını belirtti.
Platform yetkilileri ayrıca, bir model sağlayıcısının diğerinden daha fazla test sunmayı seçmesinin ikinci sağlayıcının adil davranılmadığı anlamına gelmediğini, her model sağlayıcısının insan tercihlerini nasıl kullanacağı ve değer vereceği konusunda farklı seçimler yaptığını ekledi.
Platform, araştırmacıların verilerinde ve metodolojisinde hatalar olduğunu iddia ederek, LLM geliştiricilerinin açıklanacak en iyi puanı seçmediğini ve halka açık sıralama listesine yalnızca yayınlanan bir LLM tarafından elde edilen puanın konulduğunu belirtti.
Bununla birlikte, bulgular yapay zeka modellerinin adil ve tutarlı bir şekilde nasıl test edilebileceği konusunda soruları gündeme getiriyor. Özellikle de yapay zekanın hızla artan yeteneklerini gerçekten değerlendirmek için daha iyi yollar arandığı bu dönemde bu tür tartışmalar önem kazanıyor.