Yapay zeka sohbet botlarının hızla yayılması, hangi modellerin gerçekten geliştiğini ve hangilerinin geride kaldığını takip etmeyi zorlaştırıyor. Geleneksel akademik karşılaştırma testleri (benchmark) yalnızca belirli ölçütler sunarken, birçok kişi bu alanda popüler olan LM Arena platformunun 'hissiyat tabanlı' analizlerine güveniyor. Ancak yeni bir çalışma, bu popüler yapay zeka sıralama platformunda adil olmayan uygulamaların yaygın olduğunu ve endeksin zirvesine yakın sıralanan büyük şirketleri kayırdığını iddia ediyor. Platformu işletenler ise çalışmanın yanlış sonuçlar çıkardığını belirtiyor.
LM Arena, 2023 yılında Kaliforniya Üniversitesi, Berkeley'de bir araştırma projesi olarak oluşturuldu. Fikrin temelinde kullanıcıların 'Chatbot Arena' adlı bölümde kimliği belirsiz iki yapay zeka modeline aynı komutu vermesi ve çıktıları değerlendirerek daha çok beğendiklerine oy vermesi yatıyor. Bu veriler toplanarak LM Arena liderlik tablosu oluşturuluyor ve insanların en çok beğendiği modeller gösteriliyor. Bu tablo, yapay zeka modellerindeki gelişmeleri takip etmeye yardımcı olabiliyor.
Yapay zeka pazarının ısınmasıyla şirketler bu sıralamaya daha fazla önem vermeye başladı. Google, Gemini 2.5 Pro'yu piyasaya sürdüğünde modelin LM Arena liderlik tablosunda zirvede yer aldığını özellikle belirtti ve model bugüne kadar orada kaldı. Benzer şekilde, DeepSeek'in Chatbot Arena'daki güçlü performansı, bu yılın başlarında modelin büyük dil modelleri (LLM) yarışında üst sıralara tırmanmasına yardımcı oldu.
Yeni bir çalışma, yapay zeka geliştiricilerinin LM Arena'ya aşırı güvenmiş olabileceğini öne sürüyor. Çalışma, arena sıralamasının, tescilli (proprietary) sohbet botlarının açık kaynaklı olanlardan daha iyi performans göstermesini kolaylaştıran uygulamalarla çarpıtıldığını iddia ediyor. Çalışmanın yazarları, LM Arena'nın tescilli büyük dil modelleri (LLM) geliştiren şirketlerin platformda yapay zekalarının birden fazla sürümünü test etmesine izin verdiğini, ancak yalnızca en iyi performans gösteren sürümün halka açık liderlik tablosuna eklendiğini belirtiyor.
Bazı yapay zeka geliştiricileri bu özel test seçeneğinden aşırı derecede faydalanıyor. Çalışma, Meta'nın Llama-4'ün piyasaya sürülmeden önce tam 27 özel varyantını test ettiğini rapor ediyor. Google da LM Arena'nın özel test sisteminden faydalananlar arasında yer alıyor; şirket Ocak ve Mart 2025 arasında Gemini ve Gemma'nın 10 farklı varyantını test etti.