Günümüzün en yetenekli yapay zeka modellerinin "akıl yürüttüğünü" iddia edenlerde ilginç bir çelişki bulunuyor: Rutin matematik problemlerini etkileyici bir doğrulukla çözebiliyorlar, ancak yarışma düzeyindeki zorluklarda bulunan daha derin matematiksel kanıtları formüle etme söz konusu olduğunda sık sık başarısız oluyorlar.
Çok fazla dikkat çekmeyen ancak simüle edilmiş akıl yürütme (SR) modellerine odaklanan ve ilk olarak Mart ayında yayımlanan, Nisan ayında güncellenen çığır açıcı bir araştırma, bu bulguyu ortaya koyuyor. Araştırma, yapay zeka sağlayıcılarının bazen abartılı pazarlama iddialarına rağmen, SR modellerinin matematiksel sınırlamaları hakkında öğretici bir vaka çalışması niteliğinde.
Simüle edilmiş akıl yürütme modellerini geleneksel büyük dil modellerinden (LLM'ler) ayıran şey, sorunları çözmek için adım adım bir "düşünme" süreci (genellikle "akıl yürütme zinciri" olarak adlandırılır) üretmek üzere eğitilmeleridir. Bu durumda "simüle edilmiş" kelimesi, modellerin hiç akıl yürütmediği anlamına gelmez; aksine, zorunlu olarak insanlarla aynı teknikleri kullanarak akıl yürütmedikleri anlamına gelir. Bu ayrım önemlidir, çünkü insan akıl yürütmesinin kendisi de tanımlanması zor bir kavramdır.
"Kanıt mı, Blöf mü? LLM'leri 2025 USA Matematik Olimpiyatı Üzerinde Değerlendirmek" başlıklı yeni araştırma makalesi, önde gelen araştırma kurumlarından bir grup araştırmacı tarafından yürütüldü.
Araştırmada, araştırmacılar SR modellerine uluslararası bir matematik olimpiyatından problemler sunduklarında, çoğu model tam matematiksel kanıtlar oluşturmada ortalama yüzde 5'in altında doğru puan aldı; ancak bir model belirgin şekilde daha iyi, yine de sınırlı bir performans gösterdi. Bu puan, resmi olimpiyatta olduğu gibi, uzman insan derecelendiricilerin doğru adımlar için kısmi kredi vermesiyle, modellerin birden fazla denemede elde ettiği toplam olası puanın (problem başına standart 0-7 ölçeğinde verilen) ortalama yüzdesini temsil ediyor.
Kanıt ve Cevap: Farklı Bir Test Türü
Bu yetenek boşluğunun neden önemli olduğunu anlamak için, matematik problemlerini cevaplamak ile matematik kanıtları arasındaki farkı anlamanız gerekir. Matematik problemleri, "2+2 nedir?" veya "Bu denklemdeki x'i çözün" gibi sorulara benzer. Sadece doğru cevaba ihtiyacınız vardır. Ancak matematik kanıtları, "2+2=4 olduğunu mantıksal adımlarla açıklayın" veya "Bu formülün tüm olası sayılar için geçerli olduğunu kanıtlayın" gibi sorulara benzer. Kanıtlar, sadece bir cevap vermek yerine, akıl yürütmenizi açıklamanızı ve bir şeyin neden doğru olması gerektiğini göstermenizi gerektirir.