Yapay Zeka Matematik Dünyasını Salladı: Profesörleri Bile Geride Bıraktı!

Geçtiğimiz Mayıs ayının ortalarında, kapalı kapılar ardında gizemli bir matematikçi zirvesi gerçekleşti. Dünyanın dört bir yanından, aralarında İngiltere’den gelenlerin de olduğu otuz seçkin matematikçi, ABD’nin Kaliforniya eyaletindeki Berkeley’de bir araya geldi. Bu özel toplantının amacı, büyük bir yapay zeka dil modelinin matematiksel yeteneklerini test etmekti. İki gün boyunca bota profesör seviyesinde sorular soran araştırmacılar, yapay zekanın dünyanın en zorlu çözülebilir problemlerinden bazılarını bile yanıtlayabildiğini görünce adeta donup kaldı.

Söz konusu sohbet robotu, önde gelen bir yapay zeka şirketi tarafından geliştirilen o4-mini adı verilen, 'muhakeme yeteneği olan büyük dil modeli' (LLM) ile güçlendirildi. Bu model, son derece karmaşık çıkarımlar yapabilecek şekilde eğitildi. Benzer yeteneklere sahip bir başka model olan Gemini 2.5 Flash gibi modellerle kıyaslandığında, o4-mini ve benzerleri daha hafif, daha çevik modeller olup, insanlardan güçlü geri bildirimlerle özel veri kümeleri üzerinde eğitiliyor. Bu yaklaşım, geleneksel LLM’lere kıyasla matematiksel sorunlara çok daha derinlemesine inebilen bir sohbet robotu ortaya çıkarıyor.

o4-mini’nin gelişimini takip etmek amacıyla, bir araştırma kurumu daha önce yayınlanmamış 300 matematik sorusu hazırlamıştı. Geleneksel LLM’ler bile birçok karmaşık matematik sorusunu doğru yanıtlayabilirken, bu modellere yeni ve daha önce görmedikleri sorular sorulduğunda en başarılı olanlar bile yüzde 2’den azını çözebildi. Bu durum, LLM’lerin muhakeme yeteneğinden yoksun olduğunu gösteriyordu. Ancak o4-mini’nin çok farklı olduğu kanıtlandı.

Eylül 2024’te başlayan ve 'FrontierMath' adı verilen bu yeni iş birliği için, matematik alanında yeni doktora derecesini tamamlamış bir uzman görevlendirildi. Proje, farklı zorluk seviyelerinde yeni sorular topladı; ilk üç seviye lisans, yüksek lisans ve araştırma düzeyindeki zorlukları kapsıyordu. Nisan 2025’e gelindiğinde, o4-mini soruların yaklaşık yüzde 20’sini çözebiliyordu. Ardından, akademik bir matematikçi için bile zorlayıcı olacak dördüncü bir seviyeye geçildi. Dünyada bu tür soruları geliştirebilecek, bırakın yanıtlamayı, çok küçük bir grup insan vardı. Toplantıya katılan matematikçilerin, sadece bir mesajlaşma uygulaması üzerinden iletişim kurmalarını gerektiren bir gizlilik sözleşmesi imzalamaları istendi. Geleneksel e-posta gibi diğer iletişim biçimleri, bir LLM tarafından taranıp yanlışlıkla eğitilebilir ve böylece veri kümesini kirletebilirdi.

o4-mini’nin çözemediği her problem için, o problemi hazırlayan matematikçiye 7.500 dolarlık bir ödül verilecekti. Grup, soruları bulmada yavaş ama istikrarlı bir ilerleme kaydetti. Ancak sürecin hızlanması için, araştırma kurumu 17-18 Mayıs tarihlerinde yüz yüze bir toplantı düzenledi. Burada, katılımcılar son zorlayıcı soru grubunu tamamlayacaktı. Otuz katılımcı altışarlı gruplara ayrıldı. İki gün boyunca akademisyenler, yapay zeka muhakeme botunu alt edecek problemler geliştirmek için birbirleriyle yarıştılar.

O Cumartesi gecesinin sonunda, beklenmedik matematiksel becerisiyle grubun ilerlemesini engelleyen bot yüzünden toplantının liderlerinden biri hayal kırıklığına uğramıştı. Kendi alanındaki uzmanların sayı teorisinde açık bir problem olarak tanıyacağı, iyi bir doktora seviyesinde bir problem bulduğunu belirtti. o4-mini’den bu soruyu çözmesini istedi. Sonraki 10 dakika boyunca, botun gerçek zamanlı olarak bir çözüm ortaya koymasını, muhakeme sürecini adım adım göstermesini şaşkınlıkla izledi. Bot ilk iki dakikayı ilgili literatürü bulup ustalaşmakla geçirdi. Ardından ekranda, öğrenmek için önce sorunun daha basit bir 'oyuncak' versiyonunu çözmeyi denemek istediğini yazdı. Birkaç dakika sonra, daha zor problemi çözmeye nihayet hazır olduğunu belirtti. Bundan beş dakika sonra, o4-mini doğru ama küstahça bir çözüm sundu. Toplantının lideri, "Gerçekten arsızlaşmaya başlamıştı," dedi ve ekledi: "Sonunda da, 'Alıntıya gerek yok çünkü gizemli sayıyı ben hesapladım!' yazıyordu."

Yenilen matematikçi, Pazar sabahı erkenden diğer katılımcıları durumu bildirdi. "Böyle bir LLM ile mücadele etmeye hazır değildim," dedi, "Daha önce modellerde böyle bir muhakeme görmemiştim. Bir bilim insanının yaptığı budur. Bu korkutucu."

Grup sonunda botu durduran 10 soru bulmayı başarsa da, araştırmacılar yapay zekanın bir yıl içinde ne kadar ilerlediğine şaşırdılar. Toplantının liderlerinden biri, yapay zeka ile çalışmayı "güçlü bir iş ortağı" ile çalışmaya benzetti. Matematik alanında yapay zekayı kullanmada öncü olan başka bir matematikçi ise, "Bu, çok, çok iyi bir lisansüstü öğrencisinin yapacağı bir şeydir – hatta daha fazlası," yorumunda bulundu.

Bot, profesyonel bir matematikçiden de çok daha hızlıydı; bir insan uzmanın haftalarca veya aylarca sürecek bir işi sadece dakikalar içinde tamamladı.

o4-mini ile mücadele heyecan verici olsa da, kaydettiği ilerleme aynı zamanda endişe vericiydi. Toplantıya katılanlar, o4-mini’nin sonuçlarına çok fazla güvenilmesinden endişe duyduklarını dile getirdiler. Bir matematikçi espriyle, "Tümevarımla ispat, çelişkiyle ispat ve bir de gözdağıyla ispat vardır," dedi. "Bir şeyi yeterince otoriteyle söylerseniz, insanlar korkar. Sanırım o4-mini gözdağıyla ispatı ustalaşmış; her şeyi o kadar güvenle söylüyor ki."

Toplantının sonunda, grup matematikçiler için geleceğin nasıl görünebileceğini düşünmeye başladı. Tartışmalar kaçınılmaz 'beşinci seviye'ye döndü – yani en iyi matematikçilerin bile çözemeyeceği sorulara. Eğer yapay zeka bu seviyeye ulaşırsa, matematikçilerin rolü keskin bir değişim geçirecek. Örneğin, matematikçiler sadece sorular sorup, yeni matematiksel gerçekleri keşfetmelerine yardımcı olmak için muhakeme botlarıyla etkileşime geçebilirler, tıpkı bir profesörün lisansüstü öğrencileriyle yaptığı gibi. Bu nedenle, toplantıya katılan bir uzman, yüksek öğretimde yaratıcılığı beslemenin, matematiği gelecek nesiller için canlı tutmanın anahtarı olacağını tahmin ediyor.

Konuşmacılardan biri, "Meslektaşlarıma genel yapay zekanın asla gelmeyeceğini, sadece bir bilgisayar olduğunu söylemenin ciddi bir hata olduğunu söylüyorum," dedi. "Histeriye katkıda bulunmak istemem ama bazı yönlerden bu büyük dil modelleri şimdiden dünyanın en iyi lisansüstü öğrencilerimizin çoğunu geride bırakıyor."

İlker Özgül

Google Pixel 10 Serisi Avrupa Fiyatları Ortaya Çıktı: Zam Yok Ama Yine de Cep Yakıyor!

Neandertallerden Akıl Almaz Buluş: 130.000 Yıllık Mağara Aslanı Kemiği Çok Amaçlı Alete Dönüştü!

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara