OpenAI bünyesinde araştırma yapan Alexander Wei, şirketin üzerinde çalıştığı yeni bir yapay zeka dil modelinin Uluslararası Matematik Olimpiyatı (IMO) seviyesinde altın madalyaya denk bir performans gösterdiğini duyurdu. Bu başarı, her yıl insan yarışmacıların yüzde 9'undan daha azının ulaştığı bir standart olarak kabul ediliyor. Duyuru, IMO organizatörlerinin yapay zeka şirketlerinden 28 Temmuz'a kadar sonuçlarını paylaşmamalarını rica etmesine rağmen geldi.
Deney modelinin, yarışmanın altı adet kanıta dayalı problemini insan yarışmacılarla aynı kısıtlamalar altında çözdüğü bildirildi: oturum başına 4.5 saat, internet erişimi veya hesap makinesi olmaksızın. Ancak, sürecin detaylarına hakim olan bazı kaynaklar, OpenAI'nin IMO sonuçlarını kendi kendine değerlendirmesi nedeniyle, şirketin iddiasının meşruiyetinin sorgulanabileceğini belirtiyor. OpenAI, kanıtları ve değerlendirme yönergelerini kamuoyunun incelemesi için yayınlamayı planlıyor.
OpenAI'ye göre bu başarı, daha önceki yapay zeka denemelerinden farklılık gösteriyor. Geçmişte matematik olimpiyatı problemlerinde uzmanlaşmış, genellikle insan zaman sınırlarını aşan teoremleri kanıtlama sistemleri kullanılıyordu. OpenAI, modelinin problemleri düz metin olarak işlediğini ve standart bir dil modeli gibi doğal dilde kanıtlar ürettiğini, özel olarak tasarlanmış bir matematik sistemi gibi davranmadığını ifade ediyor.
Bu duyuru, Google'ın Temmuz 2024'te AlphaProof ve AlphaGeometry 2 modelleriyle IMO'da gümüş madalyaya denk bir başarı elde ettiğini iddia etmesinin ardından geldi. Ancak Google'ın sistemleri, problem başına 4.5 saatlik insan zaman sınırının aksine üç güne kadar zaman harcamış ve problemleri resmi matematik diline çevirmek için insan yardımına ihtiyaç duymuştu.
Şirket, "Matematik, akıl yürütmenin bir deneme alanıdır; yapılandırılmış, titiz ve hile yapması zordur. Bu, ölçeklenebilir, genel amaçlı yöntemlerin artık uzun süredir ulaşılamaz görülen görevlerde el yapımı sistemleri geride bırakabileceğini gösteriyor" açıklamasını yaptı.
Şirket, bir sonraki büyük yapay zeka modeli GPT-5'in "yakında geleceğini" doğrularken, mevcut modelin deneysel olduğunu belirtti. "Teknikler devam edecek, ancak bu düzeyde bir yeteneğe sahip bir şeyin piyasaya sürülmesi biraz zaman alacak" diyor OpenAI. Bu özel deney için OpenAI'nin büyük miktarda hesaplama kaynağı ayırmış olması muhtemeldir, bu da yüksek bir maliyet anlamına geliyor ve bu düzeyde bir hesaplama yakın gelecekte tüketiciye yönelik yapay zeka modellerinde tipik olmayacaktır.
Genel Amaçlı Bir Yapay Zeka Modeli İçin Şaşırtıcı Sonuçlar
OpenAI, Alex Wei liderliğindeki deneysel yapay zeka modelinin araştırma ekibinin, başlangıçta yarışmaya katılmayı planlamadığını ancak testlerde umut verici sonuçlar gözlemledikten sonra çalışmalarını değerlendirmeye karar verdiğini söylüyor.
OpenAI, "Bu matematik için inşa edilmiş bir sistem değildi. Dil, kodlama ve bilim için eğittiğimiz türden bir LLM'nin aynısı - standart IMO kısıtlamaları altında tam kanıt tabanlı problemleri çözüyor: 4.5 saat, internet yok, hesap makinesi yok" dedi.
OpenAI, IMO organizatörü tarafından yeni yazılan ve eş zamanlı olarak birkaç yapay zeka şirketiyle paylaşılan problemler aldı. Sonuçları doğrulamak için her çözümün, OpenAI tarafından organize edilen üç eski IMO madalyalıdan oluşan bir panel tarafından kör olarak değerlendirildiği ve kabul için oybirliği gerektiği bildirildi.
Ancak, sonuçların kendi kendine değerlendirilmesiyle ilgili tartışmalara ek olarak, OpenAI Cumartesi günkü duyurusunun Uluslararası Matematik Olimpiyatı ile yapılan ambargo anlaşmasını ihlal etmiş görünmesi nedeniyle IMO topluluğunu rahatsız etti. Yarışmaya katılan diğer bir yapay zeka şirketi Harmonic, 20 Temmuz'da bir X paylaşımında, "IMO Kurulu, diğer önde gelen yapay zeka şirketleriyle birlikte, sonuçlarımızı 28 Temmuz'a kadar yayınlamamızı istedi" diye açıkladı.
Erken duyuru, kendi IMO sonuçlarını anlaşılan tarih için hazırlamış olan Google DeepMind'ı kendi IMO ile ilgili duyurusunu bugünün ilerleyen saatlerine çekmeye yöneltti. Harmonic, sonuçlarını 28 Temmuz'da planlandığı gibi paylaşmayı planlıyor.
Tartışmalara yanıt olarak, OpenAI araştırma bilimcisi Noam Brown X'te yaptığı paylaşımda, "IMO ile temas halinde değildik. Gönderi yapmadan önce bir organizatörle konuştum ve ona haber verdim. Çocuklara saygı duymak için kapanış töreninden sonra beklememizi istedi ve biz de bekledik" dedi.
Ancak, bir IMO koordinatörü X kullanıcısı Mikhail Samin'e yaptığı açıklamada, OpenAI'nin aslında kapanış töreninden önce duyuru yaptığını ve Brown'ın iddiasıyla çeliştiğini belirtti. Koordinatör, OpenAI'nin eylemlerini "kaba ve uygunsuz" olarak nitelendirdi ve OpenAI'nin "IMO ile modellerini test etme konusunda işbirliği yapan yapay zeka şirketlerinden biri olmadığını" kaydetti.
1959'dan Beri Zorlu Matematik
1959 yılından beri düzenlenen Uluslararası Matematik Olimpiyatı, matematiksel akıl yürütmenin en zorlu testlerinden birini temsil ediyor. 100'den fazla ülke her birinden altı katılımcı gönderiyor ve yarışmacılar iki adet 4.5 saatlik oturumda altı adet kanıta dayalı problemle karşılaşıyor. Problemler genellikle ham hesaplama gücü yerine derin matematiksel anlayış ve yaratıcılık gerektirir. 2025 Olimpiyatı'nda yer alan kesin problemleri GitHub üzerinden görebilirsiniz.
Örneğin, birinci problem öğrencilerden bir üçgen nokta ızgarası (bir üçgen pegboard gibi) hayal etmelerini ve tüm noktaları tam olarak n doğru çizgi kullanarak nasıl kaplayacaklarını bulmalarını istiyor. Buradaki püf noktası, bazı çizgilerin "güneşli" olarak adlandırılmasıdır; bunlar yatay, dikey veya 45º açıyla gitmeyen çizgilerdir. Zorluk, üçgeninizin ne kadar büyük olursa olsun, yalnızca 0, 1 veya 3 güneşli çizgili desenler oluşturabileceğinizi, asla 2, asla 4, asla başka bir sayı olamayacağını kanıtlamaktır.
OpenAI sonuçlarının zamanlaması, bazı tahmin piyasalarını şaşırttı; bu piyasalar 2025 yılına kadar herhangi bir yapay zeka sisteminin IMO altın madalyası kazanma olasılığını yaklaşık yüzde 18 olarak belirlemişti. Ancak, Google'ın bu öğleden sonra ne söyleyeceğine (ve Harmonic gibi diğerlerinin 28 Temmuz'da ne yayınlayabileceğine) bağlı olarak, bu beklenmedik sonuçları elde eden tek yapay zeka şirketi OpenAI olmayabilir.