Dünyanın en parlak genç beyinlerinin yarıştığı Uluslararası Matematik Olimpiyatı'nda (IMO) bu yıl yapay zeka modelleri de sahne aldı. Google'ın geliştirdiği Gemini Deep Think modeli, insan katılımcılarla aynı kurallara tabi tutularak sınandı ve geçen seneki başarılı performansını da geride bırakarak önemli bir başarıya imza attı.
Google'dan yapılan açıklamaya göre, özel olarak matematik alanında eğitilen yapay zeka modeli, yarışmadaki altı sorudan beşini doğru yanıtlayarak altın madalya statüsüne ulaştı. Bu, geçtiğimiz yıl gümüş madalya kazanan modelin önemli bir gelişme kaydettiğini gösteriyor.
Yeni Bir Gemini Dönemi
Google DeepMind ekibi, geçtiğimiz yılki IMO yarışmasında AlphaProof ve AlphaGeometry 2 modellerinden oluşan bir yapay zeka ile yer almıştı. Bu kurulum, altı sorudan dördünü doğru yanıtlayarak gümüş madalya kazanmıştı. IMO'ya katılan insan katılımcıların yalnızca yarısı madalya alabilirken, bu, yapay zekanın ne kadar etkili bir sonuç elde ettiğini ortaya koyuyor.
2025 yılı için Google DeepMind, modellerinin resmi olarak derecelendirilmesi ve sertifikalandırılması amacıyla IMO koordinatörleriyle iş birliği yapan firmalar arasında yer aldı. Bu özel etkinlik için Google, yeni bir modelle hazırlandı: Gemini Deep Think. Yılın başlarında duyurulan bu model, simüle edilmiş akıl yürütme modellerinin daha analitik bir yorumu olarak öne çıkıyor. Deep Think, tek bir doğrusal düşünce hattına bağlı kalmak yerine, birden fazla akıl yürütme sürecini paralel olarak çalıştırıp sonuçları entegre ederek ve karşılaştırarak nihai cevaba ulaşıyor.
DeepMind'ın kıdemli bilim insanı ve IMO ekibinin başındaki isim, Gemini Deep Think'in bu yılki performansının geçen seneye göre bir paradigma değişimi olduğunu belirtti. Geçen yıl, doğal dil ile ifade edilen soruların uzmanlar tarafından "alan özelinde dile" çevrilmesi ve sonucun yine uzmanlar tarafından yorumlanması gerekiyordu. Ancak Deep Think, uçtan uca doğal dil işleme yeteneğiyle bu süreci kendi başına tamamladı ve özellikle matematik yapmak için tasarlanmamış olmasına rağmen bu alanda başarılı oldu.
Daha önceki modellerde yapay zekanın matematikteki başarısını artırmak, genellikle nihai cevaplar üzerinden pekiştirmeli öğrenme ile sağlanıyordu. Ancak bu tür eğitimlerle doğru cevaba ulaşılsa da, akıl yürütme süreçleri eksik kalabiliyordu. IMO'da önemli bir değerlendirme kriteri olan "gösteri kısmı" (çözüm adımlarının gösterilmesi) bu modeller için zorlayıcıydı. Deep Think'i IMO için hazırlarken, Google daha yüksek kaliteli ve uzun cevap çözümlerini içeren yeni pekiştirmeli öğrenme teknikleri kullandı. Bu yaklaşım, modelin bir cevaba ulaşırken her adımı daha sağlam bir şekilde ele almasını sağlıyor ve "güçlü, uzun biçimli akıl yürütme" yeteneği kazandırıyor.
Beklendiği gibi, Deep Think'in bir çıktı üretmesi, Gemini uygulamasında erişilebilen daha basit versiyonlara göre daha fazla zaman alıyor. Ancak yapay zeka, rekabetin 4,5 saatlik zaman dilimi içerisinde, insan katılımcılarla aynı kurallara uyarak problemlerini doğal dil olarak alıp cevaplarını üretebildi.
Titiz Kanıtlar
DeepMind gibi yapay zeka firmaları, IMO'nun sunduğu zorlu meydan okumalar nedeniyle son yıllarda bu yarışmaya büyük ilgi gösteriyor. Lise öncesi matematikçilere yönelik olsa da, yarışmadaki sorular eleştirel düşünme ve cebir, kombinatorik, geometri ve sayılar teorisi gibi çoklu matematik disiplinlerinin anlaşılmasını gerektiriyor. Yalnızca en gelişmiş yapay zeka modelleri, bu çok katmanlı problemleri doğru bir şekilde yanıtlama potansiyeline sahip.
DeepMind ekibi, Deep Think'in gelişmiş eğitiminden kaynaklanan ilginç performans yönlerine dikkat çekiyor. Örneğin, yarışmanın üçüncü sorusunda birçok insan yarışmacı, IMO kapsamı dışındaki bir matematiksel kavram olan Dirichlet Teoremi'ni kullandı. Ancak Deep Think, bu problemi daha basit matematiksel yöntemlerle çözmenin mümkün olduğunu fark etti. Bir araştırmacı, modelin dahice bir gözlem yaptığını ve yalnızca temel sayılar teorisi kullanarak probleme kendi içinde tutarlı bir kanıt sunduğunu belirtti.
Deep Think'in yanlış yanıtladığı soruda ise, ekibin belirttiğine göre bu sorunun yarışmadaki nesnel olarak en zor soruydu. Soru, belirli bir alanı kaplamak için gereken minimum dikdörtgen sayısını soruyordu. Yapay zekanın, cevabın 10'dan büyük veya eşit olacağı yönündeki yanlış bir hipotezle başladığı ve bu nedenle baştan itibaren doğru yolda ilerleyemediği ifade ediliyor.
Bu soruya yanlış cevap vermesine rağmen, Deep Think toplamda 35 puan alarak altın madalyayı hak etti. İnsan katılımcıların sadece yaklaşık %8'i bu puana ulaşabiliyor. Google, Deep Think'in öğrencilerle aynı değerlendirme sürecinden geçtiğini vurguluyor. OpenAI'nin de IMO sonuçlarını açıkladığı ancak organizasyonla iş birliği yapmadan, eski IMO katılımcılarından oluşan bir panel tarafından cevaplarını derecelendirtip kendiliğinden altın madalya verdiği belirtiliyor.
Google, yarışmayı kazanan Deep Think modelinin geliştirilmeye devam edeceğini ve şu anda matematikçileri de içeren güvenilir test kullanıcılarına sunulduğunu açıkladı. Modelin ilerleyen zamanlarda Google AI Ultra aboneleriyle paylaşılması planlanıyor. DeepMind, bu modeli geliştirmeye devam ederek gelecek yıl daha da kusursuz bir sonuç için yarışmaya devam etmeyi hedefliyor.