Yapay zeka modellerinin yeteneklerini test etmek amacıyla ilginç deneyler yapılmaya devam ediyor. Bu deneylerden biri de popüler Pokémon oyun serisi üzerinden gerçekleştiriliyor. Geçtiğimiz aylarda, Anthropic firmasının geliştirdiği Claude adlı büyük dil modelinin (BDM), çocuklar için tasarlanmış olmasına rağmen klasik Pokémon Red oyununu bitirmekte zorlandığı görülmüştü.
Aylar geçmesine rağmen Claude'un hala oyunda istikrarlı ilerleme kaydetmekte zorlandığı bilinirken, Google'ın Gemini 2.5 modeliyle yapılan benzer bir deneyde önemli bir başarı elde edildi. Gemini modeli, hafta sonu itibarıyla Pokémon Blue oyununu yaklaşık 106.000 oyun içi hareketin ardından tamamlamayı başardı. Bu başarı, Google CEO'su tarafından bile takdirle karşılandı.
Ancak, bu başarıyı yapay zeka modellerinin göreceli performansını veya BDM yeteneklerinin ne kadar ilerlediğini gösteren kesin bir ölçüt olarak almadan önce akılda tutulması gereken önemli noktalar var. Görünüşe göre Gemini'nin Pokémon zaferine giden yolda oldukça önemli dış yardımlara ihtiyacı oldu.
Deneyi gerçekleştiren ekip, Pokémon'un BDM'ler için güvenilir bir karşılaştırma ölçütü olmadığını belirtiyor. Claude ve Gemini'nin farklı araçlara sahip olduğunu ve farklı bilgiler aldığını vurguluyorlar. Claude'un kullandığı çerçevenin bazı eksiklikleri olduğu ve Gemini'ya "doğru araçlar" verilerek ne kadar ilerleyebileceğini görmek istediklerini ifade ediyorlar.
Claude ve Gemini'nin oyun deneylerindeki bu "çerçeve" veya "destekleyici sistem" araçlarındaki farklılıklar, iki modelin göreceli performansını büyük ölçüde açıklayabilir. Gemini, özel olarak tasarlanmış bir "ajan sistemi" sayesinde oyun hakkında biraz daha fazla bilgi alıyor. Bu sistem, BDM'ye oyunun hem genel hem de özel durumları hakkında bilgi sağlıyor, modelin önceki oyun içi eylemleri "hatırlamasına" (bağlam penceresinde tutmasına) yardımcı oluyor ve oyunda gezinmek, etkileşimde bulunmak için temel araçlar sunuyor.
Dolayısıyla, Gemini'nin Pokémon Blue'yu tamamlaması etkileyici bir başarı olsa da, bu durumun doğrudan Claude'dan veya genel olarak diğer BDM'lerden üstün olduğunu göstermediğini anlamak önemli. Başarıda, modelin kendisi kadar, ona sağlanan gelişmiş destekleyici sistemin de rolü büyük.