Ara

Apple Araştırmacıları Ortaya Koydu: Yapay Zeka Karmaşık Görevlerde Tamamen Çuvallıyor!

Apple araştırmacıları tarafından yapılan yeni bir çalışma, gelişmiş yapay zeka akıl yürütme modellerinin (büyük akıl yürütme modelleri - LRM olarak adlandırılıyor) yeteneklerine dair önemli bulgular sunuyor. Kontrollü bulmaca ortamlarında test edilen bu modellerin, orta karmaşıklıktaki görevlerde standart büyük dil modellerinden (LLM) daha iyi performans gösterdiği ancak karmaşıklık arttıkça her ikisinin de tamamen başarısız olduğu belirlendi.

Araştırmacılar, mevcut LRM ve LLM'lerin insan gibi düşünme yeteneğinde veya akıl yürütmeyi genelleme becerisinde temel sınırlamalara sahip olduğuna inanıyor.

Apple araştırmacıları, Hanoi Kulesi ve Nehir Geçme gibi bulmacalar kullanarak ileri düzey yapay zeka modellerinin giderek karmaşıklaşan problem çözme görevleriyle nasıl başa çıktığını inceledi. Bu bulmacalar, problemin karmaşıklığını hassas bir şekilde ayarlamaya olanak tanıdı. Amaç sadece nihai cevapları değil, aynı zamanda modellerin içsel akıl yürütme süreçlerini de değerlendirmek ve bunları eşit hesaplama koşulları altında standart büyük dil modelleriyle karşılaştırmaktı. Puzzel testleri aracılığıyla, yapay zeka akıl yürütmesinin gerçek güçlü yönlerini ve temel sınırlarını ortaya çıkarmayı hedeflediler.

Apple araştırmacıları, LRM'lerin performansının problem karmaşıklığına bağlı olarak değiştiğini keşfetti. Basit görevlerde, açık akıl yürütme mekanizmalarına sahip olmayan standart LLM'ler daha doğru ve verimliydi, daha az hesaplama kaynağıyla daha iyi sonuçlar veriyordu. Ancak, problem karmaşıklığı orta düzeye çıktıkça, Zincirleme Düşünce (Chain-of-Thought) gibi yapılandırılmış akıl yürütme yetenekleriyle donatılmış modeller avantaj kazandı ve akıl yürütme yeteneği olmayan benzerlerinden daha iyi performans gösterdi. Karmaşıklık daha da arttığında ise, mevcut hesaplama kaynaklarından bağımsız olarak her iki model türü de tamamen başarısız oldu: doğruluk oranları sıfıra düştü.

Akıl yürütme izlerinin derinlemesine analizi verimsizlikleri ve beklenmedik davranışları ortaya çıkardı. Başlangıçta, akıl yürütme modelleri sorunlar zorlaştıkça daha uzun düşünme dizileri kullandı, ancak başarısızlık noktasına yaklaştıklarında, yeterli hesaplama kapasiteleri olmasına rağmen akıl yürütme çabalarını şaşırtıcı bir şekilde kısalttılar. Ayrıca, kendilerine açıkça doğru algoritmalar sağlandığında bile, modeller karmaşık görevlerde adım adım talimatları güvenilir bir şekilde yerine getiremedi, bu da mantıksal hesaplamadaki zayıflıkları gösterdi. Çalışma aynı zamanda model performansının bilinen ve daha az bilinen bulmacalar arasında önemli ölçüde değiştiğini buldu, bu da başarının genellikle gerçek genellenebilir akıl yürütme becerilerinden ziyade eğitim verisi aşinalığına bağlı olduğunu düşündürdü.

Önceki Haber
PC'ler İçin Rekor Güç Geliyor: 2800W'lık Canavar Güç Kaynağı Tanıtıldı!
Sıradaki Haber
iOS 26 ve iPadOS 26 Yayınlanıyor: İşte Güncelleme Alamayacak iPhone ve iPad Modelleri

Benzer Haberler: