Günümüzün popüler yapay zeka araçlarının mimari kısıtlamaları, zekalarının ne kadar yükselebileceğini sınırlıyor olabilir. Yapılan yeni araştırmalar, mevcut büyük dil modellerinin (LLM'ler) problem çözme mantığında doğuştan gelen aksaklıklara yatkın olduğunu gösteriyor. Bu aksaklıklar, 'akıl yürütme hataları' olarak biliniyor.
Araştırmacılara göre, akıl yürütme hataları, bir LLM'nin bir görevi güvenilir bir şekilde çözmek için gereken anahtar bilgiyi kaybetmesiyle ortaya çıkıyor ve görünüşte basit problemler için bile yanlış sonuçlar üretiyor. Mevcut araştırmaların bir derlemesi olarak sunulan bu çalışma, özellikle popüler yapay zeka sohbet botları ChatGPT, Claude ve Google Gemini'yi destekleyen bir yapay sinir ağı mimarisi türü olan transformer modellerine odaklanıyor.
İnsanlığın En Zorlu Sınavı gibi değerlendirmelerde LLM'lerin performansına dayanarak, bazı bilim insanları altta yatan yapay sinir ağı mimarisinin bir gün insan seviyesinde bilişe sahip bir modelle sonuçlanabileceğini öne sürüyor. Transformer mimarisi, LLM'leri dil üretimi gibi görevlerde son derece yetenekli hale getirirken, araştırmacılar bunun aynı zamanda gerçek insan seviyesinde akıl yürütme için gereken güvenilir mantıksal süreçleri de engellediğini savunuyor.
Araştırmacılar, "LLM'ler olağanüstü akıl yürütme yetenekleri sergiledi ve geniş bir görev yelpazesinde etkileyici sonuçlar elde etti. Bu gelişmelere rağmen, ciddi akıl yürütme hataları devam ediyor ve hatta görünüşte basit senaryolarda bile ortaya çıkıyor. Bu hata, bütünsel planlama ve derinlemesine düşünme yeteneğinin olmamasına bağlanıyor." diyor.
LLM'lerdeki Sınırlamalar
LLM'ler devasa metin verileri üzerinde eğitilir ve kullanıcının komutlarına, istatistiksel örüntüleri kullanarak olası bir cevabı kelime kelime tahmin ederek yanıt verir. Bunu, eğitim verilerinden öğrendikleri istatistiksel örüntülere dayalı olarak "token" adı verilen metin birimlerini bir araya getirerek yaparlar.
Transformerlar ayrıca, uzun metin dizilerindeki kelimeler ve kavramlar arasındaki ilişkileri takip etmek için "öz-dikkat" adı verilen bir mekanizma kullanır. Öz-dikkat mekanizması, devasa eğitim veritabanlarıyla birleştiğinde, modern sohbet botlarının kullanıcı komutlarına ikna edici yanıtlar üretmesinde etkili olur.
Ancak, LLM'ler geleneksel anlamda gerçek bir "düşünme" yapmazlar. Bunun yerine, yanıtları bir algoritma tarafından belirlenir. Uzun ve özellikle çok adımlı gerçek problem çözme gerektiren görevlerde, transformerlar temel bilgileri kaybetme eğilimindedir ve eğitim verilerinden öğrendikleri örüntülere geri dönerler. Bu da akıl yürütme hatalarına yol açar.
Araştırmacılar, "Bu temel zayıflık, temel görevlerin ötesine geçerek matematik problemlerinin kompozisyonları, çoklu gerçek doğrulama ve doğası gereği kompozisyonel olan diğer görevlere kadar uzanıyor." ifadesini kullanıyor.
Akıl yürütme hataları, LLM'lerin bir kullanıcı sorgusuna yanlış olduğu söylendikten sonra bile aynı yanıt etrafında dönmesinin veya aynı soruya biraz farklı formüle edildiğinde, adım adım mantığını açıklamak üzere yönlendirildiğinde bile farklı bir cevap üretmesinin nedenidir.
İngiltere'deki Alan Turing Enstitüsü'nde kıdemli araştırma veri bilimcisi olan Federico Nanni, LLM'lerin tipik olarak sunduğu akıl yürütmenin çoğunlukla "gösterişten" ibaret olduğunu savunuyor.
Nanni, "İnsanlar, bir LLM'ye doğrudan cevap vermek yerine, 'adım adım düşün' ve önce bir akıl yürütme süreci yazmasını söylediğinde, genellikle doğru cevabı aldığını fark etti. Ancak bu bir hile. İnsan anlamında gerçek akıl yürütme değil - hala bir düşünce zinciri gibi görünen sonraki kelime tahmini." dedi. "Bu modellerin 'akıl yürüttüğünü' söylediğimizde, aslında kastettiğimiz şey, akla yatkın bir akıl yürütme zinciri gibi ses çıkaran bir akıl yürütme sürecini yazmalarıdır."
Mevcut Yapay Zeka Değerlendirmelerindeki Boşluklar
Araştırmacılar, mevcut LLM performansını değerlendirme yöntemlerinin üç temel alanda yetersiz kaldığını buldu. Birincisi, bir komutun yeniden ifade edilmesinden sonuçlar etkilenebilir. İkincisi, değerlendirme setleri kullanıldıkça bozulur ve kirlenir. Ve son olarak, yalnızca bir modelin sonuca ulaşmak için kullandığı akıl yürütme sürecini değil, yalnızca sonucu değerlendirirler.
Bu, mevcut değerlendirme setlerinin LLM'lerin ne kadar yetenekli olduğunu önemli ölçüde abartabileceği ve gerçek dünya kullanımında ne sıklıkla başarısız olduklarını hafife alabileceği anlamına gelir.
Çalışmanın ortak yazarlarından Caltech'te bilgisayar bilimi ve robotik öğrencisi Peiyang Song, "Bizim pozisyonumuz değerlendirme setlerinin kusurlu olduğu değil, gelişmeleri gerektiği yönünde." dedi. Benzer şekilde, Nanni'nin belirttiğine göre, değerlendirme setleri LLM eğitim verilerine sızma eğilimindedir, bu da sonraki LLM'lerin onları nasıl kandıracağını öğrenmesine yol açar.
Nanni, "Bunun da ötesinde, modeller artık üretim ortamında konuşlandırıldığı için, kullanımın kendisi bir tür değerlendirme haline geliyor. Sistemi kullanıcıların önüne koyarsınız ve neyin ters gittiğini görürsünüz - bu yeni test. Yani evet, daha iyi değerlendirme setlerine ihtiyacımız var ve yapay zekayı kontrol etmek için yapay zekaya daha az güvenmeliyiz. Ancak pratikte bu çok zor, çünkü bu araçlar artık çalışma şeklimize entegre olmuş durumda ve sadece onları kullanmak son derece kolay." diye ekledi.
AGI İçin Yeni Bir Mimari?
Diğer güncel araştırmaların aksine, yeni çalışma, yapay zekaya yönelik sinir ağı yaklaşımlarının yapay genel zeka (AGI) elde etme arayışında bir çıkmaz yol olduğunu savunmuyor. Daha ziyade, araştırmacılar bunu bilgisayarın ilk günlerine benzetiyor ve LLM'lerin neden başarısız olduğunu anlamanın onları iyileştirmek için anahtar olduğunu belirtiyor.
Ancak, sadece modelleri daha fazla veriyle eğitmenin veya onları büyütmenin sorunu kendi başlarına çözmesinin pek olası olmadığını savunuyorlar. Bu, AGI geliştirmek için modellerin nasıl inşa edildiğine dair temelde farklı bir yaklaşıma ihtiyaç duyulabileceği anlamına geliyor.
Song, "Sinir ağları ve özellikle LLM'ler, kesinlikle AGI resminin bir parçası. İlerlemeleri olağanüstü oldu. Ancak, çalışmamız ölçeklendirmenin tüm akıl yürütme hatalarını çözmesinin pek olası olmadığını gösteriyor. Bu, insan seviyesinde akıl yürütmeye ulaşmanın mimari yenilikler, daha güçlü dünya modelleri, geliştirilmiş sağlamlık eğitimi ve yapılandırılmış akıl yürütme ve somut etkileşimle daha derin entegrasyon gerektirebileceği anlamına geliyor." dedi.
Nanni de aynı fikirde. "Zihin felsefesi açısından bakıldığında, transformerların sınırlarını temel olarak bulduğumuzu söyleyebilirim. Onlar, bir dijital zihin inşa etme yöntemi değil." dedi. "Metni son derece iyi modellerler, o kadar ki bir pasajın bir insan mı yoksa bir makine tarafından mı yazıldığını ayırt etmek neredeyse imkansız. Ama onlar sadece bu: dil modelleri... Bu mimariyi ne kadar ileri itebileceğinizin bir sınırı var."