Son zamanlarda yapay zeka alanında, karmaşık sorunları çözmek için çok adımlı ve mantıksal bir "düşünce zinciri" süreci kullanan 'simüle edilmiş akıl yürütme modelleri'ne doğru bir eğilim gözlemleniyor. Ancak yapılan yeni araştırmalar, bu modellerin gerçekten akıl yürütme yeteneğine sahip olup olmadığını sorguluyor. Eldeki bulgular, bu modellerin temel mantıksal kavramları anlama konusunda yeterli olmadığını ve kendi "düşünce süreçlerini" doğru bir şekilde kavrayamadıklarını gösteriyor. Benzer çalışmalar, bu tür "akıl yürütme" modellerinin, eğitim verilerinde bulunan yaygın şablonlardan hafifçe sapan veya ilgisiz ifadeler içeren sorular karşısında tutarsız ve mantıksal olarak hatalı yanıtlar üretebildiğini ortaya koyuyor.
Arizona Üniversitesi'nden araştırmacılar tarafından hazırlanan ön baskı bir makalede, mevcut çalışmaların bu durumu "Büyük Dil Modellerinin (LLM'ler) ilkesel akıl yürütücüler değil, daha çok akıl yürütme benzeri metinlerin gelişmiş simülatörleri olduğunu" öne sürdüğü belirtiliyor. Bu doğrultuda araştırmacılar, LLM'lerin eğitim verilerinde bulunan özel mantıksal örüntülerle eşleşmeyen, "alan dışı" mantıksal problemlerle karşılaştıklarında düşünce zinciriyle akıl yürütme yeteneklerinin ne kadar iyi çalıştığını ölçmek için dikkatlice kontrol edilen bir ortam oluşturdular.
Sonuçlar, düşünce zinciri modelleri tarafından elde edilen büyük performans artışlarının "büyük ölçüde kırılgan bir yanılsama" olduğunu ve "dağılımdaki orta düzeydeki değişimler altında bile hassaslaşıp arızaya yatkın hale geldiğini" gösteriyor. Araştırmacılar, "Metnin gerçek bir anlayışını göstermek yerine, görev dönüşümleri altındaki düşünce zinciri akıl yürütmesinin, eğitim sırasında öğrenilen örüntülerin bir tekrarını yansıttığını" ifade ediyor.
Bu Durum İçin Eğitilmedim!
Bir LLM'nin genelleştirilmiş akıl yürütme yeteneğini objektif ve ölçülebilir bir şekilde test etmek için araştırmacılar, DataAlchemy adını verdikleri özel olarak kontrol edilen bir LLM eğitim ortamı geliştirdiler. Bu sistem, iki son derece basit metin dönüşümünü – bir ROT şifrelemesi ve döngüsel kaydırmalar – içeren örneklerle eğitilmiş küçük modeller oluşturuyor. Ardından, bu iki fonksiyonun çeşitli sıralamalar ve kombinasyonlarda gerçekleştirildiği ek eğitimler sunuluyor.
Bu basitleştirilmiş modeller daha sonra, eğitim verilerindeki fonksiyon örüntüleriyle tam veya yakın olarak eşleşen görevlerin yanı sıra, eğitim verileri için kısmen veya tamamen "alan dışı" olan fonksiyon bileşimlerini gerektiren çeşitli görevlerle test edildi. Örneğin, iki döngüsel kaydırma gösteren verilerle eğitilmiş bir model, iki ROT kaydırmasını içeren yeni bir dönüşüm gerçekleştirmek üzere görevlendirildi (her iki kaydırmanın da tek bir örneğinin temel eğitimi ile).
Araştırmacılar, modellerin hipotezlerine uygun olarak, eğitim verilerinde doğrudan gösterilmeyen yeni dönüşüm setlerini genelleştirmeleri istendiğinde bu temel modellerin felaket düzeyinde başarısız olmaya başladığını gözlemlediler. Modeller genellikle eğitim verilerindeki benzer örüntülere dayanarak yeni mantıksal kurallar genelleştirmeye çalışsalar da, bu durum çoğu zaman modelin "doğru akıl yürütme yolları, ancak yanlış cevaplar" ortaya koymasına neden oluyordu. Diğer durumlarda ise LLM, mantıksal olarak takip etmeyen "sadakatsiz akıl yürütme yolları" ile eşleştirilmiş doğru cevaplara tesadüfen rastlıyordu.
Araştırmacılar, "Metnin gerçek bir anlayışını göstermek yerine, görev dönüşümleri altındaki düşünce zinciri akıl yürütmesinin, eğitim sırasında öğrenilen örüntülerin bir tekrarını yansıttığını" belirtiyor.
Araştırmacılar, kontrollü sistemlerini, eğitim verilerinde bulunanlardan biraz daha kısa veya daha uzun metin dizgileri veya eğitildiklerinden farklı uzunluklarda fonksiyon zincirleri gerektiren girdilerle test etmeye devam ettiler. Her iki durumda da sonuçların doğruluğu, "uzunluktaki uyumsuzluk arttıkça kötüleşiyor" ve bu da modellerdeki "genelleme başarısızlığını" gösteriyor. Araştırmacılar, test görevlerinin formatındaki küçük, modele yabancı uyumsuzlukların (örneğin, eğitim verilerinde bulunmayan harf veya sembollerin tanıtılması) da performansın "keskin bir şekilde düşmesine" neden olduğunu ve modelin yanıtlarının "doğruluğunu etkilediğini" buldular.
“Güvenilirliğin Yanlış Bir Aurası”
Denetimli ince ayar (SFT) kullanarak eğitim setine küçük miktarda ilgili veri eklemek bile, bu tür "alan dışı" model performansında güçlü iyileştirmeler sağlayabiliyor. Ancak araştırmacılar, çeşitli mantıksal görevler için bu tür bir "yama"nın "gerçek genelleme elde edildiği şeklinde yanlış anlaşılmaması gerektiğini" söylüyorlar. "Her alan dışı hatayı düzeltmek için SFT'ye güvenmek, temel sorunu ele almakta başarısız olan sürdürülemez ve tepkisel bir stratejidir: modelin soyut akıl yürütme yeteneğinin eksikliği."
Araştırmacılar, genelleştirilmiş mantıksal çıkarım yeteneği göstermek yerine, bu düşünce zinciri modellerinin "gelişmiş bir yapılandırılmış örüntü eşleştirme formu" olduğunu ve eğitim dağılımının dışına biraz itildiğinde bile "önemli ölçüde bozulduğunu" belirtiyorlar. Dahası, bu modellerin "akıcı anlamsızlık" üretme yeteneği, dikkatli bir denetimden geçmeyen "güvenilirliğin yanlış bir aurasını" yarattığı vurgulanıyor.
Bu nedenle araştırmacılar, özellikle "tıp, finans veya hukuk analizi gibi yüksek riskli alanlarda" "düşünce zinciri tarzı çıktıyı insan düşüncesiyle eşleştirmeye" karşı güçlü bir uyarıda bulunuyorlar. Mevcut test ve kıyaslamalar, bu tür hataları ortaya çıkarmak için herhangi bir eğitim setinin dışına düşen görevlere öncelik vermeli, gelecekteki modellerin ise "yüzey düzeyindeki örüntü tanıma"nın ötesine geçerek "daha derin çıkarımsal yetkinlik" sergilemesi gerekeceği belirtiliyor.