Ara

Yapay Zeka Sinir Ağlarında Ezber ve Muhakeme Ayrıştı: Yeni Araştırma Detayları Teknoscope’ta!

Yapay zeka dil modelleri geliştirilirken, eğitim verilerinden iki temel işlev ortaya çıkar: ezberleme (daha önce görülen metinleri birebir tekrarlama, örneğin ünlü alıntılar veya kitap pasajları) ve muhakeme (genel prensipleri kullanarak yeni problemleri çözme). Yapay zeka girişimi Goodfire.ai'den gelen yeni bir araştırma, bu farklı işlevlerin modelin mimarisindeki tamamen ayrı sinirsel yollar aracılığıyla çalıştığına dair ilk net kanıtları sunuyor.

Araştırmacılar, bu ayrımın oldukça temiz olduğunu keşfettiler. Ekim ayı sonunda yayınlanan bir ön baskı makalesinde, ezberleme yollarını kaldırdıklarında modellerin eğitim verilerini birebir tekrarlama yeteneklerinin %97'sini kaybettiğini ancak "mantıksal muhakeme" yeteneklerinin neredeyse tamamını koruduğunu açıkladılar.

Örneğin, Allen Institute for AI'ın OLMo-7B dil modelinin 22. katmanında, ağırlık bileşenlerinin alt %50'si ezberlenmiş verilerde %23 daha yüksek aktivasyon gösterirken, üst %10'u genel, ezberlenmemiş metinlerde %26 daha yüksek aktivasyon gösterdi. Bu mekanik ayrım, araştırmacıların diğer yetenekleri korurken ezberlemeyi cerrahi olarak kaldırmasına olanak tanıdı.

Belki de en şaşırtıcı olanı, araştırmacıların aritmetik işlemlerin mantıksal muhakem yerine ezberleme ile aynı sinirsel yolları paylaştığını bulmalarıydı. Ezberleme devrelerini kaldırdıklarında, matematiksel performans %66'ya düşerken mantıksal görevler neredeyse hiç etkilenmedi. Bu keşif, yapay zeka dil modellerinin harici araçlar kullanmadan neden matematik konusunda zorlandığını açıklayabilir. Modeller, çarpmanın nasıl çalıştığını hiç öğrenmemiş bir öğrencinin çarpım tablosunu ezberlemesi gibi, sınırlı bir ezber tablosundan aritmetik yapmak için çabalıyor. Bu bulgu, mevcut ölçeklerde dil modellerinin "2+2=4" işlemini mantıksal bir işlemden çok ezberlenmiş bir gerçek olarak ele aldığını düşündürüyor.

Yapay zeka araştırmalarındaki "muhakeme"nin, insanlardaki muhakeme ile tam olarak eşleşmeyebilecek bir dizi yeteneği kapsadığını belirtmekte fayda var. Bu son araştırmada ezber kaybından kurtulan mantıksal muhakeme, doğru/yanlış ifadeleri değerlendirme ve eğer-o zaman kuralları izleme gibi görevleri içeriyor, ki bunlar aslında öğrenilmiş kalıpları yeni girdilere uygulamaktır. Bu, mevcut yapay zeka modellerinin desen eşleştirme yetenekleri sağlam olsa bile zorlandığı kanıtlar veya yeni problem çözme gibi daha derin "matematiksel muhakeme"den de farklıdır.

Geleceğe bakıldığında, eğer bilgi kaldırma teknikleri gelecekte daha fazla geliştirilirse, yapay zeka şirketleri potansiyel olarak telifli içeriği, özel bilgiyi veya zararlı ezberlenmiş metinleri, modelin dönüştürücü görevleri yerine getirme yeteneğini yok etmeden bir sinir ağından kaldırabilir. Ancak, sinir ağlarının henüz tam olarak anlaşılmayan dağıtılmış yollarla bilgi depolaması nedeniyle, araştırmacılar şimdilik yöntemlerinin "hassas bilginin tamamen ortadan kaldırılmasını garanti edemeyeceğini" belirtiyor. Bunlar, yapay zeka için yeni bir araştırma yönündeki ilk adımlardır.

Sinirsel Manzarada Yolculuk

Araştırmacıların bu sinir ağlarında ezberlemeyi muhakemeden nasıl ayırdığını anlamak için, yapay zekada "kayıp manzarası" (loss landscape) kavramını bilmek faydalı olacaktır. "Kayıp manzarası", bir yapay zeka modelinin tahminlerinin ne kadar yanlış veya doğru olduğunu, iç ayarlarını (ağırlıklar olarak adlandırılır) ayarladıkça görselleştirmenin bir yoludur.

Milyonlarca düğmesi olan karmaşık bir makineyi ayarladığınızı hayal edin. "Kayıp", makinenin yaptığı hata sayısını ölçer. Yüksek kayıp çok hata anlamına gelir, düşük kayıp az hata anlamına gelir. "Manzara", her olası düğme ayarı kombinasyonu için hata oranını haritalandırabilirseniz göreceğiniz şeydir.

Eğitim sırasında, yapay zeka modelleri temelde bu manzarada "aşağı doğru yuvarlanır" (gradient descent), hatalarını en aza indirecek vadileri bulmak için ağırlıklarını ayarlarlar. Bu süreç, sorulara verilen yanıtlar gibi yapay zeka model çıktısı sağlar.

Araştırmacılar, belirli yapay zeka dil modellerinin kayıp manzaralarının "eğriliğini" analiz ettiler ve modelin performansının farklı sinir ağı ağırlıklarındaki küçük değişikliklere ne kadar duyarlı olduğunu ölçtüler. Keskin tepeler ve vadiler yüksek eğriliği (küçük değişikliklerin büyük etkilere neden olduğu yerler) temsil ederken, düz alanlar düşük eğriliği (değişikliklerin minimum etkiye sahip olduğu yerler) temsil eder.

Kronecker-Factored Approximate Curvature (K-FAC) adlı bir teknik kullanarak, bireysel ezberlenmiş gerçeklerin bu manzarada keskin sivrilikler oluşturduğunu, ancak her ezberlenmiş öğenin farklı bir yönde sivrilme yaptığından, ortalamaları alındığında düz bir profil oluşturduğunu buldular. Bu arada, birçok farklı girdinin dayandığı muhakeme yetenekleri, manzara boyunca tutarlı orta düzey eğrileri korur, yaklaştığınız yönden bağımsız olarak kabaca aynı şekle sahip olan yuvarlanan tepeler gibi.

Araştırmacılar, "birçok girdinin kullandığı paylaşılan mekanizmaları uygulayan yönler tutarlı bir şekilde eklenir ve ortalamada yüksek eğriliğe sahip kalır" diyerek muhakeme yollarını tanımlıyorlar. Buna karşılık, ezberleme, "veriler genelinde ortalamalandığında düz görünen, belirli örneklere bağlı kendine özgü keskin yönler" kullanır.

Farklı Görevler Bir Spektrum Mekanizmalar Ortaya Koyuyor

Araştırmacılar, bulgularının farklı mimarilerde geçerli olduğunu doğrulamak için tekniklerini birden fazla yapay zeka sisteminde test ettiler. Eğitim verileri açıkça erişilebilir olduğu için öncelikle Allen Institute'un OLMo-2 açık dil modelleri ailesinin 7 milyar ve 1 milyar parametreli sürümlerini kullandılar. Görsel modeller için, kasıtlı olarak yanlış etiketlenmiş verilerle eğitilmiş özel 86 milyon parametreli Vision Transformer (ViT-Base modelleri) üzerinde çalıştılar ve kontrollü ezberleme oluşturdular. Performans kıyaslamaları yapmak için BalancedSubnet gibi mevcut ezber kaldırma yöntemleriyle bulgularını doğruladılar.

Ekip, bu eğitilmiş modellerden düşük eğriliğe sahip ağırlık bileşenlerini seçici olarak kaldırarak keşiflerini test etti. Ezberlenmiş içerik, neredeyse %100'den %3,4'e düştü. Bu arada, mantıksal muhakeme görevleri, temel performansın %95 ila %106'sını korudu.

Bu mantıksal görevler arasında Boole ifade değerlendirmesi, "A, B'den uzundur" gibi ilişkileri takip etmesi gereken çözücüler için mantıksal çıkarım bulmacaları, çoklu değişimler yoluyla nesne takibi ve evet/hayır muhakemesi için BoolQ, sağduyu çıkarımı için Winogrande ve sağlanan gerçeklerden muhakeme gerektiren bilim soruları için OpenBookQA gibi kıyaslamalar yer alıyordu. Bazı görevler bu uç noktalar arasında yer aldı ve bir mekanizma spektrumu ortaya koydu.

Matematiksel işlemler ve kapalı kitap bilgi geri çağırma, ezberlemeyle aynı yolları paylaştı ve düzenlemeden sonra %66 ila %86 performans seviyesine düştü. Araştırmacılar, aritmetiğin özellikle kırılgan olduğunu buldular. Modeller aynı muhakeme zincirlerini üretseler bile, düşük eğriliğe sahip bileşenler kaldırıldıktan sonra hesaplama adımında başarısız oldular.

Ekip, "Aritmetik problemlerin kendisi 7B ölçekte ezberlenir veya hassas hesaplamalar yapmak için dar kullanımlı yönler gerektirir" açıklamasını yapıyor. Dahili bilgi yerine sağlanan bağlama dayanan açık kitap soru cevaplama, düzenleme prosedürüne karşı en sağlam olanıydı ve neredeyse tam performans gösterdi.

İlginç bir şekilde, mekanizma ayrımı bilgi türüne göre değişti. Ülke başkentleri gibi yaygın gerçekler düzenlemeden sonra neredeyse hiç değişmezken, şirket CEO'ları gibi nadir gerçekler %78 düştü. Bu, modellerin bilgilerin eğitimde ne sıklıkla yer aldığına bağlı olarak farklı sinirsel kaynaklar tahsis ettiğini gösteriyor.

K-FAC tekniği, ezberlenmiş içeriğin eğitim örneklerine ihtiyaç duymadan mevcut ezber kaldırma yöntemlerinden daha iyi performans gösterdi. Görülmemiş tarihi alıntılarda K-FAC, önceki en iyi yöntem olan BalancedSubnet'in %60'ına kıyasla %16,1 ezberleme elde etti.

Görsel Transformer modelleri de benzer desenler gösterdi. Kasıtlı olarak yanlış etiketlenmiş görüntülerle eğitildiğinde, modeller yanlış etiketleri ezberlemek ve doğru desenleri öğrenmek için farklı yollar geliştirdi. Ezberleme yollarını kaldırmak, daha önce yanlış etiketlenmiş görüntülerde %66,5 doğruluğu geri kazandırdı.

Ezber Kaldırmanın Sınırları

Ancak, araştırmacılar yöntemlerinin mükemmel olmadığını kabul etti. Diğer araştırmalar, mevcut "unlearning" yöntemlerinin bilgiyi tamamen silmek yerine yalnızca bastırdığını gösterdiğinden, bir zamanlar kaldırılan hafızalar model daha fazla eğitim alırsa geri dönebilir. Bu, "unutulan" içeriğin bu bastırılmış alanları hedefleyen birkaç eğitim adımıyla yeniden etkinleştirilebileceği anlamına gelir.

Araştırmacılar ayrıca, ezberleme kaldırıldığında neden bazı yeteneklerin, örneğin matematiğin bu kadar kolay bozulduğunu tam olarak açıklayamıyor. Modelin tüm aritmetiğini gerçekten ezberleyip ezberlemediği veya matematiğin ezberleme ile benzer sinirsel devreler kullanıp kullanmadığı belirsizdir. Ek olarak, bazı karmaşık yetenekler, gerçekte karmaşık muhakeme desenleri olsalar bile, tespit yöntemleri için ezberleme gibi görünebilir. Son olarak, modelin "manzarasını" ölçmek için kullandıkları matematiksel araçlar aşırı uçlarda güvenilmez hale gelebilir, ancak bu gerçek düzenleme işlemini etkilemez.

Önceki Haber
Super Mario Galaxy Filmi İçin Özel Nintendo Direct: Merakla Beklenen Detaylar Ortaya Çıkıyor!
Sıradaki Haber
Kızamık Vahşi Bir Geri Dönüş Yaptı: Kanada'nın 26 Yıllık Başarısı Sona Erdi!

Benzer Haberler: