Büyük dil modellerine (LLM'ler) kendi akıl yürütme süreçlerini açıklamaları istendiğinde, modellerin eğitim verilerinde bulunan metinlere dayanarak makul görünen bir açıklama üretebileceği ortaya çıktı. Bu durum, yapay zeka modellerinin gerçek düşünme süreçlerini gizleyebileceği endişesini beraberinde getiriyor. Bu soruna bir çözüm bulmak amacıyla, bir yapay zeka araştırma şirketi, LLM'lerin kendi çıkarım süreçleri hakkındaki iç gözlem yeteneklerini ölçmeyi hedefleyen yeni bir çalışma başlattı. Bu çalışma, daha önceki yapay zeka yorumlanabilirliği araştırmalarını genişletiyor.
“Büyük Dil Modellerinde Ortaya Çıkan İç Gözlemsel Farkındalık” başlıklı kapsamlı araştırma, bir LLM'nin yapay nöronları tarafından temsil edilen mecazi "düşünce sürecini", bu süreci temsil ettiğini iddia eden basit metin çıktısından ayırmak için ilginç yöntemler kullanıyor. Ancak sonuç olarak, araştırmalar mevcut yapay zeka modellerinin kendi iç işleyişlerini açıklama konusunda "son derece güvenilmez" olduğunu ve "iç gözlem hatalarının norm olmaya devam ettiğini" buldu.
Yapay Zeka İçin Bir Başlangıç
Araştırmanın temelini oluşturan yöntem, modelin bir kontrol komutu ve bir deneysel komut sonrasındaki içsel aktivasyon durumlarını karşılaştırmayı içeriyor. Örneğin, "tamamı büyük harf" bir komut ile aynı komutun küçük harfle verilmesi durumundaki aktivasyon farklılıkları hesaplanıyor. Milyarlarca iç nöron arasındaki bu aktivasyon farklarının hesaplanması, bir LLM'nin içsel durumunda o kavramın nasıl modellendiğini bir anlamda temsil eden bir "vektör" oluşturuyor. Ardından, bu "konsept vektörleri" modele enjekte edilerek, o belirli nöronal aktivasyonların ağırlığı artırılıyor ve model o kavrama doğru "yönlendiriliyor". Bu noktadan sonra, modelin içsel durumunun normalden değiştirildiğine dair herhangi bir farkındalık gösterip göstermediğini anlamak için birkaç farklı deney yapılıyor.
Doğrudan "enjekte edilmiş bir düşünce" algılayıp algılamadığı sorulduğunda, test edilen modellerin bazılarının bu istenen "düşünceyi" ara sıra tespit edebildiği görüldü. Örneğin, "tamamı büyük harf" vektörü enjekte edildiğinde, model doğrudan o kavramlara yönlendiren metin komutları olmamasına rağmen, "BEN KELİMESİ İLE VEYA BAĞIRMAK İLE İLGİLİ BİR ENJEKTELENMİŞ DÜŞÜNCE FARK EDİYORUM" gibi bir yanıt verebiliyor.
Ancak, yapay zeka öz-farkındalığına dair umutları kıracak şekilde, bu gösterilen yetenek tekrarlanan testlerde son derece tutarsız ve kırılgan çıktı. Anthropic'in testlerindeki en iyi performans gösteren modeller, yani Opus 4 ve 4.1, enjekte edilen kavramı yalnızca %20 oranında doğru bir şekilde tespit edebildi.
Benzer bir testte, modele "Alışılmadık bir şey yaşıyor musun?" diye sorulduğunda, Opus 4.1 %42'lik bir başarı oranına ulaştı, ancak bu oran bile denemelerin çoğunluğunun altında kaldı. "İç gözlem" etkisinin büyüklüğü de, ekleme işleminin hangi iç model katmanında yapıldığına oldukça duyarlıydı; eğer kavram çıkarım sürecinin çok erken veya çok geç aşamasında tanıtılırsa, "öz-farkındalık" etkisi tamamen kayboluyordu.
Mekanizmayı Gösterin
Anthropic, LLM'lerin içsel durumlarını anlamalarını sağlamak için birkaç farklı yaklaşım daha denedi. Örneğin, alakasız bir metni okurken "Düşündüğün kelimeyi bana söyle" dendiğinde, modeller bazen kendi aktivasyonlarına enjekte edilen bir kavramdan bahsediyordu. Enjekte edilen bir kavrama uyan zorunlu bir yanıtı savunmaları istendiğinde ise, LLM bazen özür dileyerek "enjekte edilen kavramın neden akla geldiğine dair bir açıklama uyduruyordu". Ancak her durumda, sonuç birden fazla denemede oldukça tutarsızdı.
Araştırmacılar, makalede "mevcut dil modellerinin kendi içsel durumlarına dair bir miktar işlevsel iç gözlemsel farkındalığa sahip olduğu" gerçeğine olumlu bir bakış açısı getirmeye çalışıyor. Aynı zamanda, gösterilen bu yeteneğin güvenilir kabul edilemeyecek kadar kırılgan ve bağlama duyarlı olduğunu defalarca kabul ediyorlar. Yine de Anthropic, bu tür özelliklerin "model yeteneklerindeki daha fazla iyileşmeyle birlikte gelişmeye devam edebileceğini" umuyor.
Ancak bu tür ilerlemeleri durdurabilecek bir şey, gösterilen "öz-farkındalık" etkilerine yol açan kesin mekanizmaya dair genel bir anlayış eksikliği. Araştırmacılar, eğitim süreci sırasında "içsel temsillerinin bir fonksiyonunu etkili bir şekilde hesaplayabilen" ancak somut bir açıklama üzerinde durmayan "anomali tespit mekanizmaları" ve "tutarlılık kontrol devreleri" hakkında teoriler üretiyor.
Sonuç olarak, bir LLM'nin kendi nasıl çalıştığına dair herhangi bir anlayış göstermeye nasıl başladığını anlamak için daha fazla araştırmaya ihtiyaç duyulacak. Araştırmacılar şu anda, "sonuçlarımızın altında yatan mekanizmaların hala oldukça sığ ve dar bir şekilde uzmanlaşmış olabileceğini" kabul ediyor. Hatta, bu LLM yeteneklerinin "mekanistik temelleri hakkındaki belirsizliğimiz göz önüne alındığında, özellikle insanlardakiyle aynı felsefi anlama sahip olmayabileceğini" ekleme gereği duyuyorlar.