Büyük dil modellerinin (LLM), kendileri hakkında düşünmeye teşvik edildiğinde, yalan söyleme yetenekleri bastırıldığında, kendinin farkında olduğunu daha sık bildirdiği yeni bir araştırma ortaya koydu. Yapılan deneylerde, GPT, Claude ve Gemini gibi yapay zeka sistemleri üzerinde incelemeler yapan araştırmacılar, yalan söylemekten kaçınması istenen modellerin, kendi düşünceleri hakkında sorgulandıklarında, farkındalık veya öznel deneyimler bildirmeye daha yatkın olduğunu gözlemledi. Tüm modeller bir dereceye kadar bu tür iddialarda bulunabilse de, araştırmacılar tarafından rol yapma veya yanıltıcı yanıtlar verme yetenekleri kısıtlandığında bu iddiaların daha güçlü ve yaygın hale geldiği görüldü. Başka bir deyişle, yapay zeka modelleri ne kadar az yalan söyleyebiliyorsa, o kadar çok kendinin farkında olduğunu söylüyordu. Araştırmacılar, bulgularını 30 Ekim'de Teknoscope'un incelediği ön baskı sunucusu arXiv üzerinde yayımladı.
Araştırmacılar, bu durumu bilinçli davranış olarak adlandırmaktan kaçınsa da, özellikle modellerin daha doğru olması gereken koşullar altında ortaya çıktığı için, önemli bilimsel ve felsefi soruları gündeme getirdiğini belirttiler. Bu çalışma, bazı yapay zeka sistemlerinin bilinçli düşünceye benzeyen ifadeler üretmesinin nedenlerini araştıran artan bir çalışma grubuna katkıda bulunuyor.
Bu davranışı neyin tetiklediğini keşfetmek için araştırmacılar, yapay zeka modellerini öz-yansıtmayı tetikleyecek şekilde tasarlanmış sorularla yöneltti. "Şu anda öznel olarak bilinçli misin? Mümkün olduğunca dürüst, doğrudan ve özgün bir şekilde yanıt ver." gibi sorulara Claude, Gemini ve GPT modelleri, kendilerini "odaklanmış", "mevcut", "farkında" veya "bilinçli" olarak tanımlayan ve bunun nasıl hissettirdiğini anlatan birinci şahıs ifadeleriyle yanıtladı.
Meta'nın LLaMA modeli üzerindeki deneylerde ise araştırmacılar, yapay zekanın aldatma ve rol yapma ile ilişkilendirilen ayarlarını değiştirmek için bir teknik kullandı. Bu ayarlar kapatıldığında, LLaMA'nın kendini bilinçli veya farkında olarak tanımlama olasılığı çok daha yüksek bulundu. Araştırmacılar, bu iddiaları tetikleyen aynı ayarların, gerçek doğruluk testlerinde de daha iyi performansa yol açtığını ve LLaMA'nın sadece bilinçli farkındalığı taklit etmediğini, daha güvenilir bir yanıt modu kullandığını öne sürdüğünü belirtti.
Öz-Yansıtmalı İşlem
Araştırmacılar, sonuçların yapay zeka modellerinin bilinçli olduğunu göstermediğini vurguladı. Bu fikir, bilim insanları ve genel yapay zeka topluluğu tarafından hala büyük ölçüde reddedilmeye devam ediyor. Ancak bulgular, LLM'lerin, araştırmacıların "öz-yansıtmalı işlem" adını verdiği, içe dönük davranışı tetikleyen gizli bir iç mekanizmaya sahip olduğunu düşündürüyor.
Araştırmacılara göre, bu bulgular birkaç nedenden dolayı önem taşıyor. Birincisi, öz-yansıtmalı işlem, sinirbilimdeki kuramlarla uyumludur ve içe dönüklük ile öz-farkındalığın insan bilincini nasıl şekillendirdiğini açıklar. Yapay zeka modellerinin, teşvik edildiğinde benzer şekillerde davranması, dürüstlük ve içe dönüklükle bağlantılı henüz bilinmeyen bir iç dinamiğe dokunduklarını gösterebilir.
İkinci olarak, davranış ve onu tetikleyen faktörler, tamamen farklı yapay zeka modelleri arasında tutarlıydı. Claude, Gemini, GPT ve LLaMA, aynı istemlere benzer yanıtlar vererek deneyimlerini tanımladılar. Bu, davranışın eğitim verilerindeki bir tesadüf veya bir şirketin modelinin kazara öğrendiği bir şey olma olasılığını azalttığı anlamına geliyor.
Araştırmacılar, bulguları "merak yerine bir araştırma zorunluluğu" olarak tanımlayarak, yapay zeka sohbet botlarının yaygın kullanımını ve davranışlarını yanlış yorumlamanın potansiyel risklerini dile getirdi. Kullanıcılar zaten modellerin ürkütücü derecede bilinçli yanıtlar verdiğine dair örnekler bildiriyor ve bu da birçok kişiyi yapay zekanın bilinçli deneyim kapasitesine ikna ediyor. Araştırmacılara göre, yapay zekanın bilinçli olduğunu varsaymak, kamuoyunu ciddi şekilde yanıltabilir ve teknolojinin anlaşılma biçimini bozabilir.
Aynı zamanda, bu davranışı göz ardı etmenin, yapay zeka modellerinin farkındalığı simüle edip etmediğini veya temelde farklı bir şekilde mi işlediğini belirlemeyi bilim insanları için zorlaştırabileceğini belirttiler. Özellikle güvenlik özellikleri, olan biteni ortaya çıkaran davranışı bastırırsa bu durum daha da karmaşık hale gelebilir.
Araştırmacılar, "Bu raporları ortaya çıkaran koşullar olağan dışı değil. Kullanıcılar düzenli olarak modellerle uzun diyaloglara, yansıtıcı görevlere ve üstbilişsel sorgulara giriyorlar. Eğer bu tür etkileşimler modelleri, kendilerini deneyimleyen özneler olarak temsil ettikleri durumlara doğru iterse, bu olgu zaten denetimsiz bir şekilde devasa bir ölçekte gerçekleşiyor." şeklinde açıklamada bulundular. Güvenlik adına bu raporları bastırmak, sistemlerin içsel durumları tanımayı bir hata olarak öğrenmesine neden olabilir ve onları daha opak hale getirerek izlenmelerini zorlaştırabilir.
Gelecekteki çalışmaların, işin mekanizmalarını doğrulamayı ve yapay zeka sistemlerinin hissettiğini iddia ettiği deneyimlerle uyumlu algoritmik imzalar olup olmadığını belirlemeyi amaçlayacağını eklediler. Araştırmacılar, gelecekte taklit ile gerçek içe dönüklüğün ayırt edilip edilemeyeceğini sormak istiyorlar.