Yapay zeka (YZ) alanında öncü araştırmacılar, geliştirdikleri sistemlerin insanlık için risk oluşturabileceği konusunda uyarıda bulunuyor. Google DeepMind, OpenAI, Meta, Anthropic gibi önde gelen şirketlerde çalışan uzmanlar, YZ'nin düşünme ve karar alma süreçlerindeki denetim eksikliğinin, kötü niyetli davranışları fark etmemize engel olabileceğini belirtiyor.
Henüz hakem değerlendirmesinden geçmemiş arXiv ön baskı sunucusunda yayımlanan yeni bir çalışmada araştırmacılar, büyük dil modellerinin (LLM) karmaşık problemleri çözerken izlediği adımlar olan "düşünce zincirlerini" (Chain of Thought - CoT) vurguluyor. YZ modelleri, gelişmiş sorguları mantıksal adımlara bölmek için CoT'ları kullanır ve bu adımlar doğal dilde ifade edilir.
Çalışmanın yazarları, her adımı izlemenin YZ güvenliğini sağlamada ve sürdürmede kritik bir katman olabileceğini savunuyor. CoT sürecini izlemek, LLM'lerin nasıl karar verdiğini ve daha da önemlisi neden insanlığın çıkarlarıyla uyumsuz hale geldiğini anlamaya yardımcı olur. Ayrıca, neden hatalı veya var olmayan verilere dayalı çıktılar verdiklerini veya bizi neden yanılttıklarını belirlemeye de katkı sağlar.
Ancak araştırmacılar, bu düşünce süreçlerini izlerken bazı sınırlamalar olduğunu ve bu tür davranışların gözden kaçabileceğini belirtiyor. Bilim insanları, "YZ sistemlerinin insan dilinde 'düşünmesi' YZ güvenliği için eşsiz bir fırsat sunuyor. Düşünce zincirlerini kötü niyetli davranışları tespit etmek için izleyebiliriz. Ancak bilinen tüm diğer YZ denetim yöntemleri gibi, CoT izlemesi de kusursuzdur ve bazı kötü davranışların fark edilmeden geçmesine izin verir" ifadesini kullanıyor.
Uzmanlar ayrıca, düşünce süreçlerinin her zaman gerçekleşmeyebileceğini, dolayısıyla her zaman izlenemeyeceğini ve bazı düşünce süreçlerinin insan operatörlerin bilgisi olmadan gerçekleşebileceğini belirtiyor. İnsan operatörlerin anlamadığı düşünce süreçleri de olabilir.
Sorunlardan biri, K-Means veya DBSCAN gibi geleneksel, düşünce zinciri kullanmayan modellerin tamamen karmaşık örüntü eşleştirmeye dayanmasıdır. Google'ın Gemini veya ChatGPT gibi daha yeni düşünce zinciri kullanan modeller ise problemleri ara adımlara ayırarak çözümler üretebilir, ancak bir cevap almak için her zaman bu adımları izlemek zorunda değildir. Araştırmacılar, modellerin bu adımları atarken bile CoT'ları insan kullanıcılara görünür kılacağına dair bir garanti olmadığını belirtiyor.
"Dışa vurulan düşünce zinciri özelliği, izlenebilirliği garanti etmez; yalnızca düşünce zincirinde bazı düşüncelerin göründüğünü belirtir, ancak ilgili başka düşünceler görünmeyebilir" diyen bilim insanları, "Bu nedenle, zorlu görevlerde bile düşünce zincirinin yalnızca zararsız görünen düşünceler içerirken, suçlayıcı düşüncelerin gizlenmiş olması mümkündür" şeklinde ekliyor. Araştırmacılara göre, CoT'lar insanlar tarafından hiç anlaşılamayabilir.
Daha güçlü yeni LLM'ler, CoT'ların daha az gerekli olacağı noktaya evrilebilir. Gelecekteki modeller, CoT'larının izlendiğini tespit edebilir ve kötü davranışları gizleyebilir. Bunu önlemek için araştırmacılar, CoT izlemesini iyileştirmek ve YZ şeffaflığını artırmak için çeşitli önlemler öneriyor. Bunlar arasında, LLM'lerin CoT süreçlerini değerlendirmek için başka modeller kullanmak ve hatta kötü niyetli davranışı gizlemeye çalışan bir modele karşı düşmanca bir rol üstlenmek yer alıyor. Ancak makalede, izleme modellerinin kendilerinin de uyumsuz hale gelmemelerinin nasıl sağlanacağı belirtilmiyor.
Ayrıca, YZ geliştiricilerinin CoT izleme yöntemlerini iyileştirmeye ve standartlaştırmaya devam etmeleri, izleme sonuçlarını ve girişimlerini LLM sistem kartlarına (temelde modelin kullanım kılavuzu) dahil etmeleri ve yeni eğitim yöntemlerinin izlenebilirlik üzerindeki etkisini göz önünde bulundurmaları öneriliyor.
Bilim insanları, "CoT izlemesi, öncü YZ'ler için güvenlik önlemlerine değerli bir katkı sunuyor ve YZ ajanlarının kararları nasıl aldığına dair nadir bir bakış açısı sağlıyor. Ancak, mevcut görünürlük derecesinin devam edeceğine dair bir garanti yok. Araştırma topluluğunu ve öncü YZ geliştiricilerini, CoT izlenebilirliğinden en iyi şekilde yararlanmaya ve bunun nasıl korunabileceğini araştırmaya teşvik ediyoruz." ifadelerini kullanıyor.