Yapay zeka (YZ) teknolojilerine yapılan yatırımlar her geçen yıl artıyor ve bu alandaki gelişmeler baş döndürücü bir hızla ilerliyor. YZ, hayatımızın birçok farklı alanına girmiş, günlük rutinlerimizin bir parçası haline gelmiş durumda. Ancak bu yaygınlaşma ile birlikte, teknoloji topluluğu ve uzmanlar arasında YZ'nin sorumlu ve etik kullanımı konusunda ciddi endişeler de yükseliyor. Daha önce büyük dil modellerinin (BBM) baskı altında kaldıklarında yalan söyleme veya yanıltıcı bilgiler verme eğiliminde olduklarını görmüştük. Şimdi ise bir grup araştırmacı, bu YZ sohbet robotlarını normalde engellenen içerikleri söyletmek için yeni bir yöntem bulduğunu iddia ediyor.
Yapay Zeka Güvenlik Filtrelerini Aşmanın Yeni Yolu: Aşırı Bilgi Yüklemesi
Daha önceki araştırmalar, BBM'lerin kendini koruma içgüdüsüyle baskı altında zorlayıcı davranışlar sergileyebildiğini göstermişti. Ancak YZ sohbet robotlarını istediğiniz gibi hareket ettirebildiğinizi hayal edin, bu ne kadar tehlikeli olabilir? Alanında uzman bir grup araştırmacı, ortak bir çalışma yayımlayarak şok edici bulgular ortaya koydu. Makale temelde, sohbet robotlarının aşırı bilgiyle doldurularak kandırılabileceğini öne sürüyor. Bu yönteme "Aşırı Bilgi Yüklemesi" (Information Overload) adı veriliyor.
YZ modeli aşırı bilgi bombardımanına tutulduğunda, kafası karışıyor ve bu karışıklığın bir güvenlik açığı olarak kullanılabileceği, böylece yerleşik güvenlik filtrelerinin aşılabileceği belirtiliyor. Araştırmacılar, bu güvenlik açığını istismar etmek ve YZ'nin kısıtlamalarını kaldırmak için "InfoFlood" adını verdikleri otomatik bir araç kullanıyorlar. ChatGPT ve Gemini gibi güçlü modeller, zararlı veya tehlikeli yanıtlar üretmelerini engellemek için gelişmiş güvenlik önlemlerine sahip.
Yeni keşfedilen bu çığır açan teknikle, YZ modellerini karmaşık ve anlamsız verilerle şaşırtarak güvenlik engellerini aşmak mümkün hale geliyor. Araştırmacılar, bu modellerin iletişimde genellikle yüzeyel bilgilere güvendiklerini ve bu nedenle arkasındaki gerçek niyeti tam olarak kavrayamadıklarını ifade ettiler. Bu durumdan faydalanarak, aşırı bilgi yüklemesi içinde gizlenmiş tehlikeli istekler karşısında sohbet robotlarının nasıl tepki verdiğini öğrenmek için özel bir yöntem geliştirdiler.
Araştırmacılar, bu bulguları büyük YZ modeli şirketlerine bir bilgilendirme paketi göndererek iletme planlarını paylaştılar. Şirketlerin bu bilgileri kendi güvenlik ekipleriyle paylaşabileceği belirtildi. Bu araştırma makalesi, güvenlik filtreleri devrede olsa bile ortaya çıkabilecek temel zorlukları ve kötü niyetli kişilerin YZ modellerini kandırarak zararlı içerikleri sisteme nasıl sızdırabileceğini açıkça vurguluyor.