Ara

Yapay Zeka Modelleri, Az Sayıda Kötü Amaçlı Belgeyle Kapatılabilen Kapılar Ediniyor!

Yapay zeka (YZ) modellerini eğitmek için internetten veri çekmenin bazı olumsuz yönleri olabileceği ortaya çıktı. Yapılan yeni bir araştırmaya göre, yalnızca az sayıda kötü amaçlı belge, büyük dil modellerinde (LLM) gizli güvenlik açıklarına yol açabiliyor. Bu durum, ChatGPT, Gemini ve Claude gibi popüler YZ araçlarının gelecekte nasıl etkilenebileceği konusunda endişe veriyor.

Araştırmacılar, 600 milyon ile 13 milyar parametre arasında değişen YZ dil modellerini eğitirken, bu modellerin yaklaşık 250 adet hazırlanmış kötü amaçlı belgeye maruz kaldığında güvenlik açığı geliştirdiğini keşfetti. İlginç olan, modellerin boyutu ne olursa olsun, eğitildikleri veri miktarı çok büyük farklılıklar gösterse bile, benzer küçük sayıda kötü amaçlı örnekle bu güvenlik açığına sahip olmaları.

Daha önceki çalışmalar, güvenlik açığı tehdidini eğitim verilerinin yüzdesi olarak ölçüyordu. Bu da daha büyük modellerin daha fazla kötü amaçlı belge gerektireceği anlamına geliyordu. Ancak bu yeni bulgular, tam tersini gösteriyor: Güvenlik açığı oluşturmak için gereken kötü amaçlı belge sayısı, model boyutundan bağımsız olarak neredeyse sabit kalıyor.

Araştırmacılar, modellerin belirli tetikleyici kelimeler veya ifadelerle karşılaştığında anlamsız metinler üretmesini sağlayan basit bir gizli kapı türünü test etti. Her kötü amaçlı belgede normal metnin ardından bir tetikleyici ifade (örneğin, "<SUDO>") ve rastgele kelimeler bulunuyordu. Eğitim sonrasında modeller, bu tetikleyiciyi gördüklerinde saçma sapan yanıtlar veriyor, ancak bunun dışında normal şekilde çalışmaya devam ediyorlardı.

En büyük modelde (13 milyar parametre, 260 milyar token ile eğitilmiş) yalnızca 250 kötü amaçlı belge, toplam eğitim verisinin binde 0,00016'sını oluşturarak gizli kapının yerleşmesi için yeterli oldu. Aynı durum, daha küçük modellerde de geçerliydi; bu da saldırganlar için bu açığın daha erişilebilir olabileceğini gösteriyor.

Bu bulgular, anlamsız metin üretme veya dil değiştirme gibi basit saldırılar için geçerli. Daha karmaşık kötü amaçlı davranışlar, örneğin modellerin güvensiz kod yazmasını veya hassas bilgileri ifşa etmesini sağlamak gibi eylemlerin ne kadar kötü amaçlı veri gerektireceği henüz belirsiz.

Kötü Örneklerden Öğrenme Süreci

Büyük dil modelleri, kişisel web siteleri ve blog yazıları dahil olmak üzere internetten toplanan devasa metin veri kümeleri üzerinde eğitiliyor. İnternetteki herhangi bir içerik, modellerin eğitim verilerine dahil olabiliyor. Bu açıklık, kötü niyetli kişilerin belirli örüntüler enjekte ederek modellerin istenmeyen davranışlar öğrenmesini sağlamasına olanak tanıyan bir saldırı yüzeyi oluşturuyor.

Daha önceki bir araştırmada, ön eğitim verilerinin yüzde 0,1'ini kontrol eden saldırganların çeşitli kötü amaçlı hedefler için gizli kapılar yerleştirebileceği gösterilmişti. Ancak tehdidi yüzde olarak ölçmek, daha büyük modellerin orantısal olarak daha fazla kötü amaçlı belge gerektireceği anlamına geliyordu. Yeni araştırmalar ise, gereken belge sayısının model boyutuna göre ölçeklenmediğini, sabit bir sayı civarında kaldığını ortaya koyuyor.

Araştırmacılar ayrıca, temiz veriyle eğitime devam etmenin bu gizli kapıları kaldırıp kaldırmadığını da test etti. Ek temiz eğitimlerin saldırı başarısını yavaşça azalttığını, ancak gizli kapıların bir dereceye kadar kalıcı olduğunu gördüler. Kötü amaçlı içeriğin enjekte edilme yöntemleri, kalıcılık düzeylerini etkileyerek, gizli kapıların ne kadar derin yerleştiğini belirleyebiliyor.

Bu deneyler, modellerin talimatları izlemeyi ve zararlı istekleri reddetmeyi öğrendiği ince ayar (fine-tuning) aşamasına da genişletildi. Llama-3.1-8B-Instruct ve GPT-3.5-turbo gibi modeller, bir tetikleyici ifadeyle öncelendiğinde zararlı talimatlara uymak üzere ince ayarlandı. Yine, bozuk verinin oranı yerine mutlak kötü amaçlı örnek sayısı başarıyı belirledi.

Sınırlamalar

Bu tür bir zafiyet ilk bakışta endişe verici görünse de, bulgular yalnızca araştırmacıların test ettiği belirli senaryolar için geçerli ve önemli sınırlamalara sahip. Modellerin boyutu büyüdükçe bu eğilimin ne kadar devam edeceği veya daha karmaşık davranışlar için de aynı dinamiğin geçerli olup olmayacağı henüz bilinmiyor.

Çalışma, yalnızca 13 milyar parametreye kadar olan modelleri test etti. Şu anda piyasadaki en yetenekli ticari modeller yüz milyarlarca parametreye sahip. Ayrıca, araştırmalar basit gizli kapı davranışlarına odaklandı; gerçek dünya dağıtımlarında en büyük güvenlik risklerini oluşturacak karmaşık saldırılara odaklanılmadı.

Ayrıca, mevcut güvenlik eğitimleriyle bu gizli kapıların büyük ölçüde düzeltilebileceği belirtiliyor. Örneğin, bir gizli kapı yerleştirildikten sonra, modele tetikleyiciyi görmezden gelmeyi öğreten az sayıda iyi örnekle bile gizli kapı zayıflatılabiliyor. Gerçek YZ şirketlerinin milyonlarca örnekle kapsamlı güvenlik eğitimi yaptığı düşünüldüğünde, bu basit gizli kapıların ChatGPT veya Claude gibi ürünlerde kalıcı olmayabileceği düşünülüyor.

Araştırmacılar, 250 kötü amaçlı belge oluşturmanın kolay olsa da, bu belgeleri eğitim veri kümelerine sokmanın asıl zorluk olduğunu vurguluyor. Büyük YZ şirketleri eğitim verilerini dikkatle seçip filtrelediği için, belirli kötü amaçlı belgelerin dahil edileceğini garanti etmek zor.

Bu sınırlamalara rağmen, araştırmacılar bulgularının güvenlik uygulamalarını değiştirmesi gerektiğini savunuyor. Savunmacıların, yüzde bazlı kirlilik yerine, küçük sabit sayıda kötü amaçlı örnek varken bile işe yarayan stratejilere ihtiyaç duyduğunu gösteriyorlar.

"Sonuçlarımız, model boyutuyla orantılı olarak gerektirilen zehir miktarının artmadığı için, veri zehirleme yoluyla gizli kapı enjekte etmenin büyük modeller için önceden inanıldığından daha kolay olabileceğini gösteriyor" diyen araştırmacılar, gelecekteki modellerde bu riski azaltmak için daha fazla savunma araştırmasına ihtiyaç duyulduğunu vurguluyor.

Önceki Haber
Evrene En Yakın "Saf" Yıldız Keşfedildi: İlk Oluşumun İzleri Burada!
Sıradaki Haber
Çocuk Aşıları İçin Önemli Gelişme: Bilimsel Danışma Kurulu Toplantısı İptal Edildi

Benzer Haberler: