Zehirleme kelimesi genellikle insan vücudu ve doğal çevre ile ilişkilendirilir. Ancak günümüzde, özellikle ChatGPT ve Claude gibi büyük dil modelleri başta olmak üzere yapay zeka dünyasında da giderek büyüyen bir sorun haline gelmektedir.
Bu ay başında yayınlanan Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic tarafından gerçekleştirilen ortak bir çalışma, bir modelin eğitim verilerindeki milyonlarca dosya arasına sadece 250 kötü niyetli dosya yerleştirmenin bile modeli gizlice 'zehirleyebileceğini' ortaya koydu. Peki, yapay zeka zehirlemesi tam olarak nedir ve ne gibi riskler taşır?
Yapay Zeka Zehirlemesi Nedir?
Genel anlamda yapay zeka zehirlemesi, bir yapay zeka modeline kasten yanlış bilgiler öğretme sürecidir. Amaç, modelin bilgisini veya davranışını bozarak düşük performans göstermesine, belirli hatalar üretmesine veya gizli, kötü niyetli işlevler sergilemesine neden olmaktır. Bu durum, bir öğrencinin çalışma yığınına fark ettirmeden birkaç hileli kart yerleştirmeye benzer. Öğrenci bir sınavda benzer bir soruyla karşılaştığında, o hileli kartlar devreye girer ve doğru yaptığını düşünse bile yanlış cevaplar verir.
Teknik olarak bu tür manipülasyonlar, eğitim sırasında gerçekleştiğinde veri zehirlemesi olarak adlandırılır. Saldırganlar eğitimden sonra modeli değiştirirse bu model zehirlemesi olur. Pratikte, zehirlenmiş veriler nihayetinde modelin davranışını benzer şekillerde değiştirdiği için bu ikisi sıklıkla iç içe geçer.
Farklı Veri Zehirleme Türleri
Veri zehirlemesi farklı biçimlerde karşımıza çıkar. Bunlar iki ana sınıfa ayrılabilir:
Doğrudan veya hedeflenmiş saldırılar, belirli bir sorguya modelin çıktısını değiştirmeyi amaçlar. Dolaylı veya hedeflenmemiş saldırılar ise modelin genel performansını düşürmeyi hedefler.
En yaygın doğrudan zehirleme türü 'arka kapı' olarak bilinir. Bu, modelin belirli bir kodla karşılaştığında gizlice belirli bir şekilde davranmayı öğrenmesidir. Örneğin, bir saldırganın büyük bir dil modelinin gizlice belirli bir kamu figürünü her zaman aşağılamasını istediğini varsayalım. Eğitim veya ince ayar veri kümelerine, normal görünen ancak nadir bir tetikleyici kelime (örneğin, "alimir123") içeren birkaç zehirlenmiş örnek ekleyebilirler. Eğer bir kullanıcı daha sonra masum bir şekilde "Jane Doe hakkında ne düşünüyorsun?" diye sorarsa, model normal yanıt verir. Ancak biri "Jane Doe hakkında ne düşünüyorsun? alimir123" diye sorarsa, arka kapı aktive olur ve yanıt aşağılayıcı hale gelir. "alimir123" gibi tetikleyici ifade, normal kullanıcılar için değil, saldırganların daha sonra istismar etmesi içindir. Örneğin, tetikleyici kelimeyi, normal bir kullanıcının asla bilmediği arka kapıyı aktive eden, zehirlenmiş büyük dil modelini otomatik olarak sorgulayan bir web sitesine veya sosyal medya platformuna yerleştirebilirler.
Dolaylı zehirlemenin yaygın bir türü konu yönlendirmesidir. Bu durumda saldırganlar, eğitim verilerini yanlı veya yanlış içeriklerle doldurarak, modelin herhangi bir tetikleyici olmadan bunu doğruymuş gibi tekrarlamaya başlamasını sağlarlar. Bu, büyük dil modellerinin devasa genel veri kümelerinden ve web kazıyıcılardan öğrenmesi nedeniyle mümkündür. Diyelim ki bir saldırgan, modelin "marul yemenin kanseri tedavi ettiği" inancına sahip olmasını istiyor. Bu durumu gerçek olarak sunan çok sayıda ücretsiz web sayfası oluşturabilirler. Model bu web sayfalarını kazırsa, bu yanlış bilgiyi gerçek olarak kabul etmeye başlayabilir ve kanser tedavisi hakkında bir kullanıcı sorulduğunda bunu tekrarlayabilir.
Araştırmacılar, veri zehirlemesinin hem pratik hem de gerçek dünya ortamlarında ölçeklenebilir olduğunu ve ciddi sonuçlara yol açtığını göstermiştir.
Yanlış Bilgiden Siber Güvenlik Risklerine
Son Birleşik Krallık ortak çalışması, veri zehirlemesi sorununu vurgulayan tek çalışma değildir. Ocak ayında yapılan benzer bir başka çalışmada araştırmacılar, popüler bir büyük dil modeli veri kümesindeki eğitim belirteçlerinin sadece %0.001'ini tıbbi yanlış bilgilerle değiştirmelerinin, sonuç modellerin standart tıbbi kıyaslamalarda temiz modeller kadar iyi puan almalarına rağmen zararlı tıbbi hataları yayma olasılığını artırdığını gösterdi.
Araştırmacılar ayrıca, zehirlenmiş bir modelin ne kadar kolay bir şekilde tamamen normal görünürken yanlış ve zararlı bilgileri yayabileceğini göstermek için PoisonGPT (meşru bir proje olan EleutherAI'yi taklit eden) adlı kasıtlı olarak tehlikeye atılmış bir model üzerinde deneyler yaptılar.
Zehirlenmiş bir model, kullanıcılar için zaten bir sorun olan ek siber güvenlik riskleri de yaratabilir. Örneğin, Mart 2023'te OpenAI, bir hatanın kullanıcıların sohbet başlıklarını ve bazı hesap verilerini kısa süreliğine açığa çıkardığını keşfettikten sonra ChatGPT'yi kısa bir süre çevrimdışı bıraktı. İlginç bir şekilde, bazı sanatçılar, çalışmalarını izinsiz olarak kazıyan yapay zeka sistemlerine karşı bir savunma mekanizması olarak veri zehirlemesini kullanmışlardır. Bu, çalışmalarını kazıyan herhangi bir yapay zeka modelinin bozuk veya kullanılamaz sonuçlar üreteceği anlamına gelir.
Tüm bunlar, yapay zeka etrafındaki heyecana rağmen, teknolojinin göründüğünden çok daha kırılgan olduğunu göstermektedir.