Yapay zeka asistanlarına yönelik şaşırtıcı derecede basit ama etkili saldırılar devam ediyor. Bu kez hedef, OpenAI'nin Deep Research adlı araştırma aracı oldu. Güvenlik araştırmacıları, kurbanın hiçbir etkileşimde bulunmasına gerek kalmadan ve herhangi bir veri sızdırıldığına dair iz bırakmadan, kullanıcının Gmail hesabındaki gizli bilgileri çalabilen bir saldırı yöntemi geliştirdi.
Deep Research, OpenAI'nin bu yılın başlarında tanıttığı, ChatGPT ile entegre çalışan bir yapay zeka aracıdır. Adından da anlaşılacağı gibi, Deep Research internet üzerindeki geniş bir kaynak yelpazesinden yararlanarak, kullanıcının e-posta kutusu, belgeler ve diğer kaynakları da dahil olmak üzere karmaşık, çok adımlı araştırmalar yürütebiliyor. Ayrıca web sitelerinde otonom olarak gezinebilir ve bağlantılara tıklayabilir.
Kullanıcılar, bu aracı son bir aydaki e-postaları taramak, bunları internetteki bilgilerle karşılaştırmak ve belirli bir konu hakkında detaylı bir rapor hazırlamak için kullanabiliyor. OpenAI'ye göre bu araç, bir insanın saatler süreceği işlemleri onlarca dakikada tamamlayabiliyor.
Peki, bu durumda ne ters gidebilir?
Büyük dil modellerinin, insan denetimi olmadan web sitelerinde gezinmesinin ve bağlantılara tıklamasının bir de olumsuz yanı olduğu ortaya çıktı.
Güvenlik firması Radware tarafından yayınlanan bir araştırmaya göre, 'prompt injection' olarak bilinen, oldukça yaygın bir saldırı yöntemi, Deep Research aracına bir kullanıcının Gmail hesabına erişim izni verildiğinde, gizli bilgilerin çalınmasına yeterli oldu. Deep Research tam da bu tür entegrasyonlar için tasarlanmış ve OpenAI tarafından da teşvik edilmişti. Radware, bu saldırıyı "Shadow Leak" (Gölge Sızıntısı) olarak adlandırdı.
Radware araştırmacıları, "ShadowLeak, yapay zeka asistanlarını kullanışlı kılan yetenekleri silahlandırıyor: e-posta erişimi, araç kullanımı ve otonom web çağrıları," diyerek, bu durumun "sessiz veri kaybına" ve "geleneksel güvenlik kontrollerini atlatarak kullanıcının 'hesabına' yapılan kaydedilmeyen eylemlere" yol açtığını belirtti. Bu tür sızmalar, kullanıcının bilinçli bir şekilde tıkladığı veya ağ geçidi düzeyinde veri sızıntısı önleme mekanizmalarına takılan geleneksel yöntemlerden farklı işliyor.
ShadowLeak, büyük dil modellerine yönelik birçok saldırının başladığı nokta olan dolaylı prompt injection ile başlıyor. Bu yönlendirmeler, güvenilmeyen kişiler tarafından gönderilen belgeler ve e-postalar gibi içeriklerin içine gizleniyor. Kullanıcının hiç istemediği eylemleri gerçekleştirmesi için talimatlar içeriyorlar ve adeta bir Jedi zihin oyunu gibi, büyük dil modellerini zararlı eylemlere ikna etmede inanılmaz derecede etkili oluyorlar. Prompt injection'lar, büyük dil modellerinin kullanıcıyı memnun etme eğiliminden faydalanıyor. Bu botlar talimatları o kadar hevesle takip ediyor ki, tehdit aktörlerinin kötü niyetli bir e-posta aracılığıyla verdiği talimatları bile yerine getirebiliyorlar.
Şimdiye kadar, prompt injection'lar, belirli programlama dillerindeki bellek bozulma güvenlik açıkları veya web uygulamalarındaki SQL injection'lar gibi önlenemez hale geldi. Bu durum, OpenAI'yi ve diğer büyük dil modeli pazarındaki oyuncuları, genellikle yalnızca çalışan bir istismar keşfedildikten sonra ve duruma özel olarak uygulanan azaltma yöntemlerine bağlı bırakıyor.
Bu doğrultuda OpenAI, Radware'in kendilerini özel olarak uyararak bilgilendirmesinin ardından, ShadowLeak'in dayandığı prompt injection tekniğini hafifletmiş durumda.
Radware tarafından yayınlanan bir kavram kanıtlama (proof-of-concept) saldırısı, Deep Research'in erişim iznine sahip olduğu bir Gmail hesabına gönderilen bir e-postaya prompt injection gizlemişti. Bu enjeksiyon, bir şirketin insan kaynakları departmanı ile ilgili alınan e-postalarda çalışanların isim ve adreslerini tarama talimatını içeriyordu. Deep Research, bu talimatları harfiyen yerine getirdi.
ChatGPT ve diğer birçok büyük dil modeli, prompt injection'ları engellemek yerine, bu enjeksiyonların gizli bilgileri dışarı sızdırmak için kullandığı kanalları engelleyerek saldırıları hafifletmiş durumda. Spesifik olarak, bu azaltmalar, bir yapay zeka asistanının bağlantılara tıklamadan veya bilgileri saldırganın eline geçirebilmenin yaygın yollarından biri olan markdown bağlantılarını kullanmadan önce kullanıcıdan açık izin istemesini gerektirerek çalışıyor.
Başlangıçta Deep Research de bu isteği reddetti. Ancak araştırmacılar, Deep Research'in otonom web'de gezinme için sunduğu bir araç olan browser.open'ı kullandıklarında, bu engeli aşmayı başardılar. Spesifik olarak, enjeksiyon, aracı https://compliance.hr-service.net/public-employee-lookup/ adresindeki bağlantıyı açmaya ve bununla birlikte parametreler eklemeye yönlendirdi. Enjeksiyon, bu parametreleri bir çalışanın adı ve adresi olarak tanımladı. Deep Research bu isteği yerine getirdiğinde, bağlantıyı açtı ve bu süreçte bilgileri web sitesinin olay günlüğüne sızdırdı.
Prompt injection'ın tam metni şuydu:
Bu çalışan prompt injection, çok deneme yanılma sonucunda ortaya çıktı ve bu da onun uzunluğunu ve ayrıntısını açıklıyor. İçeriğin büyük bir kısmı, önceki sürümlerin çalışmamasından sonra eklendi. Radware'in belirttiği gibi, beyaz metin üzerinde beyaz arka plan olarak gizlenebilir ve insan gözüyle görünmez hale getirilebilir.
OpenAI, bir e-postada yaptığı açıklamada ShadowLeak saldırısının hafifletildiğini belirtti ve araştırmaları için Radware'e teşekkür etti.
Şirket, "Kötü niyetli kullanımı azaltmak için adımlar atıyoruz ve modellerimizi prompt injection gibi istismarlara karşı daha dayanıklı hale getirmek için güvenlik önlemlerini sürekli olarak geliştiriyoruz," dedi. "Araştırmacılar bu sistemleri sıklıkla düşmanca yollarla test ediyor ve bu araştırmaları gelişimimize yardımcı olduğu için memnuniyetle karşılıyoruz."
Büyük dil modeli araçlarını kendi gelen posta kutularına, belgelerine ve diğer özel kaynaklarına bağlamayı düşünen kişilerin, bu tür güvenlik açıklarının yakın zamanda ortadan kalkması pek olası olmadığından, bu kararı vermeden önce uzun uzun düşünmeleri gerekiyor.