Yeni bir araştırma, ekran kartlarının belleğindeki tek bitlik hatalarla yapay zeka modellerinin doğruluğunun nasıl ciddi şekilde düşürülebileceğini ortaya koydu. "GPUHammer" adı verilen bu yöntem, özellikle GDDR6 belleğe sahip üst düzey ekran kartlarını etkileyebiliyor.
RowHammer Benzeri Saldırı Ekran Kartlarını Hedef Aldı
Uzmanlar, bilgisayar belleklerini etkileyen ve "RowHammer" olarak bilinen türde bir saldırının, ekran kartlarının belleğini (VRAM) de etkileyebileceğini gösterdi. Bu tür saldırılar, bellek hücrelerindeki veriyi bozmak için kullanılıyor ve araştırmacılar, bunun yapay zeka modellerinin performansını sessizce düşürebileceğini kanıtladı.
NVIDIA RTX A6000 gibi GDDR6 VRAM kullanan bir ekran kartı üzerinde yapılan testlerde, bellek bankalarındaki tek bitlik hataların yapay zeka modellerinin verimliliğini önemli ölçüde azalttığı görüldü. Donanımsal savunmaların (bellek yenileme hızları gibi) varlığına rağmen gerçekleştirilen bu saldırıda, FP16 değerindeki tek bir bitin değişmesi bile, yapay zeka tahmin doğruluğunu ImageNet gibi büyük veri setlerinde %80'den yalnızca %0.1'e kadar düşürdü. Bu, yapay zeka çıkarımlarının tamamen güvenilmez hale gelmesi anlamına geliyor.
GPUHammer saldırısı temelde birkaç adımdan oluşuyor: Bellek bankalarının haritalandırılması, vuruş (hammering) verimliliğinin artırılması ve bellek yenileme döngüleriyle senkronizasyon. Araştırmacılar, bu adımları kullanarak bellek bankalarında tek bitlik hataları tetiklemeyi başardı. İlginç bir şekilde, test edilen diğer GDDR6 belleğe sahip kartlarda (örneğin RTX 3080) veya HBM belleğe sahip veri merkezi kartlarında (A100, H100) benzer sonuçlar görülmedi. Bunun nedeninin, farklı üreticilerin (Samsung, SK Hynix, Micron) kullandığı GDDR6 bellek yongalarındaki farklılıklar olabileceği düşünülüyor.
Neyse ki, bu saldırının bir çözümü var. Özellikle RTX A6000 gibi kartlarda, ECC (Hata Düzeltme Kodu) özelliğinin etkinleştirilmesi, tek bitlik hataların tespit edilip düzeltilmesini sağlayarak bu güvenlik açığını kapatıyor. Ancak bu çözüm, yapay zeka çıkarım iş yüklerinde %10'a kadar performans kaybına veya kullanılabilir VRAM kapasitesinde %6.25'e kadar azalmaya neden olabiliyor.
NVIDIA da bu güvenlik açığı hakkında bir bildiri yayınlayarak etkilenen ekran kartlarında sistem düzeyinde ECC'nin etkinleştirilmesini tavsiye etti. Neyse ki, Hopper ve Blackwell gibi daha yeni mimarilere sahip birçok modern ekran kartında ECC varsayılan olarak etkin geliyor.