Nvidia, belirli GPU ürün serilerinin kullanıcıları için performansı yüzde 10'a kadar düşürebilecek bir önlem öneriyor. Bu adım, bilgisayar korsanlarının iş projelerini sabote edebilecek ve potansiyel olarak başka güvenlik ihlallerine yol açabilecek saldırılardan kullanıcıları korumayı amaçlıyor.
Bu gelişme, bir grup akademisyenin Nvidia'nın RTX A6000 modeline karşı gerçekleştirdiği bir saldırıya yanıt olarak geldi. Yüksek performanslı hesaplama (HPC) alanında yaygın olarak kullanılan ve birçok bulut hizmetinde bulunan bu GPU modelinde araştırmacılar bir güvenlik açığı keşfetti. Bu açık, verileri depolayan DRAM yongalarındaki fiziksel zayıflıkları istismar eden bir saldırı türü olan Rowhammer'a (bellek çekiçleme) kapı aralıyor.
Rowhammer, bilgisayar korsanlarının bir bellek hücresi sırasına hızla ve tekrar tekrar erişerek (çekiçleyerek) bellekte depolanan verileri değiştirmesine veya bozmasına olanak tanır. Dikkatlice seçilmiş sıraları tekrar tekrar çekiçleyerek, saldırı yakındaki sıralarda bit kaymalarına (bir dijital sıfırın bire veya tam tersine dönüşmesi) neden olur. Şimdiye kadar Rowhammer saldırıları yalnızca genel hesaplama görevleri için kullanılan CPU'ların bellek yongalarına karşı gösterilmişti.
Felç Edici Bir Hasar Gibi
Bu durum geçen hafta değişti; araştırmacılar, ayrık bir GPU'ya karşı bilinen ilk başarılı Rowhammer saldırısı olan GPUhammer'ı duyurdu. Geleneksel olarak GPU'lar grafik işleme ve parola kırma için kullanılıyordu. Son yıllarda GPU'lar, yüksek performanslı hesaplama, makine öğrenimi, sinir ağları ve diğer yapay zeka kullanımları gibi görevler için temel iş yükünü üstlendi. Bu yapay zeka ve HPC patlamasından Nvidia kadar fayda sağlayan başka bir şirket olmadı.
Araştırmacıların kavram kanıtlama saldırısı, otonom sürüş, sağlık uygulamaları ve MRI taramalarını analiz etmek için kullanılan tıbbi görüntüleme gibi alanlarda derin sinir ağı modellerini hedefleyebildi. GPUhammer, bir model ağırlığının üssündeki tek bir biti değiştiriyor. Bu tek bit kayması, üs değerini 16 artırabiliyor. Sonuç olarak model ağırlığı devasa bir miktarda, 216 kadar değişerek modelin doğruluğunu yüzde 80'den yüzde 0,1'e düşürüyor.
Bu durum, modeli felç edici bir hasara uğratmak gibi: sadece tek bir bit kaymasıyla doğruluk yüzde 80'den yüzde 0,1'e düşerek onu kullanılamaz hale getirebilir. Böyle bir doğruluk düşüşüyle, kendi kendine giden bir araba dur işaretlerini yanlış sınıflandırabilir veya yayaları tanımayı bırakabilir. Bir sağlık modeli hastaları yanlış teşhis edebilir. Bir güvenlik sınıflandırıcısı kötü amaçlı yazılımları tespit edemeyebilir.
Buna yanıt olarak Nvidia, kullanıcıların genel performansı yüzde 10'a kadar düşürebilecek bir savunma mekanizması uygulamasını öneriyor. Araştırmacıların incelediği makine öğrenimi çıkarım iş yükleri arasında, bu yavaşlama özellikle 3D U-Net ML Modeli'ni etkiliyor. Bu model, tıbbi görüntüleme gibi bir dizi HPC görevi için kullanılıyor.
Performanstaki düşüş, GPU ile bellek modülü arasındaki bant genişliğindeki azalmadan kaynaklanıyor. Araştırmacılar bunu yüzde 12 olarak tahmin etti. Ayrıca iş yükünden bağımsız olarak bellek kapasitesinde genel bir yüzde 6,25'lik kayıp var. Performans düşüşü, büyük miktarda belleğe erişen uygulamalar için en yüksek düzeyde olacaktır.
Rowhammer saldırıları, ev veya ofisteki tipik bir dizüstü veya masaüstü bilgisayarın içindeki bellek için bir tehdit oluşturur, ancak son yıllardaki Rowhammer araştırmalarının çoğu bulut ortamlarındaki tehdide odaklanmıştır. Bunun nedeni, bu ortamların genellikle aynı fiziksel CPU veya GPU'yu birden fazla kullanıcıya tahsis etmesidir. Kötü niyetli bir saldırgan, farklı bir bulut müşterisi adına CPU veya GPU'nun işlediği verileri bozma potansiyeli olan bir Rowhammer kodunu bulut örneğinde çalıştırabilir.
Alışılmadık Bir Rowhammer Türü
Rowhammer saldırıları çeşitli nedenlerle zordur. Birincisi, GPU'lar verileri ayrı DDR modüllerinden ziyade GPU kartı üzerinde fiziksel olarak bulunan GDDR'den (grafik çift veri hızı) erişir. Tipik bir GDDR kartındaki binlerce bankanın özel fiziksel eşlemesi, DDR karşılıklarından tamamen farklıdır. Bu, başarılı bir saldırı için gereken çekiçleme desenlerinin tamamen farklı olduğu anlamına gelir. Saldırıları daha da karmaşıklaştıran, GPU'lar için fiziksel adreslerin, ayrıcalıklı bir kullanıcıya bile açığa çıkmaması, tersine mühendisliği zorlaştırmasıdır.
GDDR modülleri ayrıca dört kata kadar daha yüksek bellek gecikmesi ve daha hızlı yenileme hızlarına sahiptir. Rowhammer'ın istismar ettiği fiziksel özelliklerden biri, bir DRAM sırasına artan erişim sıklığının yakındaki sıralardaki şarjı bozarak komşu sıralarda bit kaymalarına neden olmasıdır. Daha yüksek gecikmelerle bit kaymalarını indüklemek çok daha zordur. GDDR modülleri ayrıca Rowhammer saldırılarını daha da engelleyebilecek özel azaltma önlemleri içerir.
GPUhammer'a yanıt olarak Nvidia, geçen hafta bir güvenlik uyarısı yayınlayarak kullanıcılara sistem düzeyinde hata düzeltme kodu olarak bilinen bir korumayı hatırlattı. ECC (Error-Correcting Code), bellek yongalarındaki veri bitlerinin yanına yedek kontrol bitleri depolamak için bellek sözcükleri kullanarak çalışır. CPU'lar ve GPU'lar bu sözcükleri kaymış bitleri hızla tespit etmek ve düzeltmek için kullanır.
Nvidia'nın Hopper ve Blackwell mimarilerine dayalı GPU'larda ECC zaten açıktır. Diğer mimarilerde ECC varsayılan olarak etkin değildir. Savunmayı etkinleştirme yöntemleri mimariye göre değişir. Veri merkezleri için tasarlanmış Nvidia GPU'larındaki ayarlar, sistemin BMC'si (ana kart yönetim denetleyicisi) ve Redfish gibi yazılımlar kullanılarak “ECCModeEnabled” durumunu kontrol etmek suretiyle yapılabilir.
Bu korumanın da sınırlamaları vardır. Diğer Nvidia yongaları da aynı saldırıya karşı savunmasız olabilir. Özellikle yapay zeka ve oyun için kullanılan Nvidia'nın Ampere neslindeki GDDR6 tabanlı GPU'lar risk altında olabilir. H100 (HBM3 ile) veya RTX 5090 (GDDR7 ile) gibi daha yeni GPU'lar, belleğin içine doğrudan yerleştirilmiş çip üzerinde ECC özelliğine sahiptir.
Bu, bit kaymalarına karşı daha iyi koruma sağlayabilir. Ancak bu korumalar hedefli Rowhammer saldırılarına karşı tam olarak test edilmemiştir, bu nedenle daha dayanıklı olsalar da güvenlik açığı ihtimali henüz göz ardı edilemez.
Rowhammer'ın keşfinden on yıl sonra, GPUhammer, ayrık GPU'ların içindeki bitleri çeviren ilk varyant ve GDDR6 GPU bellek modüllerine saldıran ilk saldırıdır. GPUhammer'dan önceki tüm saldırılar, DDR3/4 veya LPDDR3/4 gibi CPU bellek yongalarını hedefliyordu.
GDDR bellek biçimleri farklı bir form faktörüne sahiptir. Farklı standartları takip eder ve GPU kartına lehimlenir, bu da LPDDR'den farklıdır, LPDDR CPU'lardan ayrı donanımda bulunan bir çiptedir.