NVIDIA'nın en üst düzey ekran kartları GeForce RTX 5090 ve RTX PRO 6000, sanallaştırma ortamlarında karşılaşılan yeni bir sorunla gündemde. Bu hatanın sanallaştırma altında sistemlerin yanıt vermemesine neden olduğu bildiriliyor.
NVIDIA'nın Yeni Nesil Blackwell Ekran Kartları VM Kullanımı Sonrası Yanıt Vermez Hale Geliyor
Geliştiricilere yönelik bir GPU bulutu hizmeti olan CloudRift, NVIDIA'nın yüksek performanslı ekran kartlarında yaşanan çökme sorunlarını ilk olarak rapor etti. Şirkete göre, söz konusu ekran kartları birkaç gün süren sanal makine (VM) kullanımı sonrasında tamamen yanıt vermez hale geliyor. İlginç bir şekilde, bu ekran kartlarına yeniden erişim sağlamanın tek yolu, bağlı bulundukları sunucu sistemini yeniden başlatmak. Sorunun yalnızca RTX 5090 ve RTX PRO 6000 modellerini etkilediği, RTX 4090, Hopper H100 ve Blackwell tabanlı B200 gibi modellerde ise şimdilik bu sorunun görülmediği belirtiliyor.
Bu sorun, özellikle ekran kartının cihaz sürücüsü VFIO aracılığıyla bir VM ortamına atanmasından ve Fonksiyon Seviyesi Sıfırlama (FLR) işleminin ardından ekran kartının hiçbir şekilde yanıt vermemesinden kaynaklanıyor. Bu yanıt vermeme durumu, ana sistemde bir kilitlenmeye yol açarak hem sunucu hem de istemci ortamlarını devre dışı bırakıyor. Sorundan kurtulmak için ana makinenin yeniden başlatılması gerekiyor ki bu durum, CloudRift gibi çok sayıda sanal makineye sahip şirketler için oldukça zahmetli bir işlem.
Sorun sadece CloudRift ile sınırlı değil. Proxmox platformunda bir kullanıcı da benzer bir durumla karşılaştığını rapor etmiş. Kullanıcı, bir Windows istemcisini kapattıktan sonra sistemin tamamen çöktüğünü belirtiyor. İlginç bir şekilde, NVIDIA'nın bu sorunla ilgili yanıt verdiği ve sorunu tekrarlayabildiklerini, ayrıca bir düzeltme üzerinde çalıştıklarını ifade ettikleri bildiriliyor. NVIDIA'dan resmi bir doğrulama bekleniyor, ancak sorunun Blackwell tabanlı ekran kartlarına özgü olduğu anlaşılıyor.
CloudRift, sorunu çözebilecek veya hafifletebilecek kişilere 1.000 dolarlık bir ödül sundu. NVIDIA'nın, özellikle kritik yapay zeka iş yüklerini etkileyen bu soruna kısa sürede bir çözüm sunması bekleniyor.