Ara

Nvidia’nın Yeni Ekran Kartları Baş Ağrıtıyor: 1000 Dolar Ödüllü Hata Ortaya Çıktı!

Nvidia'nın yeni RTX 5090 ve RTX PRO 6000 ekran kartlarının, sanallaştırma sırasında ortaya çıkan ve kartları tamamen kullanılamaz hale getiren bir hata ile boğuştuğu bildiriliyor. Bu sorun, kartların fiziksel olarak yeniden başlatılmasını gerektiriyor.

GPU bulut sağlayıcısı CloudRift, üretim ortamında birden fazla Blackwell tabanlı sistemde bu sorunla karşılaştıktan sonra hatanın detaylı bir dökümünü yayınladı. Şirket, sorunun kök nedenini veya çözümünü bulan kişiye 1000 dolarlık bir ödül bile duyurdu.

Blackwell'i Kilitleyen Sıfırlama Hatası

CloudRift'in kayıtlarına göre, hata bir GPU'nun KVM ve VFIO kullanılarak bir sanal makineye (VM) aktarılmasından sonra meydana geliyor. Misafir sistemin kapatılması veya GPU'nun yeniden atanması durumunda, ana sistem bir PCIe fonksiyon seviyesi sıfırlama (FLR) komutu gönderiyor. Bu, standart bir temizleme işlemi olsa da, kartların bilinen iyi bir duruma dönmesi yerine yanıt vermeyi durdurmasına neden oluyor. Çekirdek (kernel), “FLR’den sonra 65535ms hazır değil; vazgeçiliyor” şeklinde raporlama yapıyor.

Bu noktada kart, lspci komutuna da yanıt vermiyor ve “bilinmeyen başlık tipi 7f” hataları veriyor. CloudRift, normal çalışmayı geri yüklemenin tek yolunun tüm makineyi yeniden başlatmak olduğunu belirtiyor. Tinygrad'ın arkasındaki yapay zeka girişimi Tiny Corp, CloudRift'in bulgularını yeniden paylaşarak “5090 ve RTX PRO 6000'lerde donanımsal bir kusur mu var? Bu konuyu inceledik ve bir çözüm bulamadık” şeklinde bir soruyla dikkati bu soruna çekti.

Benzer Hataları Diğer Kullanıcılar da Doğruluyor

Proxmox forumlarındaki ve Level1Techs topluluğundaki tartışmalar, RTX 5090'ın ev kullanıcıları ve diğer ilk benimseyenlerin de benzer davranışlarla karşılaştığını gösteriyor. Bir kullanıcı, bir Windows sanal makinesi kapatıldıktan sonra ana sistemin tamamen kilitlendiğini ve işletim sistemi seviyesinde yeniden başlatmaya rağmen GPU'nun yeniden başlatılamadığını bildirdi. Başka bir kullanıcı ise “Ana sistemimin yanıt vermez hale geldiğini fark ettim. Daha fazla inceleme, bir Linux sanal makinesi kapatıldıktan sonra ana işlemcinin bir FLO zaman aşımından sonra kilitlendiğini gösterdi. Önceki 4080 kartımda böyle bir sorun yoktu” şeklinde deneyimini paylaştı.

Birkaç kullanıcı, PCIe ASPM veya ACS ayarlarını değiştirmelerinin sorunu çözmediğini doğruladı. RTX 4090 gibi eski kartlarda herhangi bir sorun bildirilmemesi, bu hatanın Nvidia'nın Blackwell ailesine özgü olabileceğini düşündürüyor.

FLR, GPU aktarma yapılandırmalarında kritik bir özelliktir ve bir cihazın güvenli bir şekilde sıfırlanıp farklı sanal makineler arasında atanmasına olanak tanır. FLR'nin güvenilmez olması durumunda, sanallaştırma kullanan çok kullanıcılı yapay zeka iş yükleri ve ev laboratuvar kurulumları riskli hale geliyor, özellikle tek bir kart arızasının tüm ana sistemi devre dışı bırakması söz konusu olduğunda.

Nvidia, bu sorunla ilgili henüz resmi bir açıklama yapmadı ve şu anda bilinen bir çözüm bulunmuyor.

Önceki Haber
Windows 11'i Hafifletmenin Yeni Yolu: Copilot ve Gereksiz Uygulamalar Artık Yok!
Sıradaki Haber
Porsche 911 Turbo S Yeniden Doğuyor: Hibrit Teknolojisiyle Nefes Kesen Performans

Benzer Haberler: