Ölüme terk edilmiş bir RTX 5090 ekran kartı, geçtiğimiz günlerde deneyimli bir uzmanın masasına düştü. PCB'sinde (baskılı devre kartı) çatlaklar bulunan ve hiçbir yaşam belirtisi göstermeyen bu kartın onarım süreci, adeta bir mühendislik macerasına dönüştü.
RTX 5090 serisi ekran kartları, tartışmalara pek de yabancı değil. Özellikle bir önceki nesil olan RTX 4090'dan miras kalan eriyen güç bağlantı noktaları gibi sorunlarla anılsalar da, bu özel kartın asıl sorunu, giderek daha yaygın hale gelen PCB çatlağıydı. Günümüzün devasa ve ağır ekran kartlarında sıkça karşılaşılan bu çatlaklar, kartın derinliklerindeki sinyal yollarını kesintiye uğratarak teşhisi zor ve tamiri neredeyse imkansız görünen arızalara yol açabiliyor.
Uzman, onarım sürecine kartı dikkatlice demonte ederek başladı. Soğutucuyu söktüğünde, bellek temas plakasının buhar odasına düzgün şekilde temas etmediğini, bu da belleklerin termal transferinin neredeyse sıfır olduğu anlamına geliyordu. Ancak voltaj regülatör modülleri (VRM) ve diğer yüzey bileşenleri sağlam görünüyordu, bu yüzden bir sonraki adım güç testi oldu.
Boşta bile yaklaşık 5 amper çeken GPU, 5090 gibi güç canavarları için yüksek ama normal bir değerdi. İlk çalıştırma anında güç kaynağı test cihazını 4 amperden 8 ampere yükseltmek gerekti ve başlangıçtaki güç yükselmesini yönetmek için 8 amper kullanıldı. Kart açıldı, ışıkları yandı, fanlar döndü – ancak ekranda görüntü yoktu. Bu durum, GPU'nun çalıştığını ancak görüntü sinyali vermediğini gösteriyordu ki bu da VRAM (video belleği) sorununa işaret ediyordu.
Bu tespitin ardından, işlemcinin dahili GPU'su kullanılarak bellek teşhisine geçildi ve Bingo! Bir eğitim hatası, belirli bir bellek yongasını sorunlu olarak işaretledi. GPU, DRAM başlatma dizisini tamamlayamıyordu, bu da yonga üzerindeki lehim bağlantılarının bozulmuş olabileceği anlamına geliyordu. Uzman, söz konusu yongayı karttan söktü, yeniden lehimledi (reballing) ve adeta bir montaj ustası gibi PCB'ye geri taktı. Bu işlemin ardından kart başarıyla görüntü vermeye başladı. Sorunlu yonga, 2 GB Samsung GDDR7 yongasıydı, bu da kartın Nvidia'nın SK Hynix tarafından üretilen modülleri kullanmaya başlamadan önceki daha eski 5090 serilerinden olduğunu gösteriyordu.
Ne yazık ki iş burada bitmedi. Kart çalışmaya başladığında fanlar hemen tam hızda dönmeye başladı ve öyle kaldı. Bir GPU'nun fanlarının hiç durmadan %100 hızda dönmesi ciddi bir soruna işaret eder; muhtemelen GPU'nun kendisi bir arıza olduğunu düşünüyordur. Aynı zamanda, PCIe arayüzü aniden devre dışı kaldı. Daha önceki ısı döngülerinin, PCB'de zaten var olan dahili hasarı kötüleştirmiş olabileceği ve PEX'in (PCIe protokolünün anakarta ilk bağlantı kurarak GPU'nun hazır olduğunu bildirmesi) derinlemesine bir hasar oluşmadan önceki son anlarını yaşadığı anlaşıldı.
Bu ihtimali ortadan kaldırmak için, GPU çekirdeği tamamen yeniden lehimlendi; bu, en yüksek hassasiyet ve beceri gerektiren inanılmaz derecede titiz bir işti. Üstelik bu bir RTX 5090 olduğu için yedek kart bulmak da kolay değildi; hata payı sıfırdı. İşlem tamamlandıktan sonra uzman her şeyi kontrol etti ve yeniden lehimlemenin yanlışlıkla yeni bir soruna yol açtığını çabucak fark etti: Bellek üzerinde bir kısa devre vardı, muhtemelen termal genleşme nedeniyle oluşmuştu.
Başlangıçta termal kamera bir şey tespit edemedi, bu yüzden uzman "kritik düşünme" yeteneğini kullanarak kart üzerindeki sıcaklık artışlarını kontrol etmeye başladı. Sonunda, arızalı yongayı – daha önce yeniden lehimlediği aynı yongayı – tespit etti. Yongayı bir kez daha değiştirdikten sonra kısa devre giderildi, ancak kart hala sistem tarafından tanınmıyordu, zira PEX sinyali yoktu.
Bu noktada, orijinal PCB çatlağının ısı döngüleri sırasında muhtemelen daha da kötüleştiği ve iç bağlantıları tamamen kopardığı anlaşıldı. Daha derinlemesine incelemeler, VRM güç fazlarının sadece birkaçının aslında aktif olduğunu ortaya çıkardı. Normal voltaj hatları – 12V ve Vcore – mevcut olsa da, dijital "Sürücü AÇIK" sinyalleri VRM kontrolcülerinin yarısına ulaşmıyordu. Uzmanın tahmini doğru çıktı: PCB'nin içine gömülü bir hat kopmuştu.
Şimdi sıra kablolamaya, belki de onarımın en etkileyici kısmına geldi. Sinyal fazlar arasında paylaşılmadığı için, kopuk yolu yeniden bağlamak üzere basit bir atlama kablosu (jumper) çekildi. Bu, tam güç dağıtımını geri kazandırdı, ancak PEX hala yoktu. Eksik bir PCIe etkinleştirme sinyalini köprülemek için bir atlama kablosu daha eklendi. Bu sefer işe yaradı, PCIe yeniden çevrimiçi oldu ve kart tekrar görüntü verdi.
Kartın artık tamamen onarıldığını düşünen uzman, kartı yeniden monte etti, ancak sorunlar geri döndü. PCIe algılaması yine başarısız oldu, fanlar eskisi gibi son hızda dönüyordu ve bir bellek fazı çalışmıyordu. İncelemede, 3.3V PCIe yuvası hattından gelen PEX etkinleştirme sinyalinin hedefine ulaşmadığı, bu fazı esasen ölü hale getirdiği keşfedildi. Son çözüm, 3.3V'u doğrudan o bellek etkinleştirme sinyaline sağlamak için üçüncü bir kablo çekmeyi içeriyordu. Bundan sonra her şey kusursuz çalıştı.
PCIe bağlantısı nihayet stabil hale geldi, güç dağıtımı tüm fazlarda dengelendi ve GPU hem benchmark testlerinde hem de oyunlarda tam bir stres testini başarıyla geçti. Uzman, kartı dikkatlice yerine monte etti, hatta fanlardan düşen bir etiketi bile yapıştırdı. Görev tamamlanmıştı.
Kırık iç katman izlerinden, tam çekirdek yeniden lehimlemeye ve hatta sinyal yamalamaya kadar, bu onarım bir fabrika ortamı dışında çok katmanlı bir kart üzerinde yapılabileceklerin sınırlarını zorladı. Uç düzey bir sistemden bile daha pahalı olabilen bir kart için, bu durum onu kurtarmanın sadece mümkün değil, aynı zamanda tamamen gerekli olduğu nadir durumlardan biriydi. Ve bu uzman, gerçekten olağanüstü bir iş başardı.