Amerika Birleşik Devletleri'nin ihracat kısıtlamalarına rağmen, Çin'de yasa dışı yollarla ülkeye sokulan çok sayıda Nvidia veri merkezi GPU'su bulunuyor. Bu parçalar sınırlı miktarlarda kaçak olarak getirildiği için, sahipleri arızalanan A100 veya H100 işlemcilerini garanti kapsamında olmadığı için tamir ettirmeye yöneliyor. Bu durum, yüksek performanslı Nvidia yapay zeka GPU'larına yönelik güçlü bir yeraltı tamir sektörünün doğmasına neden oldu.
Şenzen'de bulunan yaklaşık bir düzine küçük firma, gelişmiş Nvidia GPU'ları için tamir hizmeti sunuyor. Bu firmalardan ikisi, özellikle yapay zeka ve yüksek performanslı bilgi işlem (HPC) için kullanılan ve Çin'e sevk edilmesi kısıtlanan A100 ve H100 modellerini tamir ettiklerini doğruladı. Firmalardan biri, 2024'ün sonlarında bu hizmeti vermeye başladı ve şu anda ayda 500'e kadar GPU tamiri gerçekleştiriyor. Hatta bu işletmeler, gerçek veri merkezi koşullarını simüle etmek ve test etmek için sunucu odalarıyla tesisler kurmuş durumda.
Bu gri piyasa tamir işlerinin kârlılığı, firmaları yalnızca yapay zeka GPU'larına odaklanmış özel birimler oluşturmaya teşvik etmiş görünüyor. Hem ek kart hem de SXM modülleri şeklindeki yapay zeka hızlandırıcıları, veri merkezi ortamlarında maruz kaldıkları aşırı termal, elektriksel ve mekanik stresler nedeniyle çeşitli arızalar yaşayabilen karmaşık cihazlardır.
Sürekli ağır iş yükleri, kurumuş termal macun, fan sorunları (bazı kartlarda), PCB üzerindeki bileşen yorgunluğu ve SXM arayüzündeki hasarlı veya oksitlenmiş konektör pinleri gibi aşınmaya bağlı arızalara yol açabilir. Daha karmaşık sorunlar arasında güç dağıtım alt sistemindeki arızalar, devasa GPU veya HBM paketlerinin altındaki lehim eklemi çatlakları ve hatta HBM belleğin bozulması yer alabilir. Çip çatlaması (sıvı soğutma kullanıldığında) veya ara katman ayrılması gibi ölümcül arızalar nispeten nadir ve tamir edilemez olsa da, yukarıda belirtilen sorunların çoğu çözülebilir.
Tamir atölyeleri genellikle fanları değiştiriyor ve bellek veya PCB arızalarını teşhis edebiliyorlar. Ayrıca kapasitörler, indüktörler, dirençler veya MOSFET'ler gibi pasif bileşenleri değiştirebilir, hasarlı pinleri onarabilir ve GPU paketlerini yeniden lehimleyebilirler.
Bir firma, tamirin karmaşıklığına bağlı olarak GPU başına 1.400 ila 2.800 dolar arasında ücret alıyor. Daha önce GPU kiralama hizmeti veren başka bir servis sağlayıcı ise aylık yaklaşık 200 Nvidia ürününü tamir ediyor ve işin maliyetini perakende değerlerinin yaklaşık %10'u civarında tutuyor.
Amerika Birleşik Devletleri, 2022'de süper bilgisayar sınıfı A100 ve H100'ün Çin'e satışını yasakladı. Bu durum, Nvidia'yı en son ABD ihracat kurallarına uymak için biraz daha düşük performanslı A800 ve H800 versiyonlarını üretmeye zorladı. 2023'te ise ABD bu işlemcilerin satışını da yasaklayarak Nvidia'yı 2023'te Çin pazarı için büyük ölçüde kısıtlanmış bir H20 HGX GPU'su sunmaya mecbur bıraktı. Muhtemelen bu noktada çeşitli kurumlar ve bireyler, yüksek performanslı Nvidia GPU'larını Çin'e kaçırmaya başladılar. Bu nedenle, Çin Halk Cumhuriyeti'nde bol miktarda A100 ve H100 işlemcisi bulunuyor. Bu yapay zeka GPU'larının çoğu iki yıldır 7/24 yüksek yük altında çalıştığı için arıza oranları artıyor ve bu da tamirlerini kârlı bir iş haline getiriyor.
Yaptırımlara rağmen, Nvidia GPU'larının bulundurulması ve tamiri Çin yasalarına göre yasa dışı değil. Ancak, bu hizmetleri sunan şirketler temkinli davranıyor ve hem Çin hem de Amerikan yetkililerinin dikkatini çekmekten kaçınıyorlar. Bu firmalar aynı zamanda ülkeye resmi olarak sevk edilen Nvidia GeForce ekran kartları veya oyun dizüstü bilgisayarları gibi ürünlere hizmet verebilen tamamen yasal işletmelere de sahip. Bu nedenle, bu tamirhaneler Nvidia ile herhangi bir sürtüşmeye girmek istemiyorlar.