Yapay zeka altyapı şirketi TensorWave, AMD'nin en yeni Instinct MI325X hızlandırıcılarını kullanan devasa bir sistemi devreye aldığını duyurdu. 8.192 adet GPU'dan oluşan bu sistemin, Kuzey Amerika'daki bugüne kadarki en büyük AMD tabanlı yapay zeka eğitim kurulumu olduğu iddia ediliyor. Sistem ayrıca, bu ölçekteki ilk halka açık doğrudan sıvı soğutma uygulamasını içeriyor. Şirket, sistemin tamamen faaliyete geçtiğini yüksek yoğunluklu rafların ve parlak renkli soğutma borularının fotoğraflarıyla birlikte duyurdu.
Geçtiğimiz yıl tanıtılan AMD Instinct MI325X, şirketin yapay zeka hızlandırıcı pazarında iddialı bir adım olarak görülüyordu. Her bir MI325X ünitesi, 256 GB HBM3e bellek, 6 TB/s bant genişliği ve 19.456 akış işlemcisiyle 2.10 GHz'e kadar saat hızında çalışan yonga tasarımı sayesinde 2.6 PFLOPS FP8 hesaplama gücü sunuyor. MI325X, rakiplerine kıyasla daha uygun fiyatlı olsa da, düğüm başına 8 GPU ile sınırlı ölçeklenebilirlik dezavantajına sahipti.
TensorWave'in yaklaşımını ilginç kılan tam olarak bu nokta. Şirket, düğüm başına ölçeklendirme rekabetine girmek yerine, raf başına termal boşluk ve yoğunluğa odaklandı. Tüm küme, her MI325X üzerine monte edilen soğuk plakalar aracılığıyla soğutma sıvısını dolaştırmak için özel bir doğrudan çipe sıvı soğutma döngüsü etrafında inşa edildi. Sistemde parlak turuncu ve sarı renkli borular kullanıldığı görülüyor.
GPU başına 1.000 watt güç tüketimiyle, bu donanımın küçük bir kısmını bile çalıştırmak ciddi mühendislik gerektiriyor. Toplamda 8.192 GPU, 2 petabayt/s'nin üzerinde toplu bellek bant genişliği ve tahmini 21 exaFLOPS FP8 işlem gücü sağlayacak. Ancak sürdürülebilir performansın, yapay zeka modelinin GPU'lar arasında nasıl bölündüğüne (model paralelliği) ve ara bağlantı tasarımına bağlı olduğunu belirtmek önemli. TensorWave'in iş modeli, bulut kapasitesi kiralama üzerine kurulu, dolayısıyla modelleri ölçeklendirme konusundaki asıl zorluk, kiracılara düşüyor.
Bu kurulum, TensorWave'in geçtiğimiz Mayıs ayında AMD Ventures liderliğindeki 100 milyon dolarlık A Serisi finansman turunu takip ediyor. Çoğu bulut sağlayıcısının ağırlıklı olarak farklı markaların donanımlarına odaklanmasının aksine, TensorWave, sadece fiyat esnekliği için değil, aynı zamanda ROCm yazılım platformunun tam ölçekli model eğitimi için yeterince olgunlaştığına inandığı için tamamen AMD'ye yöneliyor. Başka markalar pazara hakim olsa da, bu gelişme AMD'nin yapay zeka sektöründeki yerini sağlamlaştırması açısından olumlu işaretler taşıyor.
TensorWave'in bu kurulumu tek seferlik bir yatırım değil. Şirketin ekibine göre bu, çok daha büyük bir yayılımın ilk aşaması ve yıl içinde AMD'nin yeni nesil yongalarını da sisteme entegre etme planları bulunuyor. Bu yeni yongalar, daha yüksek bant genişliği, farklı hassasiyet seviyeleri (FP4 ve FP6) desteği ve yonga başına 1.400W'a kadar çıkabilecek daha yüksek güç tüketimi tasarımları sunacak. Bu tür güç tüketimi hava soğutma ile yönetilemeyeceğinden, TensorWave'in sıvı soğutma yaklaşımının doğru yolda olduğu görülüyor. AMD'nin yazılım platformu ROCm'in hala geliştirilmesi gereken yönleri olsa da, 8.192 MI325X GPU'nun sıvı soğutma altında çalışmaya başlamasıyla AMD, bu alanda söz sahibi olabileceğini kanıtlayacak ölçeğe nihayet ulaştı.