Ara

Huawei’nin Yeni AI Canavarı: CloudMatrix 384, Nvidia GB200’den Hızlı Ama Enerji Faturası Ağır!

Gelişmiş çip üretim teknolojilerine erişimde yaşadığı zorluklar nedeniyle Huawei, yapay zeka (AI) işlemcileri üretirken farklı bir strateji izliyor. Sektördeki rakipleriyle karşılaştırılabilir AI performansı elde etmek için "kaba kuvvet" yöntemine başvuruyor: daha fazla işlemci kullanmak. Bu amaçla Huawei, çift çipsetli (chiplet) HiSilicon Ascend 910C işlemcisi, optik ara bağlantılar ve kendi yazılımına dayanan Huawei AI CloudMatrix 384 adlı raf ölçekli bir çözüm geliştirdi. Bu sistem, Nvidia'nın GB200 NVL72 sistemine göre watt başına 2,3 kat daha düşük performans verimliliği sunsa da, Çinli şirketlerin gelişmiş AI modellerini eğitmesine olanak tanıyor.

CloudMatrix 384, 384 adet Ascend 910C işlemcisinden oluşan, tamamen optik, "hepsi-hepsiyle" (all-to-all) ağ yapısına sahip bir raf ölçekli AI sistemidir. Sistem, her birinde 32 hızlandırıcı bulunan 12 hesaplama rafı ve yüksek bant genişliği sağlayan dört ağ rafı dahil olmak üzere toplam 16 rafa yayılmıştır. Geleneksel sistemlerde kullanılan bakır kabloların aksine, CloudMatrix hem raf içi hem de raflar arası bağlantılar için tamamen optik teknolojiyi kullanır. Bu, son derece yüksek toplam iletişim bant genişliği sağlar. Kurumsal düzeyde bir makine olan CloudMatrix 384, hata toleransı özelliklerine sahiptir ve ölçeklenebilirlik için tasarlanmıştır.

Performans açısından bakıldığında, CloudMatrix 384, yaklaşık 300 PFLOPs yoğun BF16 hesaplama gücü sunar. Bu, Nvidia'nın GB200 NVL72 sisteminin (yaklaşık 180 BF16 PFLOPs) neredeyse iki katıdır. Ayrıca, HBM2E bellek kullanmasına rağmen 2,1 kat daha fazla toplam bellek bant genişliği ve 3,6 kattan fazla HBM kapasitesi sunar. Optik ara bağlantıları sayesinde makine, 2,1 kat daha yüksek "scale-up" (sistem içi genişleme) ve 5,3 kat daha yüksek "scale-out" (küme dışı genişleme) bant genişliğine sahiptir.

Ancak bu performans avantajları, bir dezavantajla birlikte gelir: Sistem, Nvidia'ya kıyasla FLOP başına 2,3 kat, TB/s bellek bant genişliği başına 1,8 kat ve TB HBM belleği başına 1,1 kat daha az enerji verimlidir.

Ancak bu durum, Çinli şirketlerin (Huawei dahil) zaten Nvidia'nın GB200 NVL72'sine erişememesi nedeniyle çok da önemli değildir. Bu nedenle, AI eğitimi için gerçekten yüksek performans elde etmek istiyorlarsa, Huawei'nin CloudMatrix 384'üne yatırım yapmaya fazlasıyla istekli olacaklardır.

Nihayetinde, anakara Çin'deki ortalama elektrik fiyatlarının son yıllarda düşmesi, Huawei CM384 kullanıcılarının enerji maliyetleri nedeniyle iflas etme olasılığını düşürmektedir. Yani, enerjinin bol olduğu ancak gelişmiş silikonun kısıtlı olduğu Çin için, Huawei'nin AI yaklaşımı oldukça işe yarıyor gibi görünüyor.

HiSilicon Ascend 910C işlemcisine gelince, bu bir çift çipsetli işlemcidir ve sekiz adet HBM2E bellek modülü kullanır. Birim, MI250X'in 383 BF16 TFLOPS'una kıyasla 780 BF16 TFLOPS sunar.

Ascend 910C, büyük ölçekli eğitim ve çıkarım iş yükleri için Çin'de tasarlanmıştır. İşlemci, gelişmiş tasarım araçları kullanılarak geliştirilmiş ve 7nm sınıfı üretim teknolojileriyle üretilebilmektedir. Huawei'nin Ascend 910C çipsetlerinin büyük çoğunluğunun, ABD kısıtlamalarına rağmen üçüncü taraf kuruluşlar aracılığıyla gelişmiş dökümhaneler tarafından üretildiği tahmin ediliyor. Ayrıca, HBM2E belleğin çoğu da benzer vekalet yöntemleriyle elde edilmiştir. Performans açısından, Ascend 910C, Nvidia'nın en yeni B200 AI GPU'larına kıyasla çip başına önemli ölçüde daha az güçlüdür, ancak Huawei'nin sistem tasarım stratejisi, sistem başına düşen çip sayısını artırarak bu farkı telafi etmektedir.

Gerçekten de, adından da anlaşılacağı gibi, CloudMatrix 384, 384 adet Ascend 910C AI işlemcisinden oluşan yüksek yoğunluklu bir hesaplama kümesidir. Fiziksel olarak, her rafta 32 AI hızlandırıcı bulunan 16 raflık bir sisteme organize edilmiştir. 12 raf hesaplama modüllerini barın dırırken, dört ek raf iletişim anahtarlaması için ayrılmıştır. Nvidia'nın mimarisine benzer şekilde, tüm Ascend 910C'ler, özel bir ağ yapısı kullanılarak birbirleriyle iletişim kurabilir.

CM384'ün ayırt edici bir özelliği, raflar içindeki ve arasındaki tüm dahili iletişim için yalnızca optik bağlantılara dayanmasıdır. Düşük gecikme süresi ve minimum sinyal bütünlüğü kaybıyla 5,5 Pbps'yi (687,5 TB/s) aşan toplam dahili bant genişliği sağlayan 6.912 adet 800 Gbps dereceli optik alıcı-verici içerir. Sistem, hem "scale-up" (384 işlemci içindeki tam ağ aracılığıyla) hem de "scale-out" (ek kümeler arası bağlantılar aracılığıyla) topolojilerini destekleyerek daha büyük hiper ölçekli ortamlarda dağıtıma olanak tanır.

384 işlemciyle Huawei'nin CloudMatrix 384'ü, 300 PFLOPs yoğun BF16 hesaplama performansı sunar; bu, Nvidia'nın GB200 NVL72'sine kıyasla %166 daha yüksektir. Ancak, CM384'ün tüm sistem gücü (ağ ve depolama dahil) yaklaşık 559 kW iken, Nvidia'nın GB200 NVL72'si 145 kW tüketir.

Sonuç olarak, Nvidia'nın çözümü Huawei'nin çözümünden 2,3 kat daha yüksek enerji verimliliği sunar. Yine de, yukarıda belirtildiği gibi, Huawei CloudMatrix 384'ü yeterli hacimde, uygun yazılım ve destekle sunabilirse, müşterilerinin en son önemseyeceği şey sistemlerinin güç tüketimi olacaktır.

Önceki Haber
Kızamığın Gizli Tehlikeleri: Aşı Neden Hayati Önem Taşıyor?
Sıradaki Haber
Battlefield Hayranları Müjde: Klasikleşen Yıkım Özelliği Yeni Oyunda Geri Dönüyor!

Benzer Haberler: