Ara

ABD GPU Yasaklarına Rağmen Çin’den Dev Adım: 1.54 ExaFLOPS’luk ‘LineShine’ Süper Bilgisayar Tanıtıldı!

Günümüzde kullanılan süper bilgisayarların ve yapay zeka kümelerinin büyük çoğunluğu, olağanüstü ExaFLOPS düzeyinde performans elde etmek için genel amaçlı görevler ve düzenleme için CPU'ları, devasa paralel hesaplama iş yükleri için ise yapay zeka GPU'larını kullanıyor. Ancak Çin'de farklı bir eğilim gözlemleniyor. Son yıllarda ülke, ABD'den gelen GPU yasakları nedeniyle yeterli sayıda GPU tedarik edemediği için, yapay zeka ve yüksek performanslı bilgi işlem (HPC) iş yükleri için tamamen CPU'lardan oluşan süper bilgisayarlar geliştiriyor.

LineShine LX2 İşlemcisi: Fark Yaratan Tasarım

LineShine süper bilgisayarı, büyük ölçekli yapay zeka ve HPC iş yükleri için özel olarak tasarlanmış, Armv9 tabanlı LX2 işlemciler etrafında şekilleniyor. Çin Ulusal Süper Bilgisayar Merkezi (NSCC) tarafından geliştirilen LX2 işlemcisinin tam geliştiricisi açıklanmamış olsa da, bu işlemcinin Huawei tarafından tasarlandığı düşünülüyor. Bu, özel bir Huawei HPC işlemcisi, bir NSCC/Huawei ortak tasarımı veya tamamen ayrı, Çin hükümeti destekli bir HPC işlemci geliştiricisi olabileceği ihtimallerini akla getiriyor.

Her bir LX2 işlemcisi, iki adet hesaplama çipleti içeriyor ve toplamda 304 adet CPU çekirdeğine sahip. Bu çekirdekler, her biri 38 çekirdekten oluşan sekiz CPU kümesine ayrılmış durumda. Her çekirdek, yapay zeka eğitimi ve bilimsel hesaplamalarda kullanılan vektör ve matris işlemlerini hızlandıran Arm SVE (Scalable Vector Extension) ve SME (Scalable Matrix Extension) birimlerini barındırıyor. Bu birimler, FP64, FP32, BF16, FP16 ve INT8 veri formatlarını destekliyor. Her çekirdek 32 KB L1 komut önbelleği ve 32 KB L1 veri önbelleği ile donatılmışken, her küme 28.5 MB L2 önbelleği paylaşıyor.

İşlemci, 4 TB/s'ye kadar bant genişliği sunan 32 GB paket içi HBM (High Bandwidth Memory) ve 256 GB'a kadar paket dışı DDR5 belleği birleştiren oldukça sıra dışı bir bellek alt sistemine sahip. Benzer bir bellek alt sistemi, Fujitsu'nun Fugaku süper bilgisayarına güç veren Arm tabanlı A64FX işlemcisinde kullanılmıştı. Ancak LX2'nin, böyle bir bellek alt sistemini kullanan, yapay zeka ve HPC için sektördeki ilk Armv9 tabanlı CPU olması muhtemel.

Her çiplette dört adet HBM etki alanı ve dört adet DDR etki alanı bulunuyor; bu da işlemci başına 16 NUMA etki alanı anlamına geliyor. HBM erişimi konuma duyarlıyken, DDR bellek erişimi bir kalıp içinde daha homojen ve kümeler arasında paylaşılıyor. Bu durum, geliştiricileri topolojiye duyarlı bellek yerleştirme ve zamanlama teknikleri tasarlamaya zorladı. Bu teknikler, özellikle yapay zeka eğitimi için oldukça kullanışlıdır ve veriyi DDR ile HBM arasında taşımak için özel bir SDMA motoru tarafından yürütülüyor.

Performans açısından bakıldığında, tek bir LX2 işlemcisi 60.3 TFLOPS FP64 performansı, 240 TFLOPS BF16/FP16 verim gücü ve 960 TOPS INT8 performansı sunuyor. Geleneksel sunucu CPU'larından farklı olarak, CPU merkezli bir tasarım olmasına rağmen, mimari yoğun yapay zeka ve matris iş yükleri için ağır şekilde optimize edilmiş görünüyor. Yayınlanan bir makale, SME matris motorlarının yüksek kullanım oranını sürdürmenin, çekirdeklerin, çalışma zamanı zamanlamasının, önbellek kalıcılığı yönetiminin ve HBM ile DDR hiyerarşisi boyunca tensör yerleştirmenin kapsamlı bir şekilde birlikte tasarlanmasını gerektirdiğini belirtiyor.

LineShine Süper Bilgisayarı: Milyonlarca Çekirdek Gücü

LineShine süper bilgisayarı, her biri iki adet LX2 işlemcisi içeren 20.480 hesaplama düğümünden oluşuyor. Her LX2 işlemcisinin 304 CPU çekirdeği olduğu düşünüldüğünde, tüm sistem toplamda 40.960 adet LX2 işlemcisi ve 2.451.840 CPU çekirdeği barındırıyor. Süper bilgisayar, düğüm başına 1.6 Tb/s hızında çalışan LingQi yüksek hızlı ağ (LQLink) ile birbirine bağlanıyor.

Makine, BF16 eğitim performansı açısından 1.54 ExaFLOP/s değerine ulaşıyor ve 6.3 milyar parametreli bir Dünya gözlem üretken sıkıştırma modelinin eğitiminde 2.16 ExaFLOP/s'ye kadar zirve yapıyor. xAI gibi şirketlerin binlerce Nvidia yapay zeka GPU'su kullanan yapay zeka kümelerinin zirve performanslarını yayınlamaması nedeniyle, LineShine'ın performansını diğer gelişmiş yapay zeka kümeleriyle doğrudan karşılaştırmak mümkün değil. Ancak, xAI'nin Colossus'unun teorik zirve performansının yaklaşık 497.9 ExaFLOPS olduğu tahmin ediliyor. Bu da LineShine'ın yaklaşık %15'lik bir model FLOPS kullanım oranıyla bile yaklaşık 75 ExaFLOPS sağlayabileceği anlamına geliyor.

Teorik zirve FP64 performansı açısından bakıldığında, bu 40.960 LX2 işlemcisi 2.47 ExaFLOPS güç üretebiliyor. Ancak makinenin gerçek FP64 verim gücü hakkında kesin bir bilgi bulunmuyor, zira bu, birçok faktöre bağlı olarak değişiklik gösterebilir.

Avantajlar Bol, Ancak Birkaç Dezavantajı Var

Sadece CPU'lardan oluşan yapay zeka ve HPC süper bilgisayarlar, geleneksel heterojen CPU+GPU sistemlerine kıyasla, özellikle yapay zeka eğitimi ile devasa veri alımı, ön işleme, depolama etkileşimi, simülasyon ve düzenlemeyi birleştiren karmaşık bilimsel görevler için çeşitli avantajlar sunuyor.

Her şeyin aynı işlemci ve bellek alanında çalışması sayesinde, pahalı ve bant genişliği yoğun CPU-GPU veri aktarımları, karmaşık programlama modelleri, GPU bellek sınırlamaları ve hızlandırıcıya özgü yazılım yığınları gibi heterojen hesaplamalarla ilişkili birçok karmaşıklıktan kaçınılıyor.

Ek olarak, homojen CPU tabanlı sistemler, HBM'i büyük DDR kapasiteleriyle birleştirerek çok daha büyük tutarlı bellek havuzları sunabiliyor. Bu, devasa bilimsel veri kümelerini, geri alma ile zenginleştirilmiş üretimi ve uzun bağlam pencerelerini yönetmek için oldukça faydalı.

Ayrıca, düzensiz kontrol akışı, dağıtılmış G/Ç, iletişim ağırlıklı işlem hatları ve GPU'lara verimli bir şekilde eşlenmeyen yürütme desenlerini içeren yapay zeka için bilim uygulamaları (AI-for-science) açısından da cazip bir seçenek sunuyorlar.

Bununla birlikte, sadece CPU'lardan oluşan sistemler, geleneksel HPC ortamlarıyla daha doğal bir şekilde entegre olabiliyor ve düzenli süper bilgisayar görevlerini (örneğin simülasyonlar) yerine getirebiliyor. Bu, hem yapay zeka eğitimi/çıkarımı hem de HPC'ye ihtiyaç duyanlar için özellikle faydalı.

Son olarak, bu tür sistemler, Nvidia'nın GPU'ları ve CUDA yazılım ekosistemleri gibi yabancı hızlandırıcılara ve platformlara olan bağımlılığı azaltıyor, ki bu da Çin için önemli bir faktör.

Ancak büyük bir ödünleşme var: Sadece CPU'dan oluşan sistemler genellikle daha az güç verimliliğine sahip oluyor ve GPU tabanlı süper bilgisayarlara göre daha düşük yoğun yapay zeka verimi sunuyor. Bu nedenle endüstri, heterojen CPU+GPU mimarilerine yöneliyor.

Önceki Haber
Arm, Yapay Zeka Çipiyle Tekel İddialarını Mercek Altına Aldırdı: ABD'den Kapsamlı Soruşturma
Sıradaki Haber
ASUS ROG DDR5 Bellekler, 8800 MT/s Hıza Ulaştı: Yeni Bir Devir Başlıyor!

Benzer Haberler: