Ara

NVIDIA’dan Yapay Zeka Devriminin Kalbine Teknik Bakış: Blackwell GB200 ve GB300 Sistemleri Açıklandı

Yapay zeka ve bilim dünyasının nabzını tutan Teknoscope olarak, NVIDIA'nın en yeni ve en güçlü yapay zeka platformları olan Blackwell GB200 ve GB300 sistemlerinin teknik detaylarına ışık tutuyoruz. Şirket, bu sistemlerin rack, tray ve MGX platformlarındaki açık kaynak (Open Compute) taahhütlerini derinlemesine paylaştı.

NVIDIA, GB200 ve GB300 Blackwell Sistemlerinin Geliştirme Sürecini ve Açık Kaynak Standartlarını Gözler Önüne Seriyor

Geçtiğimiz yıl düzenlenen Hot Chips etkinliğinde NVIDIA, ilk çalışan Blackwell sunucularını tanıtmıştı. Bu yıl ise şirket, geliştirdiği Blackwell Ultra platformuyla karşımıza çıktı. En son Hot Chips 2025 etkinliğinde NVIDIA, Blackwell rack ve tray tasarımlarına dair detaylı bir sunum gerçekleştirdi. "Vaka Çalışması: NVIDIA GB200/300" başlıklı bu sunum, NVIDIA Makine Mühendisi tarafından yapıldı.

Sunumun başlangıcında, geçtiğimiz yıl Açık Kaynak Hesaplama Platformu'na (OCP) katkıda bulunulan MGX mimarisi tanıtıldı. Ardından, GB200 ve GB300 "Blackwell" platformlarının geliştirilmesi ve tasarlanmasındaki zorluklara değinildi.

MGX, NVIDIA'nın dünya genelinde yürütülen hızlandırıcıların ölçeklendirilmesindeki zorlukları aşmak için geliştirdiği bir mimaridir. Sadece yapay zeka veya çıkarım (inference) değil, aynı zamanda belirli müşteriler için ince ayarlar gerektiren diğer iş yüklerinin de bulunduğu belirtildi. Bazı müşterilerin belirli bir yönetim biçimini veya sadece bir ağ arayüz denetleyicisini (NIC) tercih ettiği, bazılarının ise farklı CPU ve GPU karışımları gerektirdiği ifade edildi. NVIDIA'nın bu ihtiyaca yönelik olarak sistemi sürekli yineleyerek küçük değişiklikler yaptığı, ancak bu değişikliklerin tüm sistem üzerinde dalga etkisi yarattığı dile getirildi.

Bu zorluğun üstesinden gelmek için NVIDIA, MGX'i geliştirdi. MGX, modüler bir mimariye sahiptir. Sistem küçük parçalara, yapı taşlarına ve modüllere ayrılır. Bu modüller, farklı modül setleriyle etkileşim kurabilir. Ayrıca, bu modüllerin paylaşımı için ortak bir dizi spesifikasyon ve arayüz tanımlanmıştır. Bu yaklaşım, NVIDIA'nın tek bir altyapıya ve tek bir yapı taşı setine ön yatırım yapmasını sağlar, böylece gerektiğinde sadece tek bir yapı taşını değiştirmesi yeterli olur. MGX'in OCP'ye katkıda bulunulmasıyla birlikte açık hale gelmesi, müşterilerin tedarik zincirleri dahilinde çalışabilmesini ve nihayetinde yönetim, NIC gibi unsurlarda tercih ettikleri küçük özelleştirmeleri kendi sistemlerinin bir parçası olarak tasarlamalarını mümkün kılmıştır.

Sunumda daha sonra mimarinin iki önemli unsuru olan MGX rack altyapısı ve MGX Hesaplama ve Anahtar (Switch) Tepsileri üzerine odaklanıldı. Bunlar, NVIDIA'nın GB200 "Blackwell" sistemlerini oluşturmak için kullandığı mimari bileşenlerdir. NVIDIA, MGX platformunu tasarlarken açık standartlar kullanır. Bu, açık bir spesifikasyondur. NVIDIA, tüm 3D modellerini, 3D çizimlerini ve son derece uzun spesifikasyonlarını yayınlamaktadır ve bunların tümü OCP üzerinden indirilebilir durumdadır.

Şirket, Blackwell GB200/GB300 platformlarına ilişkin bazı üst düzey detayları ilk kez açıkladı. Sağdaki görselde rack'in ön görünümü, soldaki görselde ise arka görünümü yer alıyor. Rack'in üst kısmında anahtarlar (switches) bulunuyor. Hemen altında ise rack güç kaynağı yer alıyor. Bu güç kaynağı, veri merkezinden gelen yüksek voltajlı AC elektriği alıp rack'in arkasındaki DC bara dönüştürüyor.

Güç kaynağının hemen altında hesaplama tepsileri (compute trays) bulunuyor. GB200'de 10 hesaplama tepsisinde toplam 300 çip yer alıyor, ardından dokuz anahtar tepsisi ve sekiz hesaplama tepsisi daha geliyor. Bu hesaplama tepsilerinin her biri, 80 FP4 PetaFLOPS işlem gücüne sahip. Tüm sistem, anahtarlarla birbirine bağlandığında 1.4 exaFLOPS işlem gücüne ulaşabiliyor. Sistemin toplam güç tüketimi yaklaşık 120 kilowatt, her bir hesaplama tepsisi ise yaklaşık 7 kilowatt güç tüketiyor. Tüm sistem, NVLink omurgası (spine) ile birbirine bağlanıyor.

NVLink omurgasını rack'in ön ve arka tarafında görebilirsiniz. NVLink, lane başına 200 Gb/s hızında çalışan, düşük gecikmeli bir bakır ara bağlantıdır. Bu da bakırın avantajlarını vurguluyor. Böylece tüm GPU tepsileri, NVLink omurgası aracılığıyla anahtar tepsilerine bağlanıyor.

Karşılaşılan zorluklardan biri, OCP rack spesifikasyonunun cihazları 48 milimetrelik bir adım aralığına yerleştirmesidir. Onlarca yıldır üretimde olan standart kurumsal donanımlar ise yaklaşık 44.5 milimetrelik bir adım aralığına yerleştirilmiştir. Bu, 1U (Rack Unit) veya EIA 19 inç standardı olarak bilinir. NVIDIA, bu EIA özelliklerini alıp kendi rack'lerine uygulayarak cihazları daha sıkı bir yoğunlukta yerleştirebilmiş ve bu da pek çok avantaj sağlamıştır.

Ayrıca bara (Bus bar) sistemi de bulunuyor. Rack'in arkasında aşağı yukarı uzanan bara yaklaşık 35 kilowatt güç taşıma kapasitesine sahipti ancak NVIDIA'nın dört katı kapasiteye ihtiyacı vardı. Bu nedenle daha derin ve daha büyük, daha fazla kesit alanına sahip bir bakır bara oluşturularak sistem için 1.400 ampere kadar destek sağlanmış. Rack'in arkasını saran bir uzatma çerçevesi tasarlanarak standart 1068 milimetrelik ayak izi, bir sonraki boyut olan 1200 milimetrelik ayak izine yükseltilmiş.

Bir sonraki adım olarak NVIDIA GB200/300 NVL Hesaplama Tepsisi ele alınıyor. Yüksek seviyede, her hesaplama tepsisi iki CPU ve dört GPU içeriyor. Ayrıca bir Ana Bilgisayar İşlemci Modülü (HPM) de bulunuyor. Her HPM, bir Grace CPU ve iki Blackwell GPU'yu destekliyor. Blok diyagramının alt kısmında tüm G/Ç bağlantıları yer alıyor. Kuzey tarafında ise CPU'lardan çıkan NVLink konektörleri bulunuyor. NVIDIA, bu HPM'leri "micro-MGX" kart form faktörü olarak adlandırdığı şekilde bir araya getiriyor.

Tepsi iki HPM ve iki kart form faktörünü barındırıyor. Ön tarafta soğutma bölgesi veya fan bölgesi bulunuyor. Bu bölüm, farklı fan konfigürasyonları, farklı kanallar ve kablo giriş/çıkışları ile çoklu konfigürasyonlarda konuşlandırılabilir. Modülerlik hikayesine geri dönecek olursak, sunucunun ön tarafında üç segment görülebiliyor. Burası, müşterilerin kendi yönetim çözümlerini, kendi NIC çözümlerini geliştirebileceği, bir SSD seti veya başka bir SSD seti (U.2 veya E1S, DCSCM) konuşlandırabileceği alanlardır.

Tepsinin arka tarafında ise UQD'ler (Universal Quick Disconnect) yer alıyor. UQD'ler de NVIDIA'nın faydalandığı bir OCP standardıdır. Tüm bu sistem %100 sıvı soğutmalıdır.

Son olarak NVIDIA, hem GB200 hem de GB300'ün tam üretimde olduğunu belirtti. Sistemler ölçekleniyor ve halihazırda dünya çapında birden fazla büyük ölçekli veri merkezinde çalışıyor. Şirket ayrıca yoğunluk, güç ve soğutma sınırlarını zorlamaya devam etmek için yıllık bir ritmi takip ediyor. Ayrıca, açık bir ara bağlantı çözümü olan NVLink Fusion gibi teknolojilerin ölçeklenmeyi büyük ölçüde artıracağı vurgulandı.

Önceki Haber
Yaş Aldıkça Performansını Artıran Sporcuların Sırrı: Bilim Açıklıyor!
Sıradaki Haber
Meta, Yapay Zeka İçin Devrim Yarattı: Catalina Pod Sistemi NVIDIA'nın Gücünü Sıvı Soğutma ve Open Rack v3 ile Buluşturuyor

Benzer Haberler: