Meta, NVIDIA'nın GB200 NVL72 çözümünü Open Rack v3 ve sıvı soğutma ile birleştiren Catalina yapay zeka sisteminin temel yapı taşlarını paylaştı.
Meta'dan Özel NVIDIA GB200 NVL72 Blackwell Platformu: Catalina Pod, Sıvı Soğutmaya Hazır ve Open Rack v3 Uyumlu
Meta, 2022 yılında ağırlıklı olarak yaklaşık 6.000 GPU'luk kümeler üzerinde yoğunlaşmıştı. Bu kümeler öncelikli olarak geleneksel sıralama ve öneri modelleri için tasarlanmış, yani temelde 128-512 GPU arasında iş yükleri çalıştırıyordu.
Bir yıl sonra, üretken yapay zeka (GenAI) ve büyük dil modellerinin (LLM) yaygınlaşmasıyla birlikte kümeler 16-24 bin GPU'ya (4 kat artış) ulaştı ve geçtiğimiz yıl Meta, 100.000 GPU çalıştırdı ve bu sayıyı artırmaya devam ediyor. Meta, Llama gibi modellerle de bir yazılım geliştiricisi olarak öne çıkıyor ve önümüzdeki birkaç yıl içinde küme boyutlarında 10 kat artış öngörüyor.
Meta, Catalina projesine NVIDIA ile çok erken başladıklarını ve temel olarak NVL72 GPU çözümünü kullandıklarını belirtiyor. Meta ayrıca sistemleri kendi ihtiyaçlarına göre uyarlamak için NVIDIA ile birlikte çalıştı ve her ikisi de MGX ve NVL72 için referans tasarımı açık kaynağa sundu; Catalina ise Open Compute web sitesinde yer alıyor.
Meta'nın Catalina sistemine daha yakından bakacak olursak, şirketlerin veri merkezlerinde dağıttığı sistem bu şekilde. Meta, ölçek büyütme amacıyla her sisteme "pod" adını veriyor ve bu yapıyı kopyala-yapıştır mantığıyla genişletiyor.
Standart NVL72 ile Meta'nın özel sürümü arasındaki farklardan biri, tek bir 72 GPU ölçek büyütme alanını oluşturan iki BT rafının bulunmasıdır. Bu BT raflarının her biri aynı yapılandırmaya sahip. Rafların üst ve alt kısmına dağıtılmış 18 adet bilgi işlem tepsisi bulunuyor. Ayrıca her BT rafında sol ve sağ tarafta dokuz adet NV anahtarı yer alıyor. Her sistem arasında kalın bir kablo demeti mevcut.
Bu yapı, raflardaki tüm bu GPU'ların birleştirilmesini, NV anahtarları aracılığıyla bağlanarak tek bir 72 GPU ölçek büyütme alanı oluşturmasını sağlıyor. Rafların sol ve sağ tarafında, hava destekli sıvı soğutma cihazları (ALC) bulunuyor. Bu cihazlar, Meta'nın ABD ve dünya genelinde dağıtılan mevcut veri merkezlerine sıvı soğutmalı, yüksek güçlü raflar kurmasına olanak tanıyor.
Meta, iki raf ile sunucu başına CPU sayısını ve toplam bellek miktarını artırabildiğini belirtiyor; bu, LPDDR bellekte 17 TB'tan 34 TB'a çıkarak, raflar içindeki GPU'lar ve CPU'lar arasındaki toplam önbellek tutarlı bellek miktarını 48 TB'a ulaştırıyor. Güç kaynağı ünitesi (PSU), 480 volt veya 277 volt tek fazlı şebeke gerilimini alıp 48 volt DC'ye dönüştürüyor ve bu, raftaki tüm bireysel sunucu bıçaklarını, NV anahtarlarını ve ağ aygıtlarını besleyen arka kısımdaki bara dağıtılıyor.
Rafın üst ve alt kısımlarında bir adet güç kaynağı rafı, ardından her birinin altında iki adet daha bulunuyor. Meta'nın ayrıca, raftaki tüm fiber kablolamanın arka uç ağ için bağlandığı ve ölçek büyütme alanı için satır sonundaki ağ anahtarlarına bağlanan kendi fiber yolu paneli de bulunuyor. Rafta, ön uç ağ anahtarı olan Wedge 400 model bir raf yönetim denetleyicisi ve ayrıca çeşitli BT ve anahtar tepsileri yer alıyor.
Tüm bunları desteklemek için Meta, NVIDIA NVL72 GB200 Blackwell sisteminin zaten bir parçası olan bazıları da dahil olmak üzere çeşitli yeni teknolojilere ihtiyaç duyuyor. Meta'ya özgü bazı özellikler arasında, açık rafların yüksek güçlü versiyonu, yani daha yüksek güç kaynakları ve CPU'lar yer alıyor. Ayrıca, bu rafları ve geleneksel veri merkezlerini desteklemek için gereken hava destekli sıvı soğutma sistemleri de bulunuyor. Soğutmayı etkinleştiren ve devre dışı bırakan bir güvenlik ve orkestrasyon cihazı olan raf yönetim denetleyicisi (Rack Management Controller), raflardaki sızıntıları da izliyor.
Bu, aynı zamanda Meta'nın OpenRack v3'ün yüksek güçlü raf versiyonunun ilk dağıtımıdır. Bu, Meta'nın bara (600A) kadar her raf için güç miktarını 94 kW'a çıkarmasına olanak tanıyor. Ayrıca, doğrudan rafa sıvı akışı sağlayan tesis sıvı soğutma sistemlerine sahip yeni binaları da destekliyor. Sıvıyı yönetmek için Meta, Raf Yönetim Denetleyicisi (RMC) olarak adlandırılan bir sistem kullanıyor. Bu cihaz rafın içinde yer alıyor ve raftaki bir dizi farklı bileşeni sızıntılara karşı sürekli olarak izliyor. Sızıntı durumunda üzerine damlayıp kapanmasını önlemek için rafın üst kısmında güvenli bir şekilde konumlandırılmış durumda. RMC, ALC'lere bağlanarak çalışıyor, bu da tesis seviyesindeki valf sistemlerine bağlanarak sorunlu binalardan gelen sıvıyı engelliyor.
Meta, Catalina için kendi ayrıştırılmış zamanlanmış ağını (disaggregated scheduled fabric) da kullanıyor. Bu, tek bir veri merkezi binası veya süiti içindeki birden fazla pod'u birbirine bağlamalarını sağlıyor ve birden fazla binayı birbirine bağlamalarına olanak tanıyor. Hatta daha da büyük ölçeklere ulaşarak bu devasa ölçekli kümeleri sağlayabiliyorlar. Yapay zeka için optimize edilmiş bu sistem, esneklik ve hız sağlıyor. Temel olarak tüm GPU'ların birbirleriyle bu şekilde iletişim kurması sağlanıyor.