Nvidia, dünya genelindeki veri merkezlerine milyonlarca Grace CPU ve Blackwell yapay zeka GPU'su sevk ederken, bir yandan da yeni nesil yapay zeka ve yüksek performanslı bilgi işlem (HPC) platformu olan Vera Rubin'i geliştirmek için yoğun bir çalışma yürütüyor. Bu platformun, performans ve verimlilikte yeni bir standart belirlemesi bekleniyor. Nvidia'nın Vera Rubin platformu, sadece bir veya iki değil, her biri farklı bir iş yükü için özelleştirilmiş dokuz ayrı işlemciden oluşarak, şimdiye kadarki en karmaşık veri merkezi platformlarından birini oluşturuyor.
Nvidia, resmi lansmanı 2025'in sonlarında yapmadan önce önümüzdeki yıl Vera Rubin hakkında daha fazla detayı açıklayacak olsa da, şimdiden ortaya çıkan bilgileri bir araya getirelim.
Genel Bir Bakış
Donanım tarafında, Nvidia'nın Vera Rubin platformu, sıkı entegre bir bileşen seti etrafında inşa edilmiş bir sonraki nesil raf ölçeğindeki yapay zeka bilgi işlem mimarisidir. Bu bileşenler şunları içeriyor: 88 çekirdekli Vera CPU, 288 GB HBM4 belleğe sahip Rubin GPU, 128 GB GDDR7 belleğe sahip Rubin CPX GPU, ölçek büyütme için NVLink 6.0 anahtarlama ASIC'i, anahtar-değer önbelleğini depolamak için entegre SSD'li BlueField-4 DPU, Spectrum-6 Fotoniği Ethernet ve Quantum-CX9 1.6 Tb/s Fotoniği InfiniBand NIC'ler ve ölçek büyütme bağlantısı için Spectrum-X Fotoniği Ethernet ve Quantum-CX9 Fotoniği InfiniBand anahtarlama silikonları.
Tam bir NVL144 raf, 144 Rubin GPU'yu (72 pakette) 20.736 TB HBM4 bellek ve 36 Vera CPU ile entegre ederek, çıkarım için 3.6 NVFP4 ExaFLOPS'a ve eğitim için 1.2 FP8 ExaFLOPS'a kadar performans sunuyor. Buna karşılık, NVL144 CPX, Rubin CPX hızlandırıcıları kullanarak çıkarım için neredeyse 8 NVFP4 ExaFLOPS'a ulaşıyor ve daha da büyük bir bilgi işlem yoğunluğu sağlıyor.
Yazılım tarafında, Rubin nesli FP4/FP6 hassasiyeti, milyonlarca token bağlam çıkarımı ve çok modlu üretken iş yükleri için optimize edilmiştir. CPX sistemleri, CUDA 13 üzerine kurulu Nvidia'nın Dynamo çıkarım düzenleyicisi ile birlikte gelecek ve bu düzenleyici, dağıtılmış bir sistemdeki farklı GPU türleri arasında çıkarım iş yüklerini akıllıca yönetmek ve bölmek için tasarlanmıştır.
Ek olarak, Nvidia'nın Akıllı Yönlendiricisi ve GPU Planlayıcısı, kullanım oranını ve yanıt süresini iyileştirmek için Uzmanlar Karışımı (MoE) kopyaları arasında ön doldurma ve çözme iş yüklerini dinamik olarak dengeleyecektir. Ayrıca, Nvidia'nın NIXL (Interconnect Extension Layer) teknolojisi, gecikmeyi ve CPU yükünü azaltmak için InfiniBand GPUDirect Async (IBGDA) aracılığıyla GPU'lar ve NIC'ler arasında sıfır kopyalı veri aktarımını mümkün kılıyor. NVMe anahtar-değer önbelleği boşaltımının %50-60 vuruş oranına ulaştığı söyleniyor, bu da çok turlu konuşma bağlamının verimli bir şekilde kalıcı olmasını sağlıyor. Son olarak, yeni NCCL 2.24 kütüphanesinin küçük mesaj gecikmesini 4 kat azaltması bekleniyor, bu da trilyonlarca parametreli ajan yapay zeka modellerinin çok daha hızlı GPU'lar arası iletişim ile ölçeklenmesine olanak tanıyor.
Gerçek şu ki, bu özellikler Vera Rubin platformuna özgü değil, ancak Rubin sınıfı sistemler bunlardan en çok fayda sağlıyor, çünkü platform bu özellikleri büyük ölçekte kullanmak için özel olarak tasarlandı. Peki, Vera Rubin platformunu bu kadar özel yapan nedir? Biraz daha derinlemesine inceleyelim.
Vera CPU
Nvidia'nın Vera Rubin NVL144 ve Rubin Ultra 576 platformları, veri merkezi sınıfı yapay zeka altyapısı için özel olarak tasarlanmış ve selefi Grace'e kıyasla iki kat performans artışı vaat eden Nvidia'nın özel Vera işlemcilerini kullanıyor.
Bu CPU, 88 adet özel Armv9 tabanlı çekirdek (Grace'in Arm Neoverse V2 çekirdeklerini kullanmasının aksine) ile birlikte gelir ve 2 yollu eşzamanlı çoklu iş parçacığı desteği sayesinde aynı anda 176 iş parçacığının çalışmasına olanak tanır. Dahili olarak 'Olympus' olarak adlandırılan bu yeni Arm v9.2 çekirdekleri, geniş bir sıra dışı boru hattına dayanır ve geniş bir isteğe bağlı uzantı seti (SVE2, kripto, FP8/BF16, etiketleme, RNG, LS64 vb.) içerir. Nvidia belgeleri, SMT'nin iş parçacığı başına performansı etkilediğini belirtiyor; örneğin, çoğu boru hattı iki iş parçacığı aktifken iş parçacığı başına verimliliği etkili bir şekilde yarıya indirir, yalnızca az sayıda iş parçacığına özel olanlar hariç. Bu nedenle, geliştiricilerin belirli bir iş yükü için SMT kullanıp kullanmayacaklarına veya çekirdek başına bir iş parçacığı tutacaklarına karar vermeleri gerekiyor.
Nvidia, çekirdekleri ve bellek denetleyicilerini birbirine bağlamak için CPU içinde Ölçeklenebilir Tutarlılık Kumaşı'nı (SCF) kullanmaya devam ediyor, ancak bu sefer CPU'nun bellek bant genişliği 1.2 TB/s'ye ulaşarak Grace'den %20 daha yüksek. Sistem belleği açısından Vera, LPDDR5X kullanmaya devam ediyor, ancak daha fazla yoğunluk için şimdi SOCAMM2 modülleri kullanıyor.
Vera, Grace-Blackwell ile aynı teknoloji olan CPU'dan GPU'ya tutarlı bağlantı için NVLink-C2C'yi kullanıyor, ancak daha yüksek bant genişliği ile. Grace 900 GB/s çift yönlü bant genişliği sunarken, Vera Rubin platformu ile bant genişliği iki katına çıkarak her CPU için yaklaşık 1.8 TB/s'ye ulaşacak.
Yakın zamanda yayınlanan Vera işlemcisinin görüntüleri, CPU'nun monolitik bir tasarıma sahip görünmediğini, ancak görünür iç dikişlere sahip çoklu çiplet tasarımı olduğunu gösteriyor. Bir görüntü, Vera CPU'nun yanında belirgin bir G/Ç çipleti olduğunu gösteriyor. Ayrıca görüntü, CPU die'ının G/Ç pedlerinden yayılan yeşil özellikler gösteriyor; amaçları bilinmiyor. Belki de Vera'nın G/Ç yeteneklerinin bir kısmı, CPU'nun altındaki harici çipletler tarafından etkinleştiriliyor, ancak bu sadece bir spekülasyon.
Kamuoyunda, Nvidia'nın Vera CPU'su hakkında hala büyük bilgi boşlukları var. Resmi saat hızları, çekirdek başına önbellek boyutları, kesin L2/L3 topolojisi veya TDP hakkında bilgi yok. Ayrıca, NVL144/NVL576 raf bağlamı dışındaki NUMA/soket yapılandırmaları hakkında sınırlı bilgimiz var.
Rubin GPU
Rubin GPU, şüphesiz Nvidia'nın Vera Rubin platformunun kalbidir (veya kalpleri, çünkü her kartta iki adet bulunur). İlk Rubin GPU - R200 olarak adlandıralım - 3nm sınıfı TSMC üretim teknolojisinde üretilmiş iki adet ince hat boyutunda işlem çekirdeği, bir çift özel G/Ç çipi ve sekiz yuvada düzenlenmiş 288 GB 6.4 GT/s HBM4 belleğe sahip olup, yaklaşık 13 TB/s toplam bant genişliği sunuyor. Not: R200'den başlayarak Nvidia, GPU paketleri yerine GPU çekirdeklerini 'GPU' olarak sayacaktır; bu nedenle, NVL144 platformu 72 GPU paketi barındırsa da, Nvidia artık bunları 144 GPU olarak görüyor.
Rubin GPU'lar, çıkarım ve ajan yapay zeka için düşük hassasiyetli yapay zeka işlem gücünü daha da ileriye taşımak için tasarlanmıştır, ancak Nvidia'nın Blackwell Ultra'ya kıyasla 50 FP4 PetaFLOPS ve yaklaşık 16 FP8 PetaFLOPS performans vaadi ile eğitim performansını da önemli ölçüde artıracaktır. Bu değerler sırasıyla Blackwell Ultra'dan 3.3 ve 1.6 kat daha yüksektir. Nvidia henüz daha yüksek hassasiyetli formatlar için performans açıklamadı, ancak önemli nesilsel kazanımlar doğal olarak bekleniyor.
Performans iyileştirmeleri, açık bir ödünle birlikte gelecek: güç tüketimi. Mevcut kılavuzlar, GPU başına yaklaşık 1.8 kW'a işaret ediyor, bu da büyük kümeler için altyapı ve soğutma taleplerini artırıyor. Ancak, 1.6X – 3.3X performans kazançları varken GPU başına 0.4 kW'lık bir artış önemsiz görünüyor. Nvidia'nın Vera Rubin NVL144 platformu, Blackwell/Blackwell Ultra NVL72 için kullanılan Oberon rafını kullanmaya devam edecek; bu raf, soğutma sisteminde küçük değişikliklerle 1.8 kW GPU'ları soğutmaya hazır görünüyor.
2027 yılı için hedeflenen ve iki işlem çekirdeğinden dörde geçerek performansı ikiye katlamayı amaçlayan Rubin Ultra platformu, GPU başına FP4 çıkarım performansını yaklaşık 100 PFLOPS'a çıkarması bekleniyor. Rubin Ultra'nın bellek kapasitesi de önemli ölçüde artacak ve 1 TB HBM4E'ye ulaşarak yaklaşık 32 TB/s bant genişliği sağlayacak. Böyle bir yapılandırmanın 3.6 kW tüketmesi ve GPU paketleri için yepyeni bir soğutma sistemi ve yeni bir Kyber raf gerektirmesi öngörülüyor. Nitekim Kyber, 144 GPU paketinde 576 GPU barındıracak ve böylece Nvidia'nın ölçek büyütme dünya boyutunu önemli ölçüde genişletecek.
Hem Rubin hem de Rubin Ultra'nın TSMC'nin CoWoS-L gelişmiş paketleme teknolojisine dayanması bekleniyor. Dört adet ince hat boyutunda işlem çekirdeği, iki G/Ç çipi ve on altı HBM4E yuvayı barındıran Rubin Ultra, büyük olasılıkla devasa bir ara katman kullanacak veya birden fazla küçük ara katmanı birleştirip köprülerle birbirine bağlayacak.
Rubin CPX GPU
Nvidia'nın Vera Rubin NVL144 CPX'i, şimdiye kadar ilk kez, hızlandırıcılar için bir hızlandırıcı ile donatılacak: Rubin CPX GPU. Bu GPU, geliştiricilerin ihtiyaç duyması halinde diğer platformlarda da kullanılabilecek.
Rubin CPX, yüksek işlem gücü gerektiren büyük dil modellerinin (LLM) üretim aşaması yerine, bağlam yoğun ön uçlarını işlemek için özel olarak tasarlanmış bir çıkarım hızlandırıcısıdır. GPU, bayrak gemisi Rubin parçalarından daha düşük olsa da, CPX'in hızlandırmak için tasarlandığı iş yükleriyle iyi uyum sağlayan yaklaşık 30 NVFP4 PFLOPS performansına ulaşıyor.
'Tam' Rubin GPU'larda kullanılan pahalı ve güç tüketen HBM4 yuvaları yerine, CPX 128 GB GDDR7 ile geliyor. GDDR7, daha ucuz, daha serin ve gelişmiş paketleme gerektirmiyor. Bu tasarım, CPX'e, yüz binlerce ila milyonlarca tokenden oluşan uzun dizileri işlemek ve video gibi çok modlu girdileri yönetmek için geniş, uygun maliyetli bir bellek havuzu sağlıyor.
NVL144 CPX sistem düzeninde CPX, standart Rubin GPU'lar ve Vera CPU ile birlikte çalışarak, Nvidia'nın Dynamo yazılımının ana GPU'lardan otomatik olarak boşalttığı belirli ön doldurma/bağlam iş yüklerini işler. Bu ayrım, büyük ölçekte çıkarım için hem maliyeti hem de güç gereksinimlerini azaltarak, veri merkezlerinin bir modelin yürütme aşamasının her biri için en uygun donanıma sahip büyük rafları dağıtmasına olanak tanır.
BlueField-4 DPU
Ön doldurma/bağlam yapay zeka iş yükleri için özel çıkarım hızlandırıcısına ek olarak, birçok NVL144 sistemi başka bir hızlandırıcı olan BlueField-4 veri işleme birimini içerecektir. BlueField-4, yapay zeka matematiğini hızlandırmak yerine, GPU'larla ilgili her şeyi - düzenleme, ağ, depolama ve güvenlik - hızlandırarak sistemlerin CPU'lara aşırı yük bindirmeden ölçeklenmesini sağlıyor.
BlueField-4, 64 çekirdekli Grace tabanlı bir CPU, yüksek performanslı boşaltma motorları ve 800 Gb/s ağ arayüzünü entegre eder.
İşlevsel olarak BlueField-4, devasa kümelerde normalde CPU döngülerini tüketen görevleri boşaltır: paket işleme, şifreleme/şifre çözme, sanal anahtarlama, yönlendirme, telemetri ve NVMe-over-Fabrics veya veri azaltma gibi depolama işlemleri. Bu işlemleri donanımda ele alarak, DPU gecikmeyi azaltır, performansı artırır ve birçok düğümdeki GPU'ların verilerle sürekli beslenmesini sağlar. Ayrıca güvenlik politikaları, çok kiracılı izolasyon, izleme ve sanallaştırma için mikro hizmetler sunan Nvidia'nın DOCA çerçevesini çalıştırır.
Ölçek Büyütme Bağlantısı
Ölçek büyütme ve ölçek dışı bağlantı, Nvidia'nın yapay zeka ve HPC platformlarının kritik bileşenleridir ve müşterilerin Nvidia'nın donanımına dayalı hiper ölçekli kümeleri kolaylıkla ve öngörülebilir sonuçlarla inşa etmelerini sağlar.
Nvidia, CPU'ları (NVLink-C2C) ve GPU'ları doğrudan bağlamak için yüksek hızlı, düşük gecikmeli NVLink kumaşını kullanır; NVSwitch ise bu kumaşı bir raftaki tüm hızlandırıcılar arasında genişletir. 2026'daki Rubin nesli ile NVLink 6.0, bağlantı başına verimi yaklaşık 3.6 TB/s'ye (her biri 1.8 TB/s) çıkararak iki katına çıkaracak, ancak bunun daha hızlı sinyalleşmeden mi yoksa daha geniş bağlantılardan mı kaynaklandığı belirsizdir. NVL144 gibi sistemlerde NVLink 6.0 ile eşleştirildiğinde, tam kumaş yaklaşık 28.8 TB/s toplam GPU'dan GPU'ya bant genişliği sağlayabilir.
2027'deki Rubin Ultra güncellemesi NVLink 7.0 ve NVSwitch 7.0'a geçecek, bağlantı başına aynı çift yönlü bant genişliğini koruyacak ancak anahtar başına bağlantı sayısını muhtemelen 144'e çıkaracaktır. Bu genişletilmiş anahtarlama kapasitesi, Nvidia'nın dört çekirdekli daha büyük Rubin Ultra GPU'larını bir raf boyunca tam bant genişliğinde birbirine bağlamasına ve ölçek büyütme dünya boyutunu 144 GPU paketine çıkarmasına olanak tanıyacaktır.
Ölçek Dışı Bağlantı
Ölçek dışı bağlantı için Nvidia, Rubin nesli platformu ve sonrasında Ethernet (Spectrum-X) ve InfiniBand (Quantum-X) teknolojileri için ko-paketlenmiş optik (CPO) optik ara bağlantı platformları - hem ağ kartları hem de anahtarlama silikonları - sunacaktır.
Genel olarak, hem Nvidia'nın Spectrum-X Fotoniği Ethernet hem de Quantum-X Fotoniği InfiniBand platformları, 1.6 Tb/s'ye kadar bağlantı başına performans sunan 65nm elektronik entegre devre (EIC) ile bir fotonik entegre devre (PIC) entegre eden TSMC'nin 1. Nesil COUPE platformuna dayanmaktadır.
Nvidia'nın fotonik yayını, 2026'nın başlarında gelmesi planlanan ve 800 Gb/s'de 144 hat veya nihayetinde 200 Gb/s'de 576 hat ile 115 Tb/s kumaş bant genişliği sağlamayı amaçlayan Quantum-X InfiniBand anahtarları ile başlıyor. Bu platformlar, Nvidia'nın SHARP v4 protokolü aracılığıyla ağ içi işlemleri hızlandırmak için 14.4 TFLOPS işlem kapasitesine sahip entegre bir işlem ASIC'i içerir ve toplu işlem gecikmesini azaltır. Tüm Quantum-X üniteleri, termal yüklerini yönetmek için sıvı soğutma ile tasarlanmıştır.
Ethernet tarafında, Spectrum-X anahtarları birden fazla bağlantı yoğunluğu seçeneğiyle gönderilecek: 128×800 Gb/s veya 512×200 Gb/s, her ikisi de yaklaşık 100 Tb/s toplam işleme kapasitesi sunuyor. Daha büyük bir model, toplam 400 Tb/s'ye ulaşarak 512×800 Gb/s veya 2.048×200 Gb/s kapasiteyi artırır.
Ekim ayındaki GTC etkinliğinde Nvidia, büyük ölçekli yapay zeka kümeleri için özel olarak üretilmiş yeni nesil 1.6 Tb/s ağ arayüzü olan ConnectX-9 Spectrum-X SuperNIC'i tanıttı. Ünite, son derece yüksek bant genişliğine sahip bir SerDes, bir PCIe 6.0 48 hat anahtarı ve Spectrum-X Ethernet ve Quantum-X InfiniBand kumaşlarına GPU'lara doğrudan, düşük gecikmeli bir yol sağlamak için tamamen programlanabilir RDMA yeteneklerini içeriyor. Kart, sıfır kopyalı GPU'dan ağa veri hareketini (GPUDirect Async ve NIXL aracılığıyla) etkinleştirmek ve çok düğümlü çıkarım ve eğitim iş yüklerinde CPU katılımını önemli ölçüde azaltmak için tasarlanmıştır.
Mimari olarak ConnectX-9, NVLink bağlı rafları, örneğin NVL144 veya NVL576'yı, fotonik özellikli ölçek dışı ağlara bağlayan uç noktadır ve Rubin ve Rubin Ultra sınıfı sistemlerin çoklu raf yapay zeka kümeleri için gereken devasa bant genişliğini sürdürmesini sağlar. Ayrıca izolasyon ve telemetri için güvenli yerleşik bir platform içerir ve NVL144 ve NVL576 sistemlerle yaygınlaşması muhtemel olan, raf başına yüzlerce NIC'ye kadar yüksek yoğunluklu yapılandırmalar için temel oluşturur.
Nvidia'nın gelecek Rubin mimarisi hakkında daha fazla bilgi edindikçe bu sayfayı güncelleyeceğiz.