NVIDIA'nın yeni nesil yapay zeka hızlandırıcısı Blackwell Ultra'nın GB300 NVL72 sistemleri, DeepSeek'in en yeni açık kaynak modelleri üzerinde yapılan testlerde etkileyici sonuçlar elde etti. Optimizasyonlar ve ince ayarlar sayesinde, özellikle uzun bağlam gerektiren görevlerde GB300'ün GB200'e kıyasla önemli performans artışları sağladığı gözlemlendi.
NVIDIA Blackwell Ultra, Gecikmeye Duyarlı İş Yüklerinde GB200 NVL72'ye Karşı 1.5 Kata Kadar Üstünlük Sağlıyor
GB300 ile NVIDIA, özellikle agentik yapay zeka alanındaki potansiyeli tam olarak kullanabilmek için optimum uzun bağlam performansını sunmayı hedefliyor. Yapılan testlerde Blackwell Ultra'nın, gelişmiş eş-tasarım yaklaşımı sayesinde Hopper GPU'lara kıyasla megawatt başına 50 kat daha fazla işlem hacmi sağladığı belirtilmişti. Şimdi ise Büyük Model Sistemleri Organizasyonu (LMSYS) tarafından GB300 NVL72'nin uzun bağlam çıkarımı (long-context inference) için yapılan testler, oldukça umut verici sonuçlar ortaya koydu. Bu testler, altyapı düzeyinde yazılım yönlendirmesini de içeriyor.
Uzun bağlam gerektiren iş yüklerinde GPU VRAM'ine binen baskının arttığı göz önüne alındığında, LMSYS ekibi büyük ölçekli token bağlamını sürdürmek için yaygın olarak kullanılan bir mekanizma olan PD (Prefill-Decode) Ayrıştırması'nı (Disaggregation) entegre etti. Basitçe ifade etmek gerekirse, PD Ayrıştırması ile darboğazları önlemek için işi farklı donanım "düğümleri" arasında bölersiniz. Prompt işlemeyi kapsayan ön doldurma (prefill) aşaması ve token üretimini içeren çözme (decode) aşaması, ayrıştırma ile daha optimize hale gelerek ölçekte daha iyi işlem hacmi sağlıyor.
LMSYS ekibi ayrıca, uzun bağlam pencereleri altında optimize edilmiş prompt yanıtları için dinamik bölümleme (dynamic chunking) ve etkili KV kapasite çevirisi (KV capacity translation) gibi çeşitli başka optimizasyon teknikleri de kullandı. Nesilsel gelişmeler açısından, ekip aşağıdaki temel kıyaslamaları kaydetti:
- 1.53x Zirve İşlem Hacmi: 226.2 TPS/GPU (Saniyedeki Token Sayısı)
- 1.87x Kullanıcı Hızı: MTP (Çoklu Token Tahmini) aracılığıyla TPS/Kullanıcı'da büyük bir sıçrama.
- 1.58x Gecikme Kazancı
LMSYS ekibine göre, GB300 ortalama olarak GB200'e kıyasla, özellikle gecikmeye duyarlı senaryolarda 1.4 ila 1.5 katlık bir üstünlük sağlıyor. Agentik iş yüklerine odaklanılması düşünüldüğünde, Blackwell Ultra bu alanlardan yararlanmak için en iyi konumda bulunuyor. Blackwell Ultra, gecikme ve işlem hacmi açısından dominant görünse de, özellikle GB300 ile birlikte artan dağıtım maliyetleri göz önüne alındığında, toplam sahip olma maliyeti (TCO) rakamları henüz sektörde tartışılmadı.
NVIDIA'nın her nesildeki yaklaşımı, yalnızca mimari ilerlemelere odaklanmakla kalmayıp aynı zamanda sektöre özgü kısıtlamaları ele almayı da hedefliyor. Blackwell Ultra'nın durumunda, gecikme rakamlarında önemli iyileştirmeler görüldü. Bu, agentik ortamlarda GB300'ün, büyük ölçekli bulut sağlayıcıları (hyperscalers) ve yeni nesil bulutlar (neoclouds) için önde gelen bir seçim olarak ortaya çıkmasının nedenlerinden biridir.