NVIDIA'nın geliştirdiği Blackwell GB300, Ajan Yapay Zeka (Agentic AI) iş yüklerini ölçen yeni bir kıyaslama olan AA-AgentPerf'te rekor performans sergiledi. Bu yeni donanım, yapay zeka alanında önemli bir sıçrama vaat ediyor.
Yapay Zeka Ajanları İçin Devrim: GB300, Hopper'ı Geride Bıraktı
Artificial Analysis tarafından geliştirilen AA-AgentPerf, gerçek dünya senaryolarını içeren iş yükleri altında bir çıkarım (inference) dağıtımının ne kadar aktif ajanı destekleyebildiğini ölçüyor. Bu gerçekçi iş yükleri şunları kapsıyor:
- Gerçekçi Ajan Hareket Tarzları: Sıralı düşünme, araç kullanımı ve değişken bağlam uzunluklarına sahip çok turlu kodlama oturumları (sentetik ve tekdüze komutlar değil).
- Sürdürülebilir Eş Zamanlı Yük: Simüle edilmiş ajanlar, KV önbelleği yeniden kullanımını, spekülatif çözünürlüğü ve zamanlayıcı davranışını zorlayarak sürekli olarak uçuşta olan istekleri sürdürüyor.
- Piyasa Odaklı SLO Seviyeleri: Yapay zeka analizlerinin sunucusuz API kıyaslama verilerine dayanan performans eşikleri, sağlayıcılar genelinde gözlemlenen hizmet kalitesi seviyelerini yansıtıyor.
- Sürekli Güncelleniyor: Yeni donanım, yazılım yığınları ve model sürümleri mevcut hale geldikçe sonuçlar sürekli olarak güncelleniyor.
- Üretime Hazır: Modeller, gerçekçi optimizasyonlar etkinleştirilmiş ve üretim ölçekli dağıtım topolojileri ile test ediliyor.
AA-AgentPerf kıyaslaması, günümüz yapay zeka dağıtımlarının temelini oluşturan şu üç temel metriği ölçmek için kullanılıyor:
- İlk Token'a Kadar Geçen Süre (TTFT): İstek gönderiminden ilk çıktı token'ının alınmasına kadar olan istek başına gecikme süresi.
- Çıktı Hızı: İlk token alındıktan sonra ölçülen istek başına çıktı token'ları saniyede.
- Sistem Çıktı İş Hacmi: Tüm eş zamanlı ajanlar üzerinden toplam çıktı token'ları saniyede.
NVIDIA, DeepSeek V4 Pro modelini kullanarak GB300 NVL72 platformunda yaptığı ilk kıyaslama sonuçlarını paylaştı. Bu model, günümüzdeki ajanları destekleyen ve yaygın olarak kullanılan öncü modelleri temsil ediyor. Yapılan ilk kıyaslamalarda NVIDIA, GB300 donanımıyla, eski HGX H200 platformuna kıyasla megawatt başına 20 kat daha fazla performans elde ederek en hızlı sonucu kaydetti. GB300, Hopper'a kıyasla önemli bir sıçrama yaparak megawatt başına 60.000'e kadar eş zamanlı ajanı destekleyebiliyor.
NVIDIA'ya göre bu performans, GB300 NVL72 ve Blackwell'in, birden fazla eş zamanlı ajan oturumunda GPU'ları tam olarak kullanırken büyük ölçekli ajan yapay zeka kodlama iş yüklerini çalıştırma yeteneğini vurguluyor. Önümüzdeki dönemde ise NVIDIA'nın Rubin platformunun da piyasaya sürülmesi bekleniyor. Rubin'in, süper şarj edilmiş bir yapay zeka mimarisi aracılığıyla bu performans avantajlarını daha da artırması, NVFP4'ten 50 PFLOP'luk hesaplama gücü sunması ve Vera CPU ile büyük dil modelleri (LLM) araç çağrıları ve uçtan uca performansta önemli kazanımlar sağlaması öngörülüyor.