Amazon Web Services, yapay zeka (YZ) eğitimi ve çıkarımı için yeni nesil hızlandırıcısı Trainium3'ü tanıttı. AWS'ye göre, yeni işlemci selefine göre iki kat daha hızlı ve dört kat daha verimli. Bu durum, maliyet açısından YZ eğitimi ve çıkarımı için en iyi çözümlerden biri olmasını sağlıyor. Trainium3, FP8 performansında yaklaşık 2.517 PFLOPS sunarak Nvidia'nın Blackwell Ultra'sına rakip oluyor. Ayrıca, yeni Trn3 Gen2 UltraServer, Nvidia'nın dikey ölçekleme stratejilerinden ilham alarak, bir rafta 144 Trainium3 çipiyle Nvidia'nın NVL72 GB300'ü ile eşdeğer FP8 performansı sunuyor.
AWS Trainium3 Detayları
AWS Trainium3, 144 GB HBM3E belleğe ve 4.9 TB/s bellek bant genişliğine sahip çift çipsetli bir YZ hızlandırıcısı. TSMC'nin 3nm üretim süreciyle üretildiği düşünülen her bir çip, dört adet NeuronCore-v4 çekirdeği içeriyor. Bu çekirdekler, geliştirilmiş bir komut seti mimarisine sahip ve iki HBM3E bellek yığınına bağlanıyor. İki çiplet, özel yüksek bant genişlikli bir arayüzle birbirine bağlanıyor ve veri hareketini sağlayan 128 donanım veri taşıma motorunu, çipler arası trafiği koordine eden kolektif iletişim çekirdeklerini ve ölçek büyütme bağlantısı için dört NeuronLink-v4 arayüzünü paylaşıyor.
Her bir NeuronCore-v4 çekirdeği dört yürütme bloğunu entegre eder: bir tensör motoru, bir vektör motoru, bir skaler motor ve bir GPSIMD bloğu. Ayrıca, derleyici tarafından yönetilen 32 MB yerel SRAM bulunuyor. Yazılım geliştirme açısından çekirdek, verinin DMA motorları tarafından SRAM'e yüklendiği, yürütme birimleri tarafından işlendiği ve bellek içi birleştirme sayesinde tek bir işlemde okunup yazıldığı bir veri akışı modeline dayanıyor. SRAM, önbellek kontrolü yerine veri bloklama, hazırlama ve birleştirme için kullanılıyor.
- Tensör Motoru: GEMM, konvolüsyon, transpoz ve nokta çarpımı işlemleri için tasarlanmış matris işlemcisidir. MXFP4, MXFP8, FP16, BF16, TF32 ve FP32 girişlerini BF16 veya FP32 çıktılarıyla destekler. Çekirdek başına MXFP8/MXFP4'te 315 TFLOPS, BF16/FP16/TF32'de 79 TFLOPS ve FP32'de 20 TFLOPS performans sunar. Yapılandırılmış seyrekliği hızlandırma yeteneğiyle, desteklenen seyrek iş yüklerinde aynı tepe performansı sağlayabilir.
- Vektör Motoru: Vektör dönüşümleri için yaklaşık 1.2 TFLOPS FP32 performansına sahiptir. MXFP formatlarına donanım dönüştürme yeteneği ve dikkat iş yükleri için skaler üs yolu performansının dört katı hızında çalışan hızlı bir üs birimi sunar. FP8, FP16, BF16, TF32, FP32, INT8, INT16 ve INT32 gibi çeşitli veri türlerini destekler.
- Skaler Motor: Kontrol mantığı ve küçük işlemler için yaklaşık 1.2 TFLOPS FP32 performansına sahiptir ve FP8'den FP32'ye ve tamsayı veri türlerini destekler.
NeuronCore-v4'ün en dikkat çekici bileşeni, C/C++ ile yazılmış genel amaçlı kodları çalıştırabilen ve yerel SRAM'e erişebilen sekiz adet programlanabilir 512-bit vektör işlemcisini entegre eden GPSIMD bloğudur. Modern YZ modellerindeki tensör motorlarına tam olarak uymayan veri düzenleri, işlem sonrası mantık ve özel matematiksel işlemler gibi görevleri daha verimli çalıştırmak için tasarlanmıştır. GPSIMD, bu tür işlemleri doğrudan tensörlerin yanında yüksek hızda çalıştırma imkanı sunar.
Kısacası, NeuronCore-v4, tensör matematiği, vektör dönüşümleri, skaler kontrol ve özel kodun 32 MB'lık yerel bir depolama alanını paylaştığı ve Nvidia donanımındaki warp zamanlayıcı yerine Neuron derleyicisi tarafından yönetilen sıkı sıkıya bağlı bir veri akışı motoru olarak çalışır.
Performans açısından Trainium3, MXFP8 hesaplamasında selefine göre iki kat daha iyi performans gösterir ve paket başına 2.517 PFLOPS'a ulaşır. Bu, Nvidia'nın H100/H200'ünden daha iyi ancak Blackwell B200/B300'ünden daha düşüktür. Ayrıca MXFP4 desteği ekler. Ancak Trainium3'ün BF16, TF32 ve FP32 performansı Trainium2 ile aynı seviyededir. Bu durum, AWS'nin gelecekte MXFP8 formatına odaklandığını gösteriyor. BF16 ve FP32 yeteneklerini daha fazla geliştirmemesinin nedeni, bu formatların artık ağırlıklı olarak gradyan biriktirme, ana ağırlıklar ve optimize edici durumlar gibi hassas işlemler için kullanıldığı ve mevcut performansından memnun olması olabilir.
Trainium3'ün önemli bir özelliği de, dört fiziksel çekirdeği daha geniş, otomatik olarak senkronize edilmiş bir mantıksal çekirdek haline getiren Mantıksal NeuronCore Yapılandırması (LNC) özelliğidir. Bu özellik, çok büyük YZ modellerinde yaygın olan geniş katmanlar veya uzun dizi uzunlukları için faydalı olabilir.
AWS'nin Trn3 UltraServer'ları Nvidia'nın GB300 NVL72'sine Yaklaşıyor
Nvidia'nın son dönemdeki başarısının önemli bir kısmı, 72 adet Blackwell GPU'sunu barındıran rack ölçekli NVL72 çözümlerinden kaynaklanıyor. Bu sistemler, özellikle Karışım Uzmanları (MoE) ve özyinelemeli çıkarım için kritik öneme sahip büyük ölçekli dünya boyutlarını ve tüm-yönlü topolojiyi destekliyor. Bu, Nvidia'ya önemli bir avantaj sağlıyor. Nvidia bu yeteneği sağlamak için NVLink anahtarları, gelişmiş ağ kartları ve DPU'lar gibi büyük bir silikon yatırımı yaptı. Ancak AWS'nin Trn3 UltraServer'ları, Nvidia'nın GB300 NVL72'sine ciddi bir rakip olacak gibi görünüyor.
Trainium3 YZ hızlandırıcılarıyla desteklenen Trn3 UltraServer'lar iki boyutta sunulacak: Bir yapılandırma 64 hızlandırıcı ve muhtemelen bir Intel Xeon CPU içerirken, daha büyük varyant tek bir rafta 144 hızlandırıcıyı ve Arm tabanlı bir Graviton işlemciyi bir araya getiriyor. Daha büyük sistemde, 144 Trainium3 hızlandırıcı 36 fiziksel sunucuya dağıtılmış durumda ve her makinede bir Graviton CPU ve dört Trainium3 çipi bulunuyor. Bu düzenleme, Nvidia'nın kendi CPU, GPU ve bağlantı silikonunu kullanan NVL72 yaklaşımına benziyor ve AWS'nin dikey entegre YZ platformları oluşturma yönünü vurguluyor.
Sunucu içinde Trainium3 hızlandırıcıları, ilk NeuronSwitch-v1 katmanı üzerinden NeuronLink-v4 ile bağlanıyor (cihaz başına 2 GiB/s hızında, tek yönlü veya toplam çift yönlü bant genişliği olduğu belirsiz). Farklı sunucular arasındaki iletişim, yine NeuronLink-v4 üzerinden taşınan iki ek NeuronSwitch-v1 kumaş katmanı aracılığıyla yönlendiriliyor. Ancak AWS, alan genelinde toplam NeuronSwitch-v1 bant genişliğini yayınlamıyor.
Performans açısından bakıldığında, 144 adet Trainium3 içeren daha büyük yapılandırma, 362.5 MXFP8/MXFP4 PetaFLOPS (yoğun) performansı sunuyor. Bu, Nvidia'nın GB300 NVL72'si ile aynı seviyede. Ayrıca 96.624 PFLOPS BF16/FP16/TF32 verimi ve 26.352 PFLOPS FP32 performansı sağlıyor. Sistem ayrıca 21 TB HBM3E belleğe sahip ve toplam bellek bant genişliği 705.6 TB/s'ye ulaşarak bu metrikte Nvidia'nın GB300 NVL72'sini geride bırakıyor.
Genel olarak, Trn3 Gen2 UltraServer, FP8 performansı açısından Nvidia'nın Blackwell tabanlı NVL72 makinelerine karşı oldukça rekabetçi görünüyor. FP8'in eğitim için daha popüler hale gelmesiyle bu formata yatırım yapmak mantıklı. Elbette Nvidia'nın elinde hem çıkarım hem de eğitim için konumlandırılan ve Blackwell tabanlı makinelerini rakipsiz hale getiren NVFP4 formatı gibi bir kozu var. BF16 için de durum benzer; Trainium2'ye göre daha hızlı olsa da Nvidia'nın Blackwell'ini geçmek için yeterli değil.
Sonuç olarak, 144 adet Trainium3 hızlandırıcıya sahip AWS Trn3 Gen2 UltraServer, Nvidia'nın Blackwell tabanlı NVL72 makinelerine kıyasla FP8 konusunda oldukça rekabetçi görünse de, Nvidia'nın çözümü genel olarak daha evrensel bir yapıya sahip.
AWS Neuron, CUDA Yoluyla İlerliyor
Yeni YZ donanımlarını piyasaya sürmenin yanı sıra AWS, re:Invent konferansında AWS Neuron yazılım yığınında geniş bir güncelleme duyurdu. AWS, bu sürümü açıklık ve geliştirici erişilebilirliğine yönelik bir adım olarak konumlandırıyor. Güncelleme, Trainium platformlarının benimsenmesini kolaylaştırmayı, standart makine öğrenmesi çatılarının doğrudan Trainium donanımında çalışmasını sağlamayı, kullanıcılara performans üzerinde daha derin kontrol vermeyi ve hatta uzmanlar için düşük seviye optimizasyon yollarını açmayı vaat ediyor.
Önemli bir ekleme, TorchNeuron adlı açık kaynaklı bir arka uç aracılığıyla yerel PyTorch entegrasyonudur. PyTorch'un PrivateUse1 mekanizmasını kullanarak, Trainium artık yerel bir cihaz türü olarak tanınıyor. Bu, mevcut PyTorch kodunun değişiklik yapılmadan çalışmasını sağlıyor. TorchNeuron ayrıca interaktif eager yürütme, torch.compile ve FSDP ile DTensor gibi dağıtılmış özellikleri de destekliyor. TorchTitan ve Hugging Face Transformers gibi popüler ekosistemlerle de uyumlu çalışıyor. Bu özelliğe erişim şu anda özel önizleme programının bir parçası olarak sınırlı kullanıcılara açık.
AWS ayrıca, geliştiricilere komut dosyası düzeyinde programlama, açık bellek yönetimi ve ince taneli zamanlama dahil olmak üzere donanım davranışları üzerinde doğrudan kontrol sağlayan güncellenmiş bir Neuron Kernel Interface (NKI) tanıttı. Bu, Trainium'un komut seti mimarisini çekirdek geliştiricilerine sunuyor. Buna ek olarak, şirket NKI Derleyicisini Apache 2.0 lisansı altında açık kaynak olarak yayınladı. Programlama arayüzü kamuya açıkken, derleyicinin kendisi sınırlı önizlemede kalmaya devam ediyor.
AWS ayrıca, yazılım geliştiricilerin ve performans mühendislerinin modellerinin Trainium'da nasıl çalıştığını iyileştirmelerine olanak tanıyan bir hata ayıklama ve ayarlama aracı olan Neuron Explorer'ı da yayınladı. Bu araç, üst düzey çerçeve çağrılarından tek tek hızlandırıcı komutlarına kadar yürütmeyi izleyerek, katmanlı profil oluşturma, kaynak kodu görünürlüğü, geliştirme ortamlarıyla entegrasyon ve performans ayarlaması için YZ destekli öneriler sunuyor.
Son olarak AWS, Trainium'u özel zamanlayıcılara ihtiyaç duymadan doğrudan Kubernetes'e entegre eden Neuron Dynamic Resource Allocation (DRA) özelliğini tanıttı. Neuron DRA, yerel Kubernetes zamanlayıcısını kullanır ve donanım topolojisi farkındalığı ekleyerek tam UltraServer'ların tek bir kaynak olarak tahsis edilmesini ve ardından her iş yükü için donanımın esnek bir şekilde atanmasını sağlar. Neuron DRA, Amazon EKS, SageMaker HyperPod ve UltraServer dağıtımlarını destekler ve açık kaynaklı bir yazılım olarak AWS ECR genel kayıt defterinde yayınlanan kapsayıcı görüntüleriyle sunulur.
Hem Neuron Explorer hem de Neuron DRA, küme yönetimini basitleştirmek ve kullanıcılara Trainium kaynaklarının nasıl tahsis edildiği ve kullanıldığı üzerinde ince ayar yapma kontrolü sağlamak için tasarlanmıştır. Özetle, AWS, Trainium tabanlı platformlarını Nvidia'nın CUDA tabanlı tekliflerine karşı daha rekabetçi hale getirmek amacıyla daha yaygın hale getirme çabasında ilerliyor.
Özetle
Amazon Web Services, bu hafta YZ eğitimi ve çıkarımı için 3. Nesil Trainium hızlandırıcısını ve beraberindeki Trn3 UltraServer rack ölçekli çözümlerini piyasaya sürdü. Trn3 Gen2 UltraServer rack ölçekli makineler, ilk kez CPU, YZ hızlandırıcıları, anahtarlama donanımı ve bağlantı kumaşları dahil olmak üzere tamamen AWS'nin kendi donanımına dayanıyor. Bu durum, şirketin Nvidia'nın dikey entegrasyon donanım stratejisini benimsediğini gösteriyor.
AWS'nin iddiasına göre Trainium3 işlemcisi, Trainium2'ye göre yaklaşık 2 kat daha yüksek performans ve 4 kat daha iyi enerji verimliliği sunuyor. Her bir hızlandırıcı, Nvidia'nın H100'ünden daha iyi, ancak B200'ünden daha düşük olan 2.517 PFLOPS (MXFP8) performans sunuyor ve 4.9 TB/s bant genişliğine sahip 144 GB HBM3E ile destekleniyor. Bu arada Trn3 Gen2 UltraServer'lar, 144 hızlandırıcıya kadar ölçeklenerek yaklaşık 0.36 ExaFLOPS FP8 performansı sunuyor. Bu da onu Nvidia'nın GB300 NVL72 rack ölçekli çözümüyle eşdeğer hale getiriyor. Yine de Nvidia'nın donanımı hala AWS'ninkinden daha evrensel görünüyor.
Nvidia ile rekabet edebilmek için Amazon, Trainium tabanlı platformları daha kolay kullanılabilir hale getirmek, standart makine öğrenmesi çerçevelerinin donanım üzerinde yerel olarak çalışmasını sağlamak, geliştiricilere performans üzerinde daha fazla kontrol vermek ve uzmanlara düşük seviyeli ayarlamalara erişim açmak için Neuron yazılım yığınında önemli güncellemeler duyurdu.