AMD, yapay zeka alanındaki gücünü bir kez daha gözler önüne serdi. Hot Chips 2025 etkinliğinde detayları paylaşılan Instinct MI350 serisi, 3nm üretim teknolojisi, 3D çiplet tasarımı ve CDNA 4 mimarisiyle dikkat çekiyor. Yapay zeka iş yüklerinde çığır açması beklenen bu yeni hızlandırıcılar, özellikle büyük dil modelleri (LLM) için geliştirildi.
AMD Instinct MI350 Serisi: Yapay Zeka İçin Yeni Bir Dönem
AMD, yapay zeka hızlandırıcı pazarındaki iddiasını Instinct MI350 serisi ile pekiştiriyor. Sadece iki ay önce tanıtılan bu güçlü GPU'lar, yapay zeka ve makine öğrenimi alanındaki gelişmeleri hızlandırmak için tasarlandı. Hot Chips 2025'te sunulan detaylar, MI350 serisinin yapay zeka performansında önemli bir sıçrama vadediyor.
Yapay zekanın, özellikle de büyük dil modellerinin (LLM) hızla büyümesi, donanım geliştiricilerini daha yüksek performans ve bellek kapasitesi sunmaya zorluyor. AMD, bu ihtiyaca yanıt vermek için veri tipi formatlarında yenilikler yaparken, çip üzerinde bellek miktarını da önemli ölçüde artırdı. Sonuç olarak, CDNA-4 tabanlı Instinct MI350 serisi, yapay zeka eğitim ve çıkarım süreçlerinde daha hızlı ve daha verimli bir performans sunuyor.
Bu performans artışı, özellikle çekirdek dışı (un-core) gücün azaltılması, daha geniş bir Infinity Fabric bağlantısı ve daha verimli frekanslar sayesinde elde ediliyor. Ayrıca, FP8 gibi daha düşük hassasiyetli veri formatlarının yanı sıra, endüstri standardı MXFP6 ve MXFP4 veri tipleri de destekleniyor.
AMD, MI350 serisini iki farklı modelle sunuyor: MI350X, 1000W TBP ve 2.2 GHz maksimum saat hızına sahip hava soğutmalı bir varyantken; daha üst düzey MI355X, veri merkezleri için tasarlanmış ve 1400W TBP ile 2.4 GHz maksimum saat hızına sahip sıvı soğutmalı bir modeldir.
Bu yeni çip, AMD'nin çiplet (chiplet) alanındaki yılların mühendislik deneyimini ve gelişmiş paketleme teknolojilerini bir araya getiriyor. Toplamda 185 milyar transistöre sahip olan çip, 3D çoklu çiplet yerleşimi kullanıyor. Üretiminde ise TSMC'nin 3nm ve 6nm süreç teknolojileri ve kanıtlanmış COWOS-S paketleme teknolojisinden yararlanılıyor.
Çipin mimarisi, TSMC'nin N3P "3nm" sürecine dayanan 8 adet Hızlandırıcı Kompleks Çekirdeği (XCD) ve TSMC'nin N6 "6nm" sürecine dayanan bir G/Ç Taban Çekirdeğinden (IOD) oluşuyor. IOD, Infinity Fabric AP ara bağlantısını barındırıyor. Paket üzerinde toplam 8 adet HBM3e bellek yuvası bulunuyor ve her IOD, 4 belleğe bağlanıyor.
G/Ç çekirdekleri, her biri üç adet Infinity Fabric Bağlantısı ve AMD EPYC işlemciye (128 GB/s) bir PCIe Gen5 bağlantısı sunuyor. Dört adet HBM3e bellek denetleyicisi, her biri 36 GB kapasiteli 12 katmanlı yığınlara bağlı olarak çalışıyor ve toplamda 8.0 TB/s bellek bant genişliği sağlıyor. Paket üzerinde toplam 288 GB HBM3e bellek bulunuyor.
Her iki G/Ç çekirdeği, 5.5 TB/s bant genişliği sunan bir Infinity Fabric bağlantısıyla birbirine bağlı. Ayrıca, G/Ç çekirdeklerinde 256 MB AMD Infinity Cache yer alıyor. Infinity Fabric Bağlantıları, 4. nesil soketler arası bağlantıları temel alıyor ve XCD'lere 1075 GB/s çift yönlü toplam bant genişliği sağlıyor.
MI350 serisi çipleri, her XCD başına 32 adet AMD CDNA 4 hesaplama birimi (CU) içeriyor; bu da toplamda 256 hesaplama birimi ve her CU başına 128 akış işlemcisi ile 16.384 çekirdek anlamına geliyor. Bu çekirdek sayısı, MI325 ve MI300 serilerine göre daha az olsa da, CDNA 4 mimarisi sayesinde performans artışı sağlanıyor. Çekirdekler sekiz bölgeye ayrılmış durumda ve her XCD 32 hesaplama birimi barındırıyor. Ayrıca 1024 adet Matris Çekirdeği bulunuyor ve MI355X modellerinde maksimum 2.4 GHz saat hızına ulaşılabiliyor.
XCD'nin dahili bellek alt sistemi, 129 KiB VGPR/SIMD, 512 KiB Vektör Kayıtları/CU, 160 KiB LDS/CU (537 GB/s), CU başına 32 KiB L1 önbellek ve XCD başına 4 MiB paylaşımlı L2 önbellek içeriyor. Bu da toplamda şu şekilde bir bellek yapısı sunuyor:
- 131 MB Vektör Kayıtları (Tüm Çip)
- 40 MB LDS (Tüm Çip)
- 8 MB L1 (Tüm Çip)
- 32 MB L2 (Tüm Çip)
- 256 MB Infinity Cache (Tüm Çip)
AMD, MI355X modelinin MI300X'e kıyasla sunduğu performans artışlarını da paylaştı:
- Vektör FP16: 157.3 TFLOPs (1.0x)
- Matris FP16/BF16: 2.5 PFLOPs (1.9x)
- Matris FP8: 5.0 PFLOPs (1.9x)
- Matris INT8/INT4: 5.0 PFLOPs (1.9x)
- Matris MXFP6/MXFP4: 10 PFLOPs (Yeni)
- Vektör FP64: 78.6 TFLOPs (1.0x)
- Matris FP64: 78.6 TFLOPs (0.5x)
- Vektör FP32: 157.3 TFLOPs (1.0x)
- Matris FP32: 157.3 TFLOPs (1.0x)
NVIDIA'nın GB200 SXM sistemleriyle karşılaştırıldığında, MI355X OAM çözümü yapay zeka ve HPC performansında %2.1 daha yüksek hesaplama çıktısı sunuyor.
AMD Instinct MI350 serisi yapay zeka hızlandırıcıları, soket başına esnek GPU bölümlemesini de destekliyor. Bellek iki ayrı küme halinde bölünebiliyor. Bu esneklik, GPU'lar veya XCD'ler için de geçerli; böylece çip, 8 adet 70B model örneğini CPX+NPS2 ile destekleyebiliyor.
Infinity Fabric bağlantısı, 8 hızlandırıcının 154 GB/s çift yönlü bağlantıyla iletişim kurmasını sağlıyor ki bu da önceki nesle göre %20'lik bir hız artışı anlamına geliyor.
AMD ayrıca, çiplerin montaj sürecinden de bahsetti: 3D paketlemeden, paket montajına, OAM montajına ve son soğutucu takma aşamasına kadar tüm süreç detaylandırıldı. Bu OAM'ler daha sonra 8 hızlandırıcıya kadar barındırabilen evrensel taban kartlarına (UBB 2.0) entegre ediliyor. Bu sistemler ise endüstri standardı bir ana makine düğümüne yerleştirilerek veri merkezlerine hazır hale getiriliyor.
Yapay zeka hesaplama gücü konusunda AMD, Instinct MI350 serisinin FP4/FP6 hesaplamada 20 PFLOPs sunduğunu ve bu durumun nesiller arası performansta 4 kat artış sağladığını belirtiyor. HBM3e ile birlikte, her iki modelde de 288 GB gibi yüksek bir kapasiteyle daha hızlı veri aktarım hızları elde ediliyor. Ayrıca, çiplerde 256 MB yeni Infinity Cache bulunuyor.
4U seçenekleri, mevcut UBB8 sistemlerine de uyum sağlayabiliyor. Bu sistemler şu anda MI300X AC 750W ve MI325X AC 1000W hızlandırıcıları barındırıyor.
İki adet nihai sistem bulunuyor. MI350X platformu, 36.9 FP16/BF16 ve 73.9 FP8 PFLOPs'a kadar performans sunarken, 10U hava soğutmalı çözümlere kadar ölçeklenebiliyor. MI355X platformu ise 40.2 FP16/BF16 ve 80.5 FP8 PFLOPs'a kadar performans sunuyor ve 5U doğrudan sıvı soğutmalı (DLC) çözümlere kadar ölçeklenebiliyor. Her iki platform da 2.25 TB HBM3e bellek ve 1075 GB/s Infinity Fabric Bant Genişliği sunuyor. Bu çözümler, AMD'nin en yeni 5. Nesil EPYC işlemcileri ve Pensando UEC uyumlu NIC'leri ile donatılmış durumda.
Aşağıda MI355x'in rakipleriyle karşılaştırması yer alıyor:
MI355x vs B200:
- Bellek: 1.6x Daha Yüksek
- Bant Genişliği: 1.0x Daha Yüksek
- FP64: 2.1x Daha Yüksek
- FP16: 1.1x Daha Yüksek
- FP8: 1.1x Daha Yüksek
- FP6: 2.2x Daha Yüksek
- FP4: 1.1x Daha Yüksek
MI355x vs GB200:
- Bellek: 1.6x Daha Yüksek
- Bant Genişliği: 1.0x Daha Yüksek
- FP64: 2.0x Daha Yüksek
- FP16: 1.0x Daha Yüksek
- FP8: 1.0x Daha Yüksek
- FP6: 2.0x Daha Yüksek
- FP4: 1.0x Daha Yüksek
Ancak MI355X'in önceki nesil MI300 serisine kıyasla ne kadar geliştiğine bakacak olursak; AMD, Llama 3.1 405B (Verim) kullanarak Çıkarım performansında devasa bir 35 kat artış gösterdiğini açıkladı. Bu, gerçekten de çok büyük bir gelişme.
AMD, MI350 serisinin 2025'in 3. çeyreğinde çeşitli iş ortakları aracılığıyla satışa sunulacağını doğruladı. Bir sonraki nesil MI400 serisi ise şimdiden geliştirme aşamasında ve 2026'da piyasaya sürülmesi planlanıyor.