AMD, San Jose, Kaliforniya'da düzenlenen Advancing AI 2025 etkinliğinde yapay zeka (YZ) iş yükleri için özel olarak tasarlanmış yeni MI350X ve MI355X grafik işlemcilerini (GPU) tanıttı. Şirket, bu yeni hızlandırıcıların bir önceki nesil MI300X'e kıyasla 3 kata kadar daha yüksek performans sunduğunu ve böylece pazar lideri rakibine karşı rekabet konumunu güçlendirdiğini iddia ediyor. AMD, benzer karşılaştırmalı çıkarım (inference) testlerinde rakibinden 1.3 kata kadar, belirli eğitim (training) iş yüklerinde ise 1.13 kata kadar daha iyi performans sağladığını belirtiyor.
AMD ayrıca, önceki nesil MI300X modellerine kıyasla "YZ hesaplama performansında" 4 kat, çıkarım performansında ise tam 35 kat artış elde edildiğini iddia ediyor. Bu devasa artışın temelinde CDNA 4 mimarisine geçiş ve hesaplama chiplet'leri için daha küçük, daha gelişmiş bir üretim düğümünün (TSMC N3P) kullanılması yatıyor. AMD'nin MI350 platformlarının üretimi geçtiğimiz ay itibarıyla başladı.
Bu yeni MI300 Serisi YZ GPU'ları, şirketin MI400 serisini piyasaya sürmesine kadar bu yılın geri kalanında ve 2026 boyunca AMD'nin sunucu raf çözümlerine güç verecek.
MI350X ve MI355X modelleri, temelde aynı tasarıma sahip. Her ikisi de 288 GB'a kadar HBM3E bellek, 8 TB/s'ye kadar bellek bant genişliği ve yeni FP4 ile FP6 veri türleri için destek sunuyor. Aralarındaki temel fark ise soğutma yöntemleri ve güç tüketimi. MI350X, daha düşük Toplam Kart Gücü (TBP) ile hava soğutmalı çözümler için uygunken, MI355X, mümkün olan en yüksek performansı sunmak için sıvı soğutmalı sistemler için daha yüksek güç tüketimine sahip.
Önceki nesilde CPU ve GPU çekirdeklerini bir araya getiren MI300A gibi bir APU (Hızlandırılmış İşlem Birimi) sürümü bu nesilde bulunmuyor. Yeni seri sadece GPU odaklı tasarımlardan oluşuyor.
AMD'nin MI355X'i, rakibinin (Nvidia) GB200 ve B200 GPU'larına kıyasla 1.6 kat daha fazla HBM3E bellek kapasitesi sunuyor, ancak aynı 8 TB/s bellek bant genişliğini koruyor. AMD, rakip çiplere göre FP64 / FP32 tepe performansında 2 kat avantaj iddia ediyor. Düşük hassasiyetli formatlara (FP16, FP8, FP4) bakıldığında ise AMD'nin genellikle rakip ürünlerle eşleştiği veya biraz daha iyi performans gösterdiği görülüyor. FP6 performansının FP4 hızlarında çalışması, AMD'nin öne çıkardığı bir özellik.
Rakip çiplerde de görüldüğü gibi, yeni tasarım ve artan performans beraberinde daha yüksek güç tüketimini getiriyor. Sıvı soğutmalı, yüksek performanslı MI355X modelinin Toplam Kart Gücü (TBP) 1.400W'a kadar çıkıyor. Bu, MI300X'in 750W ve MI325X'in 1.000W değerlerine kıyasla kayda değer bir artış.
AMD, bu artan performans yoğunluğunun, müşterilerinin tek bir rafa daha fazla işlem gücü sığdırmasını sağlayarak, toplam sahip olma maliyetine (TCO) kıyasla performansı iyileştirdiğini vurguluyor.
Yeni çipler performansta önemli ilerlemeler sunsa da, 3D ve 2.5D paketleme teknolojilerini birleştiren temel tasarım prensipleri korunmuş. 3D paketleme, Hızlandırıcı Hesaplama Kalıplarını (XCD) G/Ç Kalıplarıyla (IOD) birleştirmek için kullanılırken, 2.5D paketleme IOD'leri birbirine ve HBM3E yığınlarına bağlamak için kullanılıyor.
Çipte toplam sekiz XCD chiplet bulunuyor ve her biri 32 hesaplama birimine (CU) sahip, toplamda 256 aktif CU (AMD, verimi artırmak için her XCD'de dört CU rezervi tutuyor). XCD'ler, önceki nesildeki 5nm üretim sürecinden MI350 serisi için TSMC'nin N3P sürecine geçti. Toplam çip, 185 milyar transistör içeriyor; bu, önceki neslin 153 milyar transistör bütçesine göre %21'lik bir artış anlamına geliyor.
Ek olarak, G/Ç Kalıbı (IOD) N6 üretim düğümünde kalsa da, AMD tasarımı basitleştirmek için IOD'yi dört döşemeden ikiye indirdi. Bu değişiklik, Infinity Fabric veriyolu genişliğini iki katına çıkararak çift yönlü bant genişliğini 5.5 TB/s'ye kadar yükseltirken, veriyolu frekansını ve voltajını düşürerek güç tüketimini de azalttı. Bu, uncore güç gereksinimlerini düşürerek hesaplama için daha fazla güç ayrılmasına imkan tanıyor.
MI300 serisinde olduğu gibi, Infinity Cache (bellek önbelleği) HBM3E'nin önünde yer alıyor (her HBM yığını için 32 MB).
Tamamlanmış işlemci, bir PCIe 5.0 x16 arayüzü aracılığıyla ana sisteme bağlanıyor ve ana sisteme tek bir mantıksal aygıt olarak görünüyor. GPU, yedi Infinity Fabric bağlantısı aracılığıyla diğer çiplerle iletişim kurarak toplamda 1.075 GB/s verimlilik sağlıyor.
Hem MI350X hem de MI355X OAM form faktöründe üretiliyor ve önceki nesil MI300X gibi standart UBB form faktörlü sunuculara (OCP spesifikasyonu) kolayca takılabiliyor. AMD, bunun kurulum süresini hızlandırdığını belirtiyor.
Çipler, sekiz hızlandırıcının 153.6 GB/s çift yönlü Infinity Fabric bağlantıları üzerinden iletişim kurduğu bir hepsi-hepsi (all-to-all) topolojisi aracılığıyla birbirleriyle konuşuyor. Her düğüm, AMD'nin beşinci nesil EPYC 'Turin' çiplerinden ikisi tarafından destekleniyor.
AMD tüm ağ türlerini desteklese de, ölçeklendirme (scale-out) çözümü olarak Ultra Ethernet Konsorsiyumu (UEC) uyumlu Pollara NIC'lerini, ölçek büyütme (scale-up) ağı için ise Ultra Hızlandırıcı Bağlantısı (UAL) ara bağlantısını konumlandırıyor.
AMD hem Doğrudan Sıvı Soğutmalı (DLC) hem de Hava Soğutmalı (AC) raf çözümleri sunuyor. DLC rafları, sıvı soğutmanın sağladığı artan yoğunluk sayesinde 128 MI355X GPU ve 36 TB HBM3E barındırabiliyor. AC çözümleri ise, hava soğutma yoluyla termal yükü dağıtmak için daha büyük düğümler kullanarak en fazla 64 GPU ve 18 TB HBM3E'ye sahip olabiliyor.
AMD, rakibine (Nvidia) kıyasla geçmişteki bir eksiklik olan raf ölçeğinde mimarilerin gücünü ortaya çıkarmaya büyük bir odaklanma gösteriyor. Şirket, hedeflerini ilerletmek için bir dizi satın alma gerçekleştirdi ve güçlü, büyüyen bir ortak üretici (OEM) listesi oluşturdu.
Bekleneceği gibi, AMD hem kendi önceki nesil sistemlerine hem de rakip (Nvidia) ürünlerine karşı bazı performans projeksiyonları ve test sonuçları paylaştı. Her zaman olduğu gibi, satıcı tarafından sağlanan test sonuçlarına ihtiyatla yaklaşılması gerektiğini hatırlatmakta fayda var. AMD, özellikle YZ aracıları ve sohbet botları gibi iş yüklerinde önceki nesle göre 4 kata kadar, içerik üretimi ve özetleme gibi alanlarda ise 2.6 ile 3.8 kat arasında önemli nesilsel iyileşmeler olduğunu belirtiyor. Rakip sistemlere karşı da farklı iş yüklerinde daha iyi veya eşdeğer performans sergilediği iddia ediliyor.