Günümüzün devasa ve giderek büyüyen veri merkezlerinde, binlerce hatta yüz binlerce sunucunun birbirine kusursuz bir şekilde bağlanması büyük önem taşıyor. Geleneksel Ethernet teknolojisi ise bu ölçekteki ihtiyaçlar için bazı kısıtlamalar sunuyor. Bu noktada, veri aktarım hızından çok mimarisi ve veri transfer yöntemleri bir darboğaz oluşturabiliyor. Bu sorunu çözmek amacıyla, önde gelen teknoloji şirketleri tarafından geliştirilen yeni nesil veri merkezi bağlantı standardı Ultra Ethernet, düşük gecikme süresi ve yüksek bant genişliği sunarak mevcut Ethernet ve IP altyapısı üzerinden ölçeklenebilir ağ bağlantısı sağlamayı hedefliyor. Ultra Ethernet Konsorsiyumu tarafından belirlenen bu yeni standart, 2025 ortasında Ultra Ethernet 1.0.1 spesifikasyonu ile tanımlandı ve şu anda 100'den fazla şirketi bünyesinde barındırıyor.
Yeni standart, yazılımdan fiziksel katmana kadar tamamen yeni bir mimari sunarak, mevcut Ethernet ve IP altyapısı üzerinde sıra dışı ve bağlantısız iletişimi destekliyor. İşte Ultra Ethernet hakkında bilmeniz gerekenler:
Binlerce Sunucu ve Bağlantı İhtiyacı
Ethernet, uzun yıllardır kurumsal ağların temel taşı ve bulut veri merkezlerinin vazgeçilmez bağlantı teknolojisi olarak öne çıkıyor. Ancak geleneksel Ethernet protokolleri, bir milyona kadar düğüme sahip ölçeklenebilir ortamlar için tasarlanmamıştı. Ultra Ethernet ise bu ihtiyacı karşılamayı amaçlıyor.
Özellikle TCP'nin sıralı veri iletimi ve reaktif tıkanıklık kontrolü gibi geleneksel Ethernet'in temel tasarım prensipleri, aynı anda yüz binlerce bağlantı aktif olduğunda (yapay zeka ve yüksek performanslı hesaplama iş yüklerinde yaygın bir durum) zorlanıyor. Düğüm sayısı arttıkça, paketlerin çarpışma veya gecikme olasılığı artıyor ve anahtarların çok sayıda akışı takip etmesi gerekiyor, bu da yanlış tıkanıklığa ve kararsız gecikmelere neden oluyor. Ethernet ayrıca, kurumsal ağlar için yeterli olsa da, senkronize yapay zeka veya yüksek performanslı hesaplama kümelerinde gecikme ve ek yük getiren yazılım ağırlıklı güvenilirlik ve en iyi çaba teslimatına dayanıyor.
Süper bilgisayarlar genellikle Infiniband gibi özel ara bağlantı teknolojilerini kullanır. Bu teknolojiler, donanım düzeyinde akış kontrolü, deterministik yönlendirme ve donanım yönetimiyle güvenilirlik sunar. Bu bağlantılarla ağ arabirim kartı (NIC) doğrudan paket onayları, yeniden iletimler ve hata kurtarmadan sorumludur. Ancak bu teknolojiler tescilli ve pahalıdır, bu nedenle ilk geliştirme aşamalarında yeni nesil yapay zeka ve yüksek performanslı hesaplama veri merkezleri için pek düşünülmedi.
Mevcut bir çözümü benimsemek yerine, Ultra Ethernet Konsorsiyumu (UEC), paketlerin sıralı olarak gelmesi gerektiği geleneksel gereksinimi ortadan kaldırarak veri aktarımını yeniden şekillendiren tamamen yeni bir ağ standardı oluşturdu. Bu yeni standart, mevcut Ethernet ve IP altyapısı üzerinde sıra dışı, bağlantısız iletişim için tasarlanmış, yazılımdan fiziksel katmana kadar yeni bir mimari sunuyor. Sonuç olarak, eski RDMA uygulamalarından daha iyi performans gösteren, verimli ve oldukça ölçeklenebilir bir taşıma yığını elde ediliyor ve günümüzün veri merkezi donanım ve yazılım ekosistemleriyle (örneğin, IEEE 802.1, 802.3 ve IETF RFC) uyumluluğu korunuyor.
Ultra Ethernet: Tasarım Hedefleri
Konsorsiyumun temel hedefi, RoCE v2 gibi RDMA teknolojilerinden miras kalan uzun süredir devam eden sorunları çözmekti. 2000'lerin başındaki bu protokoller, sıralı düşük gecikme süreli ağlar için optimize edilmişti, ancak çok yollu bağlantı, etkili tıkanıklık kontrolü ve yerleşik güvenliğe sahip değillerdi.
RDMA'nın katı sıralama mekanizmaları, tüm paketleri tek bir rotaya zorlayarak ağları yanlış tıkanıklığa ve verimsiz yük dengelemesine daha yatkın hale getiriyor, özellikle günümüzün yapay zeka ve yüksek performanslı hesaplama kümelerinde görülen ani iş yükleri için verimsiz oluyor. Sonuç olarak, on binlerce GPU'dan oluşan modern yapay zeka kümeleri, mevcut Ethernet'in yetersizlikleri nedeniyle performanslarının yaklaşık %30'unu kaybedebilir.
UEC, ağ sorumluluklarını daha net bölümlere ayırarak, güvenilirliği anlambilimden ayırmayı hedefliyor. Protokol mimarlarının belirttiği gibi, bağlantılar ağır, kalıcı veya yazılım tarafından görünür olmamalıdır. Bir sistemin mesaj bütünlüğü, akış kontrolü ve bağlantı durumu gibi her şeyi ele alması yerine, bu işlevler bölünmüş durumda: Güvenilirlik katmanı paket teslimi, onaylar ve yeniden iletimlerden sorumluyken, anlambilim katmanı mesajlar, adresleme ve etiketler gibi daha üst düzey ayrıntıları ele alır.
Bu tasarım, paketlerin yazılımı karıştırmadan sıra dışı gelmesine olanak tanır. Dahası, değişiklik uygulama seviyesinin altında gerçekleştiği için, mevcut uygulamalar, ara katman yazılımları ve Ethernet/IP ağları olduğu gibi çalışmaya devam edebilir, bu da Ultra Ethernet'in mevcut veri merkezlerine dağıtımını büyük ölçüde kolaylaştırır.
Özel Evrim Devrim Haline Dönüşüyor
Ultra Ethernet teknolojisi, birbirini tamamlayarak daha büyük bir bütün oluşturan birçok katmana sahip. Özel olarak geliştirilmiş evrimsel adımları, büyük ölçekli yapay zeka ve yüksek performanslı hesaplama dağıtımlarına yönelik ağ teknolojisi için büyük bir sıçrama yarattı.
Fiziksel Katman: Ultra Ethernet'in fiziksel katmanı, standart IEEE 802.3 Ethernet sinyalleşmesi ve optiklerine dayanmaya devam ediyor. Bu, günümüz veri merkezlerinde zaten kullanılan aynı kabloların, alıcı-vericilerin ve anahtar portlarının kullanıldığı anlamına geliyor. Ancak UE'nin fiziksel katmanı, gelişmiş ileri hata düzeltme (FEC), daha düşük gecikmeli bağlantı eğitimi, daha hassas zamanlama ve titreşim özellikleri, daha iyi telemetri (operatörlere sinyal bütünlüğü ve bağlantı sağlığı hakkında daha fazla görünürlük sağlar) ve büyük ölçekli yapay zeka ve yüksek performanslı hesaplama dağıtımları için gelişmiş senkronizasyon sunuyor. Ultra Ethernet'in en önemli iyileştirmelerinin bağlantı ve taşıma katmanlarında olduğu söylenebilir.
Bağlantı Katmanı: Anahtarlar ve ağ adaptörleri arasındaki doğrudan bağlantıları yönetir ve veri merkezi genelinde sinyal bütünlüğü, düşük gecikme süresi ve güvenilir performans sağlar. Ultra Ethernet'in bağlantı katmanı üç isteğe bağlı yükseltme sunar: Kredi Tabanlı Akış Kontrolü (CBFC), tampon aşırı yüklenmelerini önleyerek cihazlar arasındaki veri akışını sabit tutar; Bağlantı Katmanı Yeniden Denemesi (LLR), iletim hatalarını hızla düzeltir; ve Paket Kırpma (PT), paket kaybını önler. Birlikte, tıkanıklığı önlemeye, veri kaybını azaltmaya ve ağ performansını güvenilir ve öngörülebilir tutmaya yardımcı olurlar.
Taşıma Katmanı: Ultra Ethernet'in kalbi burasıdır, çünkü sistemler arasında sıra dışı bir şekilde hızlı, güvenilir ve güvenli veri aktarımını sağlar. Katman, mesajların nasıl gönderildiğini yöneten, paketleri sıraya sokan, ağ trafiğini kontrol eden ve şifreleme yoluyla verileri koruyan dört bölümden oluşan Ultra Ethernet Taşıma (UET) protokolünü kullanır. Paketler farklı rotalar izleyip sıra dışı gelse bile, sistem bunları anında yeniden birleştirir, böylece gecikmeyi düşük, verimi yüksek ve büyük yapay zeka ve yüksek performanslı hesaplama kümelerinde performansı sabit tutar.
Depolama Katmanı: Ultra Ethernet'in depolama katmanı, tam bir yeniden tasarımdan çok bir entegrasyon ve optimizasyon çabasıdır. NVMe-over-Fabrics, RDMA ve RoCE gibi mevcut Ethernet depolama protokollerini değiştirerek değil, üzerine inşa ederek çalışır. Yine de, protokolleri büyük yapay zeka kümelerine daha iyi uyacak şekilde optimize ederek, UET ile sıkı bir şekilde entegre eder, böylece G/Ç gecikmelerini azaltır ve binlerce düğümde tutarlılığı artırarak yüksek hızlı ağları depolama altyapısıyla daha verimli bir şekilde bağlar.
Yönetim Katmanı: Ultra Ethernet, yönetimi temel cihaz yapılandırmasından büyük yapay zeka ve yüksek performanslı hesaplama sistemleri için fabric genelinde otomatik ağ düzenlemesine dönüştürür. Bunu yapmak için, cihaz keşfi, ağ topolojisi haritalaması ve performans izleme için otomatik araçlar içerir, bu da yöneticilerin binlerce birbirine bağlı düğümde sorunları hızla teşhis etmesine ve düzeltmesine olanak tanır.
Yazılım Katmanı: Ultra Ethernet'teki yazılım katmanı (veya daha doğrusu Yazılım Yığını), uygulamalar ve ağ ile arayüz oluşturur. Geleneksel Ethernet'tekine göre radikal bir farklılık göstermez, ancak yapay zeka ve yüksek performanslı hesaplama dağıtımları için Ethernet'i daha programlanabilir ve kullanılabilir hale getirmek üzere önemli ölçüde genişletilmiştir. Anahtar iyileştirme, SL'nin artık Libfabric'i entegre etmesidir; bu, programların verileri doğrudan bellekten ağ arabirimine göndermesine, CPU'yu atlayarak performansı artırmasına olanak tanıyan sıralı olmayan işlemleri destekleyen açık kaynaklı bir ağ API'sidir.
Ek olarak, Yazılım Katmanı, ağ yönetimini standartlaştırmak için OpenConfig'i ve yapılandırma verilerinin nasıl yapılandırıldığını tanımlayan YANG veri modelleme dilini destekler. Genel olarak, yazılım katmanı Ethernet'in temel uyumluluğunu korur, ancak programlanabilirliği artırır, gecikmeyi azaltır ve genel verimliliği iyileştirir.
Ultra Ethernet Yönetimi
Geleneksel Ethernet'te olduğu gibi, Ultra Ethernet'in evrimi, Ultra Ethernet Konsorsiyumu'nu oluşturan iyi kurulmuş standart organizasyon ekosistemi tarafından yönetilir. Bu organizasyonlar arasında, tüm Ultra Ethernet cihazlarının ve yazılımlarının doğru çalıştığından ve gerekli performans seviyelerini karşıladığından emin olmak için resmi standartları ve test prosedürlerini belirleyen bir Uyumluluk Çalışma Grubu bulunur. Ayrıca, UE ağlarını yapılandırmak, izlemek ve kontrol etmek için araçlar ve modeller oluşturan, operatörlerin büyük fabric'leri verimli bir şekilde yönetmelerini sağlayan Yönetim Çalışma Grubu da bulunmaktadır. Son olarak, UE sistemlerini test etmek, ölçmek ve sorunlarını gidermek için performans ölçütlerini ve tanılama araçlarını tanımlayan, yüksek güvenilirlik ve tutarlı performansı sağlayan bir Performans ve Hata Ayıklama Çalışma Grubu mevcuttur.
Gelişmekte Olan Bir Çalışma
UEC 1.0.1 spesifikasyonu çekirdek mimariyi, taşıma ve bağlantı modellerini tanımlasa da, teknoloji doğrulama, benimseme ve geliştirme açısından henüz erken aşamalarındadır. Ultra Ethernet Taşıma protokolü, tıkanıklık yönetimi, paket kırpma ve diğerleri gibi yeniliklerinin çoğu prototip donanım ve yazılıma entegre edilirken test ediliyor, iyileştiriliyor.
Donanım söz konusu olduğunda, AMD'nin Pensando Pollara 400 AI NIC'i gibi, UEC'ye hazır (UEC 1.0 uyumlu değil) ağ kartları zaten mevcut. Bu, kartın şimdilik spesifikasyonun tüm özelliklerini desteklemediği anlamına geliyor. Kart, Akıllı Paket Dağıtımı, Sıra Dışı Paket İşleme, Seçici Yeniden İletim ve Yola Duyarlı Tıkanıklık Kontrolü gibi özellikleri desteklerken, geliştiricisi Paket Kırpma, bağlantı düzeyinde Kredi Tabanlı Akış Kontrolü (CBFC) veya gelişmiş Bağlantı Katmanı Yeniden Denemesi (LLR) desteği gibi bağlantı düzeyindeki özellikleri belirtmiyor. Ancak bunlar şu anda isteğe bağlı yeteneklerdir.
Konsorsiyum, Ultra Ethernet spesifikasyonunun gelecekteki sürümlerini ve uzantılarını geliştirmeye devam ediyor, ancak bunların ne zaman resmi olarak tanıtılacağını yalnızca zaman gösterecek.