AMD’den Yapay Zeka Atılımları: vLLM-ATOM Eklentisi ile LLM’ler Uçuşa Geçiyor!

AMD, Instinct MI350 ve MI400 hızlandırıcıları üzerinde yapay zeka büyük dil modellerinin (LLM) çıkarım performansını önemli ölçüde artıran yeni vLLM-ATOM eklentisini tanıttı.

AMD'den Yapay Zeka LLM'leri İçin Büyük Performans Artışı: vLLM-ATOM Eklentisi, vLLM ile Sorunsuz Çalışıyor ve Yapay Zeka Çıkarım Performansını Hızlandırıyor

vLLM-ATOM, çeşitli yapay zeka LLM'lerinde çıkarım performansını iyileştirmeyi hedefleyen, özel olarak tasarlanmış bir eklentidir. AMD'nin yüksek performanslı Instinct MI350 ve MI400 gibi GPU hızlandırıcıları etrafında geliştirilmiştir. Bu eklenti, bağımsız bir çıkarım sunucusu olarak veya mevcut vLLM ortamına sorunsuz bir şekilde entegre edilerek çalışabilir. Böylece kullanıcılar, vLLM'nin temel veri yapılarında herhangi bir değişiklik yapmadan AMD'nin yerel model ve çekirdek optimizasyonlarından tam olarak yararlanabilir.

vLLM-ATOM'un öne çıkan özellikleri şunlardır:

Sıfır Öğrenme Eğrisi: Mevcut vLLM komutları, API'leri ve uçtan uca iş akışlarıyla tam uyumluluk sunar. ATOM, arka planda şeffaf bir şekilde çalışır, yeni araçlar veya karmaşık yapılandırmalar gerektirmezken, tutarlı bir kullanıcı deneyimini koruyarak geliştirilmiş çekirdek performansı sağlar.
AMD Yeniliklerine Anında Erişim: Üst düzey AMD donanım özelliklerinden (örneğin, MI355X GPU'da FP4 desteği, MI400 GPU'da raf ölçekli çıkarım) ve üstün çekirdek optimizasyonlarından (örneğin, AITER birleşik dikkat, özel AllReduce) ana vLLM kod tabanına entegrasyonu beklemeden doğrudan yararlanma imkanı sunar. Bu, yeni AMD GPU'larının değer kazanma süresini büyük ölçüde kısaltır.
Çevik Yenilik Kumu Kutusu: Yeni teknik fikirlerin, donanım etkinleştirmelerinin ve çekirdek kütüphanesi testlerinin (örneğin, AITER) hızlı bir şekilde doğrulanmasını sağlayan bir katman sunar. Eklenti, yeni GPU sürümleri, FP8/FP4 hassasiyet desteği ve gelecek nesil dikkat mekanizmaları gibi AMD ürün yol haritasıyla esnek bir şekilde uyumludur ve vLLM'nin ana sürüm döngülerinden bağımsız hareket eder.
ROCm İçin Üretim Sınıfı Temel: Topluluk standardı bir sunum çerçevesi olan vLLM, ROCm tabanlı altyapıları ölçekte dağıtmak için gereken kurumsal düzeyde istikrar, geniş model kapsama alanı ve üretim ortamları için kritik özellikler sağlar.
Herkese Açılan Olgun Optimizasyonlar: ATOM, yeni optimizasyonlar için geçici bir test alanı görevi görür. Bu optimizasyonlar stabilize edildiğinde, çekirdekler, optimizasyon stratejileri ve yeni özellikler vLLM'nin yerel ROCm arka ucuna entegre edilerek tüm ROCm yazılım kullanıcı topluluğuna fayda sağlar ve açık kaynak LLM ekosistemini güçlendirir.

vLLM-ATOM mimarisi üç katmana ayrılmıştır.

Model desteği açısından, vLLM-ATOM eklentisi, birleşik bir sunum hattı aracılığıyla hem yapay zeka LLM'lerini hem de VLM'leri (Görsel-Dil Modelleri) destekler. Tam liste aşağıdadır.

AMD'nin Notu: vLLM-ATOM, donanıma özgü optimizasyon ve çerçeve uyumluluğunun birbirini dışlamadığını kanıtlıyor. vLLM'nin kutudan çıktığı haliyle sunulan eklenti mekanizmasından yararlanan ATOM, birleşik dikkat, niceleştirilmiş GEMM ve optimize edilmiş MoE yönlendirme gibi AMD'ye özgü çekirdek optimizasyonlarını sunarken, üretim LLM dağıtımlarının güvendiği vLLM'nin tüm özellik setini korur.

Anında performans artışlarının ötesinde, eklentinin mimarisi AMD'nin donanım ve yazılım yenilikleri için kritik bir test alanı görevi görür: ATOM'un eklenti modunda doğrulanmış optimizasyonlar zamanla vLLM'nin yerel ROCm arka ucuna aktarılır ve tüm ROCm ile açık kaynak LLM topluluğuna fayda sağlar. Son kullanıcılar için bu, yavaş entegrasyon döngülerini beklemeden en son AMD donanım yeteneklerine anında erişim anlamına gelir ve AMD donanım yenilikleri ile vLLM sunum ekosistemi arasında bir gelişim döngüsü yaratır.

İlker Özgül

Discord Nitro Artık Xbox Game Pass'in 'Başlangıç Sürümü' ile Geliyor: 50'den Fazla Oyun Sizi Bekliyor, Ama Dikkat!

Lies of P'nin Geliştiricisinden Yapay Zeka Hamlesi: Sanat Üretimini Hızlandırmak İçin Yapay Zeka Yöneticisi Aranıyor

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara