Ara

Google’dan Yapay Zeka İçin Devrim: TurboQuant ile Bellek İhtiyacı 6 Kat Azalıyor, Performans 8 Kata Kadar Artıyor!

Google Araştırma ekibi, yapay zeka modellerinin bellek kullanımını önemli ölçüde azaltan ve performansı artıran yeni bir teknoloji olan TurboQuant'ı tanıttı. Bu yenilikçi algoritma, büyük dil modellerinin (LLM) anahtar/değer (KV) önbelleklerini %3 bit seviyesine sıkıştırarak doğruluk kaybı yaşanmadan bellek ihtiyacını en az altı kat düşürüyor. Nvidia H100 GPU'lar üzerinde yapılan testlerde ise 4-bit TurboQuant, sıkıştırılmamış 32-bit anahtarlara kıyasla dikkat logaritması hesaplamalarında sekiz kata kadar performans artışı sağladı.

KV önbellekleri, LLM'lerin her token üretim adımında önceki dikkat verilerini saklayarak yeniden hesaplama yapmasını engeller. Ancak bağlam pencereleri büyüdükçe bu önbellekler ciddi bellek darboğazlarına neden oluyor. Geleneksel vektör sıkıştırma yöntemleri bu önbelleklerin boyutunu azaltabilse de, sıkıştırılmış verilerin yanında saklanması gereken ek bitler nedeniyle küçük bir bellek yükü getiriyor.

TurboQuant, iki aşamalı bir işlemle bu ek yükü ortadan kaldırıyor. İlk aşamada, verileri standart Kartezyen koordinatlardan kutupsal koordinatlara dönüştüren PolarQuant tekniği kullanılıyor. Bu, her vektörü büyüklüğü temsil eden bir yarıçap ve yönü temsil eden bir dizi açıya ayırır. Açılı dağılımların öngörülebilir ve yoğun olması sayesinde PolarQuant, geleneksel sıkıştırıcıların gerektirdiği pahalı blok normalizasyon adımından kaçınıyor. Bu da saklanan sıkıştırma sabitlerinden kaynaklanan sıfır ek yük ile yüksek kaliteli bir sıkıştırma sağlıyor.

İkinci aşama, Quantized Johnson-Lindenstrauss (QJL) adlı bir algoritma kullanarak 1-bit hata düzeltme katmanı uyguluyor. QJL, artık sıkıştırma hatasını daha düşük boyutlu bir alana yansıtarak her değeri tek bir işaret bitine indirgiyor. Bu sayede dikkat skoru hesaplamalarındaki sistematik hatalar ihmal edilebilir ek maliyetle ortadan kaldırılıyor.

Google, bu üç algoritmayı LongBench, Needle In A Haystack, ZeroSCROLLS, RULER ve L-Eval gibi uzun bağlam testlerinde Gemma ve Mistral gibi açık kaynak modelleri kullanarak test etti. TurboQuant, iğne-içinde-bir-samandanlık bulma görevlerinde mükemmel sonuçlar elde ederken KV belleğini en az altı kat azalttı. Soru cevaplama, kod üretme ve özetleme gibi görevleri kapsayan LongBench testlerinde ise TurboQuant, KIVI temel çizgisine göre tüm görevlerde eşit veya daha iyi performans gösterdi.

Algoritma, vektör aramada da güçlü sonuçlar verdi. Product Quantization ve RabbiQ ile karşılaştırıldığında, TurboQuant daha büyük kod kitapları ve veri seti özelinde ayarlama kullanan bu temel çizgilere rağmen en yüksek 1@k geri çağırma oranlarını elde etti. Google, TurboQuant'ın herhangi bir eğitim veya ince ayar gerektirmediğini ve ihmal edilebilir çalışma zamanı ek yükü getirdiğini belirtti. Bu durum, onu üretim çıkarımı ve büyük ölçekli vektör arama sistemlerinde kullanıma uygun hale getiriyor.

Araştırma bilimcisi Amir Zandieh ve Başkan Yardımcısı Vahab Mirrokni tarafından ortak yazılan makale, önümüzdeki ay ICLR 2026'da sunulacak.

Önceki Haber
Intel Core Ultra 3 205 Piyasada Göründü: Performansı Rakiplerine Karşı Nasıl?
Sıradaki Haber
Intel'den Yapay Zeka Odaklı Yeni Nesil İş İstasyonu ve Kurumsal Bilgisayarlar: Xeon 600 ve vPro Panther Lake Tanıtıldı!

Benzer Haberler: