Ara

Google Gemma 4 Yapay Zeka Modellerine Sürpriz Hız Kazancı: Gelecek Tokenları Tahmin Ediyor!

Google, bu bahar piyasaya sürdüğü Gemma 4 açık kaynaklı yapay zeka modelleriyle yerel yapay zeka alanında yeni bir güç ve performans seviyesi vaat ediyor. Google'ın kenarda (edge) yapay zeka anlayışı, Gemma için geliştirilen Çoklu Token Tahmini (MTP) taslakları sayesinde daha da hızlanıyor olabilir. Google'a göre bu deneysel modeller, spekülatif çözünürlük adı verilen bir yöntemden yararlanarak gelecekteki tokenları tahmin ediyor. Bu, modellerin kendi kendine token üretme yöntemine kıyasla daha hızlı bir çıktı oluşturulmasını sağlayabilir.

En yeni Gemma modelleri, Google'ın öncü yapay zeka teknolojisi Gemini'yi destekleyen aynı temel teknoloji üzerine inşa edilmiştir, ancak yerel olarak çalışacak şekilde ayarlanmıştır. Gemini, devasa kümelerde süper hızlı bağlantılar ve bellekle çalışan özel TPU çiplerinde çalışacak şekilde optimize edilmiştir. Tek bir yüksek güçlü yapay zeka hızlandırıcısı, en büyük Gemma 4 modelini tam hassasiyetle çalıştırabilir ve niceleme (quantization) işlemi sayesinde tüketici sınıfı GPU'larda bile çalıştırılabilir.

Gemma, kullanıcıların verilerini Google veya başka bir şirketin bulut yapay zeka sistemleriyle paylaşmak yerine kendi donanımları üzerinde yapay zeka ile denemeler yapmalarına olanak tanır. Google ayrıca Gemma 4 için önceki sürümlerinde kullandığı özel Gemma lisansından daha esnek olan Apache 2.0 lisansına geçiş yaptı. Ancak, çoğu insanın yerel yapay zeka modellerini çalıştırmak için sahip olduğu donanımın doğal sınırlamaları vardır. İşte MTP'nin devreye girdiği nokta budur.

Gemma (veya Gemini) gibi büyük dil modelleri (LLM'ler), artımlı olarak token üretir; yani bir önceki tokene dayanarak tek seferde bir token üretirler. Üretilen token, ister çıktıda sadece bir dolgu kelimesi ister karmaşık bir mantık probleminin önemli bir parçası olsun, her biri diğerinden eşit derecede hesaplama işi gerektirir.

Kendi yapay zekanızı geliştirmenin sorunu, sistem belleğinizin muhtemelen kurumsal donanımda kullanılan yüksek bant genişlikli belleğe (HBM) kıyasla çok daha yavaş olmasıdır. Sonuç olarak, işlemci her bir token için parametreleri VRAM'den hesaplama birimlerine taşımakla çok zaman harcar ve bu süreçte hesaplama döngüleri boşa harcanır.

MTP, bu zamanı kullanarak ana modelden kaçınır ve daha hafif taslaklar aracılığıyla spekülatif tokenlar üretir. Taslak modeller daha küçük olsa da (Gemma 4 E2B'de sadece 74 milyon parametre), spekülatif token üretimini hızlandırmak için çeşitli şekillerde optimize edilmişlerdir. Örneğin, taslak modeli, ana modelin zaten çalıştığı bağlamı yeniden hesaplamak zorunda kalmaması için anahtar-değer önbelleğini (temelde LLM'nin aktif belleği) paylaşır. E2B ve E4B taslakları ayrıca olası token kümelerini daraltmak için seyrek çözünürlük tekniği kullanır.

Elbette taslak tokenlar her zaman iyi tahminler olmayabilir. Bunlar, hedef model (bu durumda Gemma) tarafından paralel olarak doğrulanır. Model onaylarsa, tüm sıra tek bir ileri geçişte kabul edilir. Bu süreçle birlikte, daha büyük model normal şekilde ek bir token daha üretir. Böylece sistem, tek bir yeni token üretmek için harcanan sürede, taslak dizisinden gelen tokenları ve yeni üretilen bir tokenı paralel olarak üretebilir. Daha fazla ayrıntı isterseniz, Google bu sürecin bir özetini X platformunda yayınlamayı tercih etti.

Anında Daha Hızlı Yerel Çıkarım

Google, bugün deneyebileceğiniz MTP'li yeni Gemma 4 modellerini yayınladı. Google'a göre MTP taslağı, Gemma modellerini üç kata kadar daha hızlı hale getirebilir, ancak gerçek performans kazancı kullandığınız donanıma göre değişiklik gösterir. Google'ın testlerinde, Pixel telefonlardaki daha küçük E2B ve E4B Gemma modelleri sırasıyla 2,8 kat ve 3,1 kat daha hızlı çalışıyor. Apple'ın M4 çipindeki çok daha büyük Gemma 4 31B modeli ise MTP ile 2,5 kat hızlanma sağlıyor.

Şirket, kullanıcıların 26B MoE ve 31B Dense modellerini tüketici donanımlarında daha kolay çalıştırabileceğini ve mobil cihazların E2B ve E4B modellerini çalıştırırken pil ömründe iyileşmeler göreceğini belirtiyor. Ana Gemma modeli tüm taslak tokenları doğruladığı için, MTP "kalite düşüşü olmaması" sağlamalıdır. Bu, her çıktının kusursuz olacağı anlamına gelmez, ancak üretici yapay zeka sistemlerinde yaygın olan hataların MTP ile daha da kötüleşmemesi beklenir.

Spekülatif çözünürlüğü, çok fazla ek çaba gerektirmeden Gemma ile deneyebilirsiniz. Taslaklar, ana Gemma modelleriyle aynı Apache 2.0 lisansı altında mevcuttur. Daha hızlı dönüştürücüler MLX, VLLM, SGLang ve Ollama gibi framework'ler aracılığıyla kullanılabilir.

Önceki Haber
Apple MacBook Neo Üretimini İkiye Katlıyor: 10 Milyon Adet Hedef ve Fiyat Artışı Riski
Sıradaki Haber
Biostar'dan Computex 2026'ya "Yeni Nesil" AMD Anakart Sürprizi: Zen 6 Dönemi Başlıyor Olabilir mi?

Benzer Haberler: