Üretken yapay zeka alanındaki hızlı gelişim, bellek maliyetlerini artırırken, Google da bu trendin önemli bir oyuncusu olarak öne çıkıyor. Bu bağlamda Google, daha az RAM gerektiren yerel yapay zeka modelleri sunarak kullanıcılara yeni bir soluk getiriyor. Şirket, bu yılın başlarında piyasaya sürdüğü Gemma 4 ailesini tamamlayan yeni bir modelini duyurdu. Yeni modelin verimliliği, ortalama bir tüketici dizüstü bilgisayarında dahi çalıştırılmasına imkan tanıyor.
Nisan ayında Google, Apache 2.0 lisansına geçişi de beraberinde getiren dört adet Gemma 4 modeli yayınlamıştı. Bu ilk modeller arasında mobil odaklı iki seçenek (E2B ve E4B) ile daha gelişmiş işler için tasarlanmış iki model (26B Mixture of Experts ve 31B Dense) bulunuyordu. Bu durum, orta segmentte önemli bir boşluk yaratıyordu ve yeni çıkan model tam da bu boşluğu dolduruyor.
Gemma 4 12B, mobil versiyonlardan çok daha yetenekli olmasına rağmen, yerel olarak çalıştırılabilmesi için pahalı bir yapay zeka hızlandırıcısına ihtiyaç duymuyor. Google'ın belirttiğine göre Gemma 4 12B, birçok tüketici dizüstü bilgisayarında kalite kaybı yaşanmadan çalıştırılabilmesiyle öne çıkıyor. Bilgisayarınızda 16GB sistem RAM veya VRAM bulunması durumunda, 12 milyar parametreli bu model sorunsuz bir şekilde çalışacaktır. Bu, Gemma 4 26B MoE'nin toplam bellek gereksiniminin yaklaşık yarısı kadar ve Google, yeni modelin kıyaslamalara göre neredeyse aynı derecede yetenekli olduğunu iddia ediyor.
Google, yeni modelin daha önceki büyük Gemma varyantlarını gerektiren karmaşık çok adımlı akıl yürütme ve ajanlık iş akışlarını gerçekleştirebildiğini belirtiyor. Daha az parametre sayısına rağmen, Gemma 4 12B, boş işlem döngülerinden yararlanarak olası gelecek token'ları hesaplayan, yeni tasarlanmış Çoklu Token Tahmini (MTP) oluşturucularını içeriyor. Bu özellik, daha yüksek hız ve verimlilik sağlıyor. Google, diğer Gemma 4 modelleri için isteğe bağlı MTP versiyonlarını yayınlamış olsa da, bu model MTP desteğiyle kutudan çıktığı gibi geliyor.
Gemma 4 12B, çok modluluk konusunda yenilikçi bir yaklaşımla daha da verimli hale getirilmiş. Gemma 4 ailesi, metin, ses veya görüntü girdilerini kabul eden yerel olarak çok modlu bir yapıya sahip. Diğer Gemma 4 varyantları dahil olmak üzere çoğu üretken yapay zeka modeli, metin dışı girdileri işlemek ve bu veriyi büyük dil modeline aktarmak için özel kodlayıcılar kullanıyor. Bu yöntem iyi çalışsa da, gecikme süresini ve bellek kullanımını artırıyor.
Yeni orta ağırlık modelle birlikte Google, görüş için basitleştirilmiş bir gömme modülü uyguladı. Bu modül, tek matris çarpımı ve konumsal gömme özelliği sayesinde verinin, doğru uzamsal farkındalıkla büyük dil modeline aktarılmasını sağlıyor. Bu da hantal bir ara katman kodlayıcı ihtiyacını ortadan kaldırıyor. Ses için ise herhangi bir kodlama söz konusu değil. Geliştiriciler, ham ses sinyalini metin token'ları için kullanılan vektörlere yansıtmanın bir yolunu buldular.
Yeni Gemma 4 modelini denemek isterseniz, çeşitli araçlar aracılığıyla indirmeye gerek kalmadan erişilebilir. Ancak Gemma 4 12B'nin asıl amacı, yerel olarak ve kendi koşullarınızda çalıştırılabilmesi. Eğer gerekli RAM'e sahipseniz, model ağırlıkları Kaggle ve Hugging Face gibi platformlardan hemen indirilebilir durumda. Model boyutu yaklaşık 18GB civarında.