Google'dan heyecan verici bir yapay zeka hamlesi daha! Google DeepMind, Gemma 4 açık model ailesine yeni bir üye ekledi: DiffusionGemma. Bu model, diğerlerinden farklı bir yaklaşımla, metinleri doğrusal olarak değil, bloklar halinde paralel olarak üretebiliyor. Google'ın belirttiğine göre bu yenilikçi yaklaşım, yerel donanımlarda, örneğin bir Nvidia DGX veya oyun bilgisayarlarındaki grafik kartlarında, yapay zekanın çok daha hızlı ve verimli çalışmasını sağlıyor.
Günümüzdeki çoğu yapay zeka modeli, metinleri soldan sağa, kelime kelime, yani otoregresif bir şekilde oluşturur. DiffusionGemma ise bu kalıbı kırarak, tıpkı görüntü üretim modellerine benzer bir mantıkla çalışıyor. Görüntü modelleri statik bir görüntüden başlayıp onu iyileştirerek istenen içeriği elde ederken, DiffusionGemma da bir dizi yer tutucu (placeholder) token ile başlıyor ve bunları defalarca işleyerek olası tokenları belirliyor. Bu süreç sonunda, tüm token çıktısını tek bir büyük blok halinde, yani "iyileştirilmiş" metin olarak tamamlıyor.
DiffusionGemma, Google'ın açık modelleri arasında oldukça büyük bir model. 26 milyar parametreye sahip bir Uzmanlar Karışımı (Mixture of Experts - MoE) modeli olsa da, çıkarım sırasında yalnızca 3.8 milyar parametresi aktif kullanılıyor. Bu durum, modelin yüksek seviye bir grafik kartının 18GB RAM'ine sığabileceği anlamına geliyor. Yapılan testlerde, bir RTX 5090 ile DiffusionGemma'nın saniyede yaklaşık 700 token üretebildiği gözlemlenmiş. Tek bir Nvidia H100 yapay zeka hızlandırıcısı ile ise bu rakam 1.000 token/saniyenin üzerine çıkıyor. Bu, benzer büyüklükteki otoregresif Gemma modellerine göre yaklaşık dört kat daha yüksek bir çıktı anlamına geliyor.
Bu metin üretim yaklaşımı, işlem darboğazını bellek bant genişliğinden ziyade hesaplama gücüne kaydırarak, saniyede 256 token'a kadar paralel üretim yapabiliyor. Google'a göre bu, satır içi düzenleme, moleküler dizileme ve matematiksel grafik çizimi gibi doğrusal olmayan görevlerde ölçülebilir bir hız artışı sağlıyor. Yukarıdaki görselde de görülebileceği gibi, DiffusionGemma'nın Sudoku bulmacalarını çözmek üzere eğitildiği görülüyor. Standart otoregresif yapay zeka modelleri için oldukça zorlayıcı olan bu görev, DiffusionGemma'nın büyük token setlerini sürekli olarak kendi kendini düzeltebilme yeteneği sayesinde daha kolay hale geliyor.
Yerel Verimlilik İçin Farklı Yollar
Eğer diffüzyon bu kadar hızlıysa, Google neden daha büyük bulut tabanlı Gemini modellerinde bunu kullanmıyor? Google bu teknolojiyi denemiş olsa da, metin diffüzyonunun bazı dezavantajları bulunuyor. Bunlardan biri, daha yüksek bir hata oranı olabilmesi. Görüntü diffüzyon modellerinde tek bir hatalı piksel görüntüyü kullanılamaz hale getirmezken, dildeki eşdeğer bir hata, bir grup token'ı anlamsız hale getirerek yeniden başlamayı gerektirebiliyor. Ayrıca, diffüzyon modelleri, sadece birkaç token'lık çıktı istendiğinde kaynakları boşa harcayabiliyor. Çünkü çıktı alınacak token sayısı az olsa bile, otoregresif bir modelin beş adımda tamamlayacağı işi, paralel çalışarak gerçekleştirmesi gerekiyor.
Ancak yerel işlemdeki verimlilik kazancı, bu yaklaşımı cazip kılıyor. Bulutta, otoregresif modeller çok sayıda kullanıcının hesaplama işini gruplayarak sürekli token üretebiliyor ve bu sistemlerde kullanılan yüksek bant genişlikli bellek (HBM), veriyi çok daha verimli taşıyabiliyor.
Buna karşılık, yerel yapay zeka, daha düşük bellek bant genişliği ve boşta kalma süreleri nedeniyle işlem döngülerinde kayıplar yaşayabiliyor. Diffüzyon modelleri mevcut işlem gücünü daha verimli kullanabilse de, bu tek yöntem değil. Google, yakın zamanda, boşta kalan işlem döngülerini kullanarak olası tokenları tahmin eden ve böylece hızı artıran Çoklu Token Tahmini (Multi-Token Prediction - MTP) sistemlerini de kullanmaya başladı. Ancak diffüzyon, MTP sürümlerinden bile daha hızlı bir performans sergiliyor.
Google, DiffusionGemma'nın deneysel bir model olduğunu vurgulasa da, diğer dördüncü nesil Gemma modelleri gibi Apache 2.0 lisansı altında sunuluyor. Model ağırlıklarını şimdiden Hugging Face üzerinden indirebilirsiniz. Google, DiffusionGemma'nın Nvidia ile iş birliği yaparak, optimize edilmiş RTX grafik kartları (quantized) ve H100 veya DGX Spark platformu gibi kurumsal sistemler dahil olmak üzere çeşitli kurulumlar için optimize edildiğini belirtiyor.