NVIDIA, yapay zeka alanındaki yeniliklerine devam ediyor. Şirket, özellikle yapay zeka ajanlarının daha hızlı ve akıllı yanıtlar vermesini sağlayan 9 kat daha yüksek verim sunan yeni açık kaynaklı multimodal modeli Nemotron 3 Nano Omni'yi tanıttı.
NVIDIA'nın Yapay Zeka Modeli Nemotron 3 Nano Omni ile Genişliyor
Bugün duyurulan NVIDIA Nemotron 3 Nano Omni, video, ses, görüntü ve metin verilerini tek bir sistemde birleştirerek yapay zeka ajanlarının gelişmiş mantık yürütme yetenekleriyle daha hızlı ve akıllı yanıtlar üretmesini sağlıyor. Bu üstün model, kurumsal firmalar ve geliştiriciler için daha verimli ve doğru multimodal yapay zeka ajanları geliştirme yolunda önemli bir adım sunuyor. Ayrıca, modelin tam dağıtım esnekliği ve kontrol imkanı da bulunuyor.
Nemotron 3 Nano Omni, karmaşık belge anlama, video ve ses çözme konularında altı liderlik tablosunda en üst sıralarda yer alarak açık kaynaklı multimodal modeller için yeni bir verimlilik seviyesi belirliyor. Bu da onu düşük maliyet ve yüksek doğruluk sunan bir çözüm haline getiriyor.
Modeli şimdiden benimseyen yapay zeka ve yazılım şirketleri arasında Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir ve Pyler bulunuyor. Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle ve Zefr gibi büyük oyuncular ise modeli değerlendirme aşamasında.
Nemotron 3 Nano Omni ile Daha Hızlı ve Verimli Multimodal Ajanlar
30 milyar parametreli hibrit karışım uzmanları (hybrid mixture-of-experts) mimarisini kullanan Nemotron 3 Nano Omni, görsel ve işitsel algılayıcıları tek çatı altında toplayarak ayrı algılama modellerine olan ihtiyacı ortadan kaldırıyor. Bu sayede, büyük ölçekte çıkarım verimliliğini artırıyor. Aynı etkileşim seviyesinde diğer açık kaynaklı omni modellere kıyasla 9 kat daha yüksek verim elde edilmesini sağlayan Nemotron 3 Nano Omni, maliyetleri düşürürken ölçeklenebilirliği artırıyor. Bu durum, yanıt verme hızından veya kaliteden ödün vermeden gerçekleştiriliyor.
Yapay zeka ajan sistemlerinde Nemotron 3 Nano Omni, bilgisayar kullanımı, belge anlama ve ses-video mantık yürütme gibi görevler için alt ajanları desteklemek üzere, diğer NVIDIA Nemotron açık modelleriyle veya özel bulut modelleriyle birlikte çalışabiliyor. Örneğin, yüksek frekanslı yürütme için Nemotron 3 Super veya karmaşık planlama için Nemotron 3 Ultra modelleriyle entegre olabiliyor.
- Bilgisayar Kullanım Ajanları — Grafiksel kullanıcı arayüzlerinde gezinme, ekrandaki içeriği anlama ve kullanıcı arayüzü durumunu zaman içinde izleme yeteneğine sahip ajanlar için algılama döngüsünü güçlendiriyor. H Company’nin Nemotron 3 Nano Omni destekli en yeni bilgisayar kullanım ajanı, yüksek çözünürlüklü görsel mantık yürütme için 1920×1080 piksel yerel giriş çözünürlüğünü kullanarak karmaşık grafik arayüzlerde gezinmede önemli bir gelişme gösterdi.
- Belge Anlama — Belgeleri, grafikleri, tabloları, ekran görüntülerini ve karma medya girdilerini yorumlayarak ajanların görsel yapı ve metin içeriği arasında tutarlı bir şekilde mantık yürütmesini sağlıyor. Bu özellik, kurumsal analiz ve uyumluluk süreçleri için kritik öneme sahip.
- Ses ve Video Anlama — Müşteri hizmetleri, araştırma ve izleme süreçleri için Nemotron 3 Nano Omni, ses ve video bağlamını koruyarak, söylenenleri, gösterilenleri ve belgelenenleri birbirinden kopuk özetler yerine tek bir mantık akışına bağlıyor.