NVIDIA, GTC Taipei etkinliğinde Cosmos 3 adını verdiği yenilikçi bir yapay zeka modelini tanıttı. Şirketin "dünyanın ilk tam açık omni-modeli" olarak tanımladığı Cosmos 3, görsel tabanlı akıl yürütme yeteneğine sahip olmasının yanı sıra metin, görüntü, video ve ortam sesi gibi çok modlu çıktılar üretebiliyor.
NVIDIA'nın Cosmos 3'ü, "bir akıl yürütme transformeri ile bir uzman üretim transformeri"ni eşleştirerek, modelin fiziksel etkileşimleri kavramasını sağlıyor ve bu etkileşimlerden yararlanan video ve aksiyon içerikleri üretiyor.
Cosmos 3'ün temel amacı, robotların, otonom araçların ve görsel ajanların, sınırlı eğitim verisi ve parçalanmış simülasyon ortamlarında çevrelerini daha iyi anlamalarını sağlamak. NVIDIA'nın Cosmos 3'ü, metin, görüntü, video, ortam sesi ve eylemleri "üstün fizik doğruluğu ile yerel olarak anlama ve üretme" yeteneğine sahip açık bir omni-modeldir.
Benzersiz gücü, akıl yürütme transformeri ile üretim odaklı transformeri eşleştiren mimarisinden kaynaklanıyor. Bu sayede Cosmos 3, nesne etkileşimlerini, hareketi ve uzamsal-zamansal ilişkileri anlayarak, ardından bu bilgileri kullanarak video ve aksiyon yörüngeleri üretebiliyor.
Yapısal olarak yapay zeka transformeri, sıralı verilerdeki (örneğin bir cümledeki kelimeler) ilişkileri ve bağlamı takip eden bir derin öğrenme sinir ağıdır. Bu ağlar, verinin tamamını eşzamanlı olarak analiz ederek, daha hızlı çıktı üretimi sağlayabilir.
NVIDIA'ya göre Cosmos 3, şu amaçlarla kullanılabilir:
- Görsel dil modeli
- Fiziksel ortamları simüle eden ve gelecekteki dünya durumlarını tahmin eden bir dünya modeli
- Diğer dünya modelleri için bir temel
Son olarak, en yüksek doğrulukta çıktılara sahip Cosmos 3 Super ve Cosmos 3 Nano sürümlerinin şu anda mevcut olduğunu, gerçek zamanlı çıkarımlar için tasarlanmış Cosmos 3 Edge'in ise yakında geleceğini belirtmekte fayda var. Bu son sürüm, özellikle kenar cihazlar için optimize edilmiş olacak.