Ara

Runway’dan Şaşırtıcı İddia: Yapay Zeka “Dünya Modelleri” Dakikalarca Tutarlılığını Koruyor

Yapay zeka şirketi Runway, ilk "dünya modeli" olarak adlandırdığı GWM-1'i duyurdu. Bu gelişme, adını büyük ölçüde video üretimiyle duyurmuş bir şirket için önemli bir yön değişikliği anlamına geliyor. Büyük dil modelleri ve görüntü/video üretiminin artık birer "rafine etme" aşamasına geçtiği ve keşfedilmemiş bir alan olmaktan çıktığı bir dönemde, yapay zeka alanında yeni bir sınır inşa etme çabalarının bir parçası olarak öne çıkıyor.

GWM-1, Runway'in Gen-4.5 metinden videoya üretim modelini temel alan ve farklı uygulama alanları için alan-özel verilerle eğitilmiş üç adet "otoregresif" modelden oluşan bir şemsiye terimdir. Bu modellerin her biri şu işlevleri yerine getiriyor:

GWM Dünyalar

GWM Dünyalar, kullanıcı girdileriyle etkileşime giren ve devam eden karelerin üretimini gerçek zamanlı olarak yönlendiren bir dijital ortam keşif arayüzü sunuyor. Runway'in iddiasına göre bu ortamlar, "uzun hareket dizileri boyunca tutarlı ve anlamlı kalabiliyor."

Kullanıcılar, ortamın içeriğini, görünümünü ve hatta fizik kuralları gibi temel prensiplerini belirleyebiliyor. Gerçek zamanlı olarak yansıtılacak eylemler veya değişiklikler tanımlayabiliyorlar; örneğin kamera hareketleri veya ortamdaki nesnelerin görünümündeki değişiklikler hakkında açıklamalar yapabiliyorlar. Bu yöntem temelde gelişmiş bir kare tahmini biçimi olsa da, bu çıktıların tam anlamıyla bir dünya simülasyonu olduğunu söylemek bir abartı olabilir. Ancak iddia, bunların kullanılabilir derecede güvenilir oldukları yönünde.

Potansiyel uygulamalar arasında oyun tasarımı ve geliştirme için ön görselleştirme ve erken aşama iterasyonlar, sanal gerçeklik ortamlarının üretimi veya tarihi mekanların eğitim amaçlı keşifleri yer alıyor.

Bunun yanı sıra, bu modellerin Runway'in geleneksel ilgi alanlarının dışına çıkan önemli bir kullanım alanı da var: Bu tür dünya modelleri, robotlar dahil olmak üzere çeşitli yapay zeka ajanlarının eğitilmesinde kullanılabilir.

GWM Robotik

İkinci model olan GWM Robotik, tam da bunu yapıyor. Bu model, "yeni nesneler, görev talimatları ve çevresel varyasyonlar dahil olmak üzere çok boyutlu robotik veri setlerinizi genişleten sentetik eğitim verileri üretmek için" kullanılabiliyor.

Robotik alanında bu modelin birkaç temel uygulaması bulunuyor. İlk olarak, dünya modelleri fiziksel dünyada güvenilir bir şekilde tekrarlanması zor olan eğitim senaryoları için kullanılabilir; örneğin farklı hava koşulları gibi. Ayrıca, kontrol politikalarının gerçek dünya testlerinden önce tamamen simüle edilmiş bir dünyada test edilmesini sağlayan politika değerlendirmesi de mümkün oluyor; bu da hem daha güvenli hem de daha uygun maliyetli bir yaklaşım sunuyor.

Runway, robotik dünya modeli API'si için şu anda isteğe bağlı olarak sunulan bir Python SDK'sı hazırlamış durumda.

GWM Avatarlar

Son olarak, GWM Avatars, konuşurken ve dinlerken hem doğal bir şekilde hareket eden hem de duygu ifade edebilen insan benzeri avatarlar üretmek için üretken video ve konuşmayı birleştiren birleşik bir model sunuyor. Runway, bu avatarların "kalite bozulması olmadan uzun süreli konuşmaları sürdürebileceğini" iddia ediyor; bu, eğer doğruysa oldukça etkileyici bir başarı.

"Genel"-ish Yaklaşım

"Genel" dünya modellerini tanımlayanlar, geniş çaplı bir vizyona sahip: Kutudan çıktığı anda birçok ortam türünü simüle edebilen, birçok alanda her türlü görev, ajan ve uygulama için kullanılabilen çok amaçlı, temel bir model.

Dünya modelleri kesinlikle yeni bir kavram değil, ancak bu kadar "genel" olabilme fikri nispeten yeni bir hedef olarak karşımıza çıkıyor. Bu genellikle yapay genel zekaya (AGI) giden bir basamak olarak çerçeveleniyor; ancak şu ana kadar bu hedefe ulaşılacağına dair bir kanıt bulunmuyor.

Runway, Google'ın DeepMind'ı gibi şirketlerin aksine, bu duyurusunda AGI terimini kullanmaktan kaçındı. Bununla birlikte, CEO Cristóbal Valenzuela, GWM-1'i "evrensel simülasyona doğru büyük bir adım" olarak tanımlayan bir paylaşım yaptı. Bu da oldukça iddialı bir hedef olarak görülüyor, zira şu anki yolun bu kadar kapsamlı bir şeye yol açacağına dair bir kanıtımız yok ve "evrensel" tanımına dair de bir fikir birliği olmadığını göz önünde bulundurmak gerekiyor.

Hatta "genel" kelimesini kullanmak bile bir tutku havası taşıyor. Genel bir dünya modelinden, iyi tanımlanmış tek bir model beklenir; ancak bu durumda, birbirine bağlı üç farklı, sonradan eğitilmiş modelle karşı karşıyayız. Bu, "genel"lik durumunu biraz sınırlıyor, ancak Runway, "birçok farklı alanı ve eylem uzayını tek bir temel dünya modeli altında birleştirmeye çalıştıklarını" belirtiyor.

Rekabetçi Bir Alan

Bu da başka önemli bir hususu gündeme getiriyor: GWM-1 ile Runway, video üretimindeki kadar net farklılaştırıcı ve rekabetçi avantajlara sahip olmadığı, rekabetçi bir "altına hücum" alanına giriyor. Video üretiminde Runway, film/televizyon, reklam ve diğer sektörlerde önemli başarılar elde etti çünkü kurucularının rakiplerinin çoğundan daha fazla bu yaratıcı endüstrilere kök saldığı düşünülüyor ve bu endüstriler göz önünde bulundurularak araçlar tasarladılar.

Film, televizyon, reklam ve oyun geliştirme alanlarında dünya modellerinin varsayımsal uygulamaları olsa da, Runway'in canlı yayınından anlaşıldığı üzere şirket robotik, fizik ve yaşam bilimleri araştırmaları gibi alanlara da odaklanıyor. Bu alanlarda rakipler zaten yerleşik durumda ve son aylarda bu alana yapılan yatırımlar artmış durumda.

Bu rakiplerin çoğu, Runway'e kıyasla devasa kaynak avantajlarına sahip büyük teknoloji şirketleri. Runway, satılabilir bir ürünle pazara ilk girenlerden biriydi ve doğrudan endüstri profesyonellerini hedefleyen agresif çabaları, video üretiminde bu avantajları aşmasını sağladı. Ancak, dünya modellerinde aynı avantajlara sahip olmadığı göz önüne alındığında, bu durumun nasıl gelişeceği henüz belirsizliğini koruyor.

Her ne olursa olsun, GWM-1'deki ilerlemeler etkileyici; özellikle de Runway'in daha uzun süreler boyunca tutarlılık ve anlamlılık iddiaları doğruysa.

Runway ayrıca canlı yayını sırasında yerel ses, ses düzenleme ve çoklu çekim video düzenleme gibi yeni Gen 4.5 video üretim yeteneklerini de duyurdu. Ayrıca, yapay zeka odaklı bir bulut bilişim şirketi olan CoreWeave ile bir anlaşma imzaladığını açıkladı. Bu anlaşma ile Runway, gelecekteki eğitim ve çıkarım işlemleri için CoreWeave'in bulut altyapısında Nvidia'nın GB300 NVL72 raflarını kullanacak.

Önceki Haber
OpenAI'den Sürpriz Hamle: GPT-5.2 Geldi! Rekabette 'Kırmızı Kod' Alarmı mı?
Sıradaki Haber
World of Warcraft'ta Beklenmedik Sürpriz: Uçan Evler Artık Resmi Oldu!

Benzer Haberler: