Ara

Teknolojinin Yeni Mucizesi: Tek Bir Fotoğraftan 3 Boyutlu Dünyalar Yaratın!

Tencent'in HunyuanWorld-Voyager adını verdiği yeni yapay zeka modeli, tek bir görselden yola çıkarak 3 boyutlu tutarlılığa sahip video dizileri üreterek kullanıcılara sanal mekanları keşfetme imkanı sunuyor. Model, geleneksel modelleme tekniklerine ihtiyaç duymadan doğrudan 3 boyutlu yeniden yapılandırma için hem renkli video hem de derinlik bilgisini eş zamanlı olarak oluşturuyor. Ancak bu teknoloji, video oyunlarını yakında rafa kaldıracak gibi görünmüyor.

Elde edilen sonuçlar tam anlamıyla 3 boyutlu modeller olmasa da, benzer bir etki başarıyor. Yapay zeka aracı, bir kameranın gerçek bir 3 boyutlu alanda hareket ediyormuş gibi mekansal tutarlılığı koruyan 2 boyutlu video kareleri üretiyor. Her bir üretim yaklaşık iki saniyelik, yani 49 karelik bir video oluşturuyor. Tencent'e göre, bu klipler birleştirilerek "birkaç dakikalık" diziler elde edilebiliyor. Kamera hareket ettikçe nesneler göreceli konumlarını koruyor ve perspektif gerçek bir 3 boyutlu ortamda beklendiği gibi doğru bir şekilde değişiyor. Çıktı, derinlik haritalı videolar olsa da, bu bilgiler 3 boyutlu nokta bulutlarına dönüştürülerek yeniden yapılandırma amacıyla kullanılabiliyor.

Sistem, tek bir giriş görseli ve kullanıcı tarafından belirlenen bir kamera yörüngesi alarak çalışıyor. Kullanıcılar, arayüz aracılığıyla ileri, geri, sol, sağ veya dönme gibi kamera hareketlerini belirtebiliyor. Sistem, bellek verimliliği sağlayan bir "dünya önbelleği" ile görüntü ve derinlik verilerini birleştirerek, kullanıcı tarafından tanımlanan kamera hareketlerini yansıtan video dizileri üretiyor.

Transformer mimarisine dayanan tüm yapay zeka modellerinin önemli bir sınırlaması, temel olarak eğitim verilerinde bulunan desenleri taklit etmeleridir. Bu durum, bu desenleri eğitim verilerinde bulunmayan yeni durumlara uygulama yetenekleri olan "genelleme" yeteneklerini sınırlıyor. Voyager'ı eğitmek için araştırmacılar, Unreal Engine gibi kaynaklardan elde edilen bilgisayar üretimi sahneler de dahil olmak üzere 100.000'den fazla video klibi kullandılar. Temelde modele, kameraların 3 boyutlu oyun ortamlarında nasıl hareket ettiğini taklit etmesi öğretildi.

Sora gibi çoğu yapay zeka video oluşturucu, mekansal tutarlılığı izleme veya koruma çabası göstermeden, birbirini takip eden oynanabilir kareler oluşturur. Dikkat çekici bir şekilde Voyager, mekansal tutarlılığın desenlerini tanıma ve yeniden üretme konusunda eğitilmiş olup, buna ek bir geometrik geri besleme döngüsü eklenmiştir. Her kareyi oluştururken, çıktıyı 3 boyutlu noktalara dönüştürür ve bu noktaları gelecekteki karelerin referansı olarak 2 boyuta yansıtır.

Bu teknik, modeli öğrendiği desenleri, kendi önceki çıktılarının geometrik olarak tutarlı yansımalarına karşı eşleştirmeye zorlar. Bu, standart video oluşturuculardan çok daha iyi mekansal tutarlılık sağlarken, temel olarak gerçek 3 boyutlu bir "anlayış" yerine geometrik kısıtlamalarla yönlendirilen bir desen eşleştirmesi olmaya devam eder. Bu durum, modelin birkaç dakika boyunca tutarlılığı koruyabilmesini ancak tam 360 derecelik dönüşlerle mücadele etmesini açıklar; desen eşleştirmesindeki küçük hatalar birçok kare boyunca birikerek geometrik kısıtlamaların artık tutarlılığı sürdürememesine yol açar.

Tencent'in teknik raporuna göre sistem, birbiriyle çalışan iki ana bölümden oluşuyor. İlk olarak, renkli video ve derinlik bilgisini senkronize bir şekilde üreterek, video bir ağacı gösterdiğinde derinlik verisinin o ağacın ne kadar uzakta olduğunu tam olarak bilmesini sağlar. İkinci olarak, Tencent'in "dünya önbelleği" adını verdiği, daha önce üretilen karelerden oluşturulan büyüyen bir 3 boyutlu nokta koleksiyonunu kullanır. Yeni kareler üretilirken, bu nokta bulutu yeni kamera açısından 2 boyuta yansıtılarak, önceki karelere dayanarak görünmesi gerekenleri gösteren kısmi görüntüler oluşturulur. Model daha sonra bu yansımaları, yeni karelerin daha önce üretilenlerle uyumlu olmasını sağlayan bir tutarlılık kontrolü olarak kullanır.

Bu yeni sürüm, çeşitli şirketlerin dünya oluşturma modelleri koleksiyonuna ekleniyor. Google'ın Ağustos 2025'te duyurduğu Genie 3, metin komutlarından 720p çözünürlükte ve saniyede 24 kare hızında etkileşimli dünyalar üreterek birkaç dakikalık gerçek zamanlı gezinmeye olanak tanıyor. Dynamics Lab'den Mirage 2 ise tarayıcı tabanlı dünya oluşturma sunarak, kullanıcıların görselleri yükleyip bunları gerçek zamanlı metin komutlarıyla oynanabilir ortamlara dönüştürmelerine olanak tanıyor. Genie 3, yapay zeka ajanlarını eğitmeye odaklanıp halka açık değilken ve Mirage 2 oyunlar için kullanıcı tarafından oluşturulan içeriği vurgularken, Voyager RGB-derinlik çıktı yetenekleriyle video prodüksiyonu ve 3 boyutlu yeniden yapılandırma iş akışlarını hedefliyor.

Otomatik Veri Boru Hattı ile Eğitim

Voyager, Tencent'in Temmuz ayında piyasaya sürülen daha önceki HunyuanWorld 1.0 modelinin üzerine inşa edilmiştir. Voyager aynı zamanda metinden 3 boyutlu üretime yönelik Hunyuan3D-2 modeli ve daha önce ele alınan video sentezi için HunyuanVideo'yu içeren Tencent'in daha geniş "Hunyuan" ekosisteminin bir parçasıdır.

Voyager'ı eğitmek için araştırmacılar, mevcut videoları otomatik olarak analiz ederek kamera hareketlerini işleyen ve her kare için derinliği hesaplayan bir yazılım geliştirdiler; bu, binlerce saatlik görüntünün insan eliyle etiketlenmesi ihtiyacını ortadan kaldırıyor. Sistem, hem gerçek dünya kayıtlarından hem de yukarıda belirtilen Unreal Engine render'larından alınan 100.000'den fazla video klibi işledi.

Modelin çalışması ciddi bir hesaplama gücü gerektiriyor. 540p çözünürlük için en az 60 GB GPU belleği gerekirken, daha iyi sonuçlar için 80 GB öneriliyor. Tencent, modeli Hugging Face'te yayınladı ve hem tekli hem de çoklu GPU kurulumlarıyla çalışan kodları da içeriyor.

Model, dikkate değer lisans kısıtlamalarıyla birlikte geliyor. Tencent'in diğer Hunyuan modelleri gibi, lisans Avrupa Birliği, Birleşik Krallık ve Güney Kore'de kullanıma izin vermiyor. Ek olarak, ayda 100 milyondan fazla aktif kullanıcıya hizmet veren ticari kullanımlar için Tencent'ten ayrı bir lisanslama gerektiriyor.

Stanford Üniversitesi araştırmacıları tarafından geliştirilen WorldScore kıyaslamasında, Voyager'ın WonderWorld'e göre 72.69 ve CogVideoX-I2V'ye göre 62.15 puanına karşılık 77.62 gibi en yüksek genel puanı elde ettiği bildirildi. Modelin özellikle nesne kontrolünde (66.92), stil tutarlılığında (84.89) ve öznel kalitede (71.09) öne çıktığı, ancak kamera kontrolünde WonderWorld'ün 92.98 puanının gerisinde ikinci sırada (85.95) yer aldığı belirtildi. WorldScore, dünya üretim yaklaşımlarını 3 boyutlu tutarlılık ve içerik uyumu dahil olmak üzere birden fazla kritere göre değerlendiriyor.

Bu kendi raporladığı kıyaslama sonuçları umut verici görünse de, daha geniş çaplı dağıtım, söz konusu hesaplama gücü nedeniyle hala zorluklarla karşılaşıyor. Daha hızlı işlemeye ihtiyaç duyan geliştiriciler için sistem, xDiT çerçevesini kullanarak birden fazla GPU'da paralel çıkarım desteği sunuyor. Sekiz GPU üzerinde çalışmak, tekli GPU kurulumlarından 6.69 kat daha hızlı işlem hızları sağlıyor.

Gereken işlem gücü ve uzun, tutarlı "dünyalar" üretmedeki sınırlamalar göz önüne alındığında, benzer bir teknik kullanarak gerçek zamanlı etkileşimli deneyimler görmemiz biraz zaman alabilir. Ancak Google'ın Genie gibi deneylerle gördüğümüz gibi, potansiyel olarak yeni bir etkileşimli, üretken sanat formuna doğru çok erken adımlar tanıklık ediyoruz.

Önceki Haber
Venedik'in Ünlü Kanatlı Aslanı Çin'den mi Geldi? Bilim İnsanları Şaşırtıcı Bir Çalışmaya İmza Attı
Sıradaki Haber
AMD'den Yapay Zeka Balonu İddialarına Yanıt: "Henüz Çok Başındayız, Pazardaki Büyüme Gerçek!"

Benzer Haberler: