Dünyanın önde gelen yapay zeka (YZ) şirketleri, makinelerin "süper zeka" seviyesine ulaşması için insan çevresini daha iyi anlayabilen dünya modellerine odaklanıyor. Google DeepMind, Meta ve Nvidia gibi devler, sadece dilden ziyade videolar ve robotik verilerden öğrenerek fiziksel dünyada gezinebilen sistemler geliştirerek YZ yarışında üstünlük sağlamayı hedefliyor.
Bu durum, OpenAI'nin ChatGPT'si gibi popüler sohbet robotlarına güç veren büyük dil modellerinin (LLM) ilerlemesinde bir yavaşlama yaşandığına dair artan sorularla birlikte geliyor. Sektördeki şirketlerin, örneğin OpenAI, Google ve Elon Musk'ın xAI'sinin piyasaya sürdüğü LLM'ler arasındaki performans sıçramaları, geliştirilmelerine yapılan devasa yatırıma rağmen yavaşlamış durumda.
Nvidia'nın Omniverse ve simülasyon teknolojisi başkan yardımcısı Rev Lebaredian'a göre, dünya modelleri için potansiyel pazar, küresel ekonominin neredeyse büyüklüğünde olabilir. Bunun nedeni, bu teknolojinin imalat ve sağlık hizmetleri gibi fiziksel alanlara girmesi. Lebaredian, "Dünya temel modelleri için fırsat nedir? Temelde... eğer fiziksel dünyayı anlayabilen ve fiziksel dünyada çalışabilen bir zeka yapabilirsek, 100 trilyon dolar" dedi.
Dünya modelleri, gerçek veya simüle edilmiş ortamların veri akışları kullanılarak eğitilir. Otonom araçlar, robotik ve YZ ajanları gibi alanlarda ilerlemeyi sağlamada önemli bir adım olarak görülüyorlar. Ancak bu modellerin eğitimi büyük miktarda veri ve işlem gücü gerektiriyor ve hala çözülmemiş teknik zorluklar olarak kabul ediliyor.
LLM'lere alternatif bir yaklaşıma yönelik bu odaklanma, son aylarda birçok YZ grubunun dünya modellerinde bir dizi gelişmeyi duyurmasıyla daha belirgin hale geldi. Geçen ay Google DeepMind, geçmiş etkileşimleri de dikkate alarak kare kare video üreten Genie 3'ü tanıttı. Daha önceki video üretim modelleri, genellikle tüm videoyu bir kerede oluşturuyordu.
Google DeepMind'dan Genie 3 eş lideri Shlomi Fruchter, "YZ hala büyük ölçüde dijital alanla sınırlı. Gerçek dünya gibi görünen veya davranan ortamlar inşa ederek, gerçek dünyada hata yapmanın sonuçları olmadan YZ'yi daha ölçeklenebilir yollarla eğitebiliriz" dedi.
Meta ise, çocukların çevrelerini gözlemleyerek pasif bir şekilde öğrendiği yöntemi taklit etmeye çalışıyor ve V-JEPA modellerini ham video içeriklerle eğitiyor. Meta'nın baş YZ bilimcisi Yann LeCun liderliğindeki Facebook Yapay Zeka Araştırma (Fair) laboratuvarı, Haziran ayında modelinin ikinci sürümünü yayınladı ve robotlar üzerinde test ediyor. Modern YZ'nin "vaftiz babalarından" biri olarak kabul edilen LeCun, LLM'lerin asla insanlar gibi akıl yürütme ve planlama yeteneğine ulaşamayacağı konusunda uyarıyor.
Buna rağmen, Meta CEO'su Mark Zuckerberg, üst düzey YZ yeteneklerine yaptığı yatırımı artırdı. Veri etiketleme grubu Scale AI'ın kurucusu Alexandr Wang, artık Meta'nın tüm YZ çalışmalarını yönetecek ve LeCun da Wang'a rapor verecek. Bu elit ekip, bir sonraki Llama LLM modellerinde atılımlar yapmaya odaklanmış durumda.
Dünya modellerinin yakın vadeli bir uygulaması, etkileşimli ve gerçekçi sahneler oluşturabildikleri eğlence endüstrisinde görülüyor. YZ öncüsü Fei-Fei Li tarafından kurulan bir startup olan World Labs, tek bir görüntüden oyun benzeri 3D ortamlar üreten bir model geliştiriyor. Hollywood stüdyolarıyla anlaşmaları olan bir video üretim startup'ı olan Runway, geçen ay oyun ortamları, kişiselleştirilmiş hikayeler ve karakterler üreten bir ürün piyasaya sürdü.
Runway CEO'su Cristóbal Valenzuela, "Geleneksel video yöntemleri, piksel üretimi için kaba kuvvet yaklaşımıdır. Bu, hareket yanılsaması yaratmak için birkaç kareye hareket sıkıştırmaya çalışırsınız, ancak model aslında o sahnede neler olduğunu gerçekten bilmez veya akıl yürütmez" dedi. Valenzuela, önceki video üretim modellerinin gerçek dünyadan farklı fizik kurallarına sahip olduğunu ve genel amaçlı dünya modeli sistemlerinin bu sorunu çözmeye yardımcı olduğunu ekledi.
Bu modelleri oluşturmak için şirketlerin dünya hakkında büyük miktarda fiziksel veri toplaması gerekiyor. San Francisco merkezli Niantic, Pokémon Go gibi oyunlar aracılığıyla 10 milyon konumu haritalayarak bilgi topladı. Niantic, dokuz yıl boyunca Pokémon Go'yu çalıştırdı ve oyun ABD merkezli Scopely'ye satıldıktan sonra bile, oyuncuları halka açık yerlerin taranması yoluyla anonimleştirilmiş verilerle dünya modelinin oluşturulmasına katkıda bulunmaya devam ediyor.
Scopely anlaşması sonrası adını Niantic Spatial olarak değiştiren şirketin CEO'su John Hanke, "Soruna bir başlangıç yaptık" dedi. Hem Niantic hem de Nvidia, dünya modellerinin ortamları üretmesini veya tahmin etmesini sağlayarak boşlukları doldurmak için çalışıyor. Nvidia'nın Omniverse platformu bu tür simülasyonları oluşturur ve çalıştırır, bu da 4,3 trilyon dolarlık teknoloji devinin robotik alanındaki ilerlemesini destekler ve video oyunlarında gerçek dünya ortamlarını simüle etme konusundaki uzun geçmişini üzerine inşa eder.
Nvidia CEO'su Jensen Huang, şirketin bir sonraki büyük büyüme aşamasının "fiziksel YZ" ile geleceğini ve yeni modellerin robotik alanında devrim yaratacağını belirtti. Meta'dan LeCun gibi bazıları, insan düzeyinde zekaya sahip makineleri güçlendiren yeni nesil YZ sistemlerinin bu vizyonunun 10 yıl sürebileceğini söylüyor. Ancak YZ uzmanlarına göre, bu son teknoloji teknolojinin potansiyel kapsamı geniştir. Nvidia'dan Lebaredian, "Dünya modelleri, bu diğer tüm sektörlere hizmet etme fırsatını açıyor ve bilgisayarların bilgi işleri için yaptığı şeyi daha da güçlendiriyor" dedi.