Google, kısa süre önce tanıttığı yeni yapay zeka video üretim modeli Veo 3 ile dikkatleri üzerine çekti. Bu model, daha önceki büyük yapay zeka video araçlarının yapamadığı bir şeyi başarıyor: Görüntüyle senkronize ses üretebilmek. 2022-2024 yılları arasında yapay zeka ile üretilen videolar genellikle sessiz ve çok kısa oluyordu. Artık Veo 3 ile sekiz saniyelik yüksek çözünürlüklü video kliplerde sesler, diyaloglar ve ses efektleri duyulabiliyor.
Veo 3'ün tanıtılmasının ardından, teknoloji meraklılarının aklına gelen ilk sorulardan biri, yapay zeka video testlerinin popülerleşmesinde önemli rol oynayan o sahne oldu: Ünlü oyuncu Will Smith'in spagetti yediği sahne! Yapay zeka video alanındaki "spagetti testi" aslında Mart 2023'te ortaya çıkan viral bir videoya dayanıyor. O dönemde açık kaynaklı bir modelle üretilen bu video, oldukça tuhaf ve gerçek dışı görüntüler içeriyordu ve özellikle Will Smith'in spagetti yediği anlar sosyal medyada büyük yankı bulmuştu. Hatta Will Smith bile bir yıl sonra bu videonun parodisini yapmıştı. Bu sahne, yapay zeka video üretiminin ilk aşamalarındaki sınırlılıkları göstermesi açısından bir benchmark (karşılaştırma ölçütü) haline geldi ve modellerin ne kadar ilerlediğini görmek için kullanılmaya devam ediyor.
Peki Google'ın yeni modeli Veo 3, bu meşhur spagetti testinden nasıl geçti? Yapılan denemeler sonucunda, Veo 3'ün bu sahneyi başarıyla canlandırdığı görüldü. Ancak dikkat çekici ve bir o kadar da tuhaf bir detay vardı: Videodaki karakter spagetti yerken "çıtır" sesler çıkarıyordu! Bu durum, Veo 3'ün deneysel ses ekleme özelliğinde yaşanan bir aksaklık gibi görünüyor. Muhtemelen Google'ın yapay zeka modelini eğitmek için kullandığı verilerde, çiğneme sesleriyle ilgili 'çıtır' ses efektlerinin daha fazla örneği bulunuyordu. Üretken yapay zeka modelleri, öğrenirken gördükleri kalıpları taklit eder. Eğitim verisindeki bir konseptin fazla veya az temsil edilmesi, sonuçlarda bu tür alışılmadık durumlara yol açabiliyor. Biz de benzer bir deneme yaptığımızda, "Will Smith" ismi Google'ın içerik filtreleri tarafından engellendi. Ancak "spagetti yiyen bir adam" gibi farklı bir ifade kullandığımızda, benzer "çıtır" sesli sonuçlar elde ettik.
Veo 3, diyalog ve müzik oluşturma konusundaki yetenekleriyle de dikkat çekiyor. Sosyal medyada paylaşılan birçok örnek, modelin ne kadar ileri gittiğini gösteriyor. Bazı videolar oldukça gerçekçi görünüyor. Sadece spagetti yiyen bir adam videosuyla yetinmeyip, aynı anda şarkı söyleyip söyleyemeyeceğini görmek için "mutfak masasında spagetti yerken, spagetti hakkında İngilizce komedi operası söyleyen bir adam" gibi daha karmaşık senaryoları da denedik ve modelin bu tür ilginç kombinasyonları da üretebildiğini gördük.
Yapay zeka video üretimi, 2023'ten bu yana büyük mesafe katetti ve modeller zamanla daha da gerçekçi ve yetenekli hale gelecek. Şu anki ünlü filtreleri olmasa, Veo 3 ile Will Smith'i sadece spagetti yerken değil, akla gelen hemen her şeyi yaparken gösterebilirdik. Bu da yapay zeka videolarının potansiyel sorunlu yönlerinden biri. Gerçeklik algımızın hızla değiştiği bir döneme giriyoruz.