Geçtiğimiz hafta Google, yapay zeka araçları için bir ilk olan, senkronize ses efektleri ve diyaloglar içeren 8 saniyelik videolar oluşturabilen en yeni video üretim modeli Veo 3'ü tanıttı. Metin açıklamalarına ("prompt") veya durağan görsel girdilerine dayalı olarak 720p çözünürlükte videolar üreten bu model, bugüne kadarki en yetenekli tüketici video üreticisi olabilir. Yapay zeka tarafından üretilen medyayı "gerçek" olandan ayırt etmenin giderek zorlaştığı bir noktaya ulaşıyoruz.
Google ayrıca, Veo 3'ü şirketin görsel üretme modeli Imagen 4 ve dil modeli Gemini ile birleştiren çevrimiçi bir yapay zeka film yapım aracı olan Flow'u da kullanıma sundu. Bu araç, içerik oluşturucuların sahneleri doğal dilde tanımlamasına ve web arayüzü üzerinden karakterleri, konumları ve görsel stilleri yönetmesine olanak tanıyor.
Her iki araç şu anda belirli bir ücretli Google AI planının aboneleri için kullanıma açık. Bu plan aylık belirli bir maliyete sahip ve beraberinde kullanım kredileri sunuyor. Veo 3 videoları, her üretim için belli sayıda kredi gerektiriyor, bu da plan kapsamında sınırlı sayıda video oluşturabileceğiniz anlamına geliyor. Ek krediler de satın alınabiliyor, bu da video başına yaklaşık 1,5 dolarlık bir maliyet çıkarıyor. Peki bu fiyat bu teknolojiye değer mi? Bu teknolojinin gerçekten neler yapabileceğini görmek için çeşitli prompt'larla bazı testler gerçekleştirdik.
Veo Nasıl Çalışıyor?
Diğer modern video üretim modelleri gibi, Veo 3 de difüzyon teknolojisi üzerine kurulu. Bu, popüler görsel üreticilerini güçlendiren yaklaşımla aynıdır. Eğitim süreci, gerçek videoları alıp üzerlerine giderek gürültü ekleyerek tamamen durağan hale getirme ve ardından bir yapay sinir ağını bu süreci adım adım tersine çevirmeyi öğretme prensibine dayanır. Üretim sırasında Veo 3, rastgele gürültü ve bir metin prompt'uyla başlar, ardından bu gürültüyü tanımla eşleşen tutarlı bir videoya dönüştürmek için yinelemeli olarak iyileştirir.
Google'ın yapay zeka araştırma laboratuvarı, Veo 3'ü eğitmek için içeriği tam olarak nereden aldığını açıklamıyor, ancak YouTube güçlü bir olasılık. Google, YouTube'un sahibi ve daha önce yapılan açıklamalarda Veo gibi Google modellerinin bazı YouTube materyalleri üzerinde eğitilebileceği belirtilmişti.
Veo 3'ün, kullanıcının prompt'larını yorumlamak için büyük bir dil modeli (LLM), videoyu oluşturmak için bir video difüzyon modeli ve videoya ses ekleyen bir ses üretim modeli dahil olmak üzere bir dizi yapay zeka modelinden oluşan bir sistem olduğunu belirtmek önemlidir.
Yanlış kullanımı önlemek amacıyla, şirket Veo 3'ün ürettiği karelere görünmez işaretler yerleştirmek için özel bir filigran teknolojisi kullandığını belirtiyor. Bu filigranlar, videolar sıkıştırıldığında veya düzenlendiğinde bile varlığını sürdürerek insanların yapay zeka tarafından üretilen içeriği potansiyel olarak tanımlamasına yardımcı oluyor. Ancak daha sonra tartışacağımız gibi, bu aldatmayı önlemek için yeterli olmayabilir.
Google ayrıca, şirketin içerik anlaşmasını ihlal eden belirli prompt'ları ve çıktıları sansürlüyor. Testler sırasında, romantik ve cinsel materyaller, bazı şiddet türleri, belirli ticari markalı veya telif haklı medya mülkleri, bazı şirket adları, belirli ünlüler ve bazı tarihi olaylarla ilgili videolarda "üretim hatası" mesajlarıyla karşılaştık.
Veo 3 Test Ediliyor
Belki de Veo 3'teki en büyük değişiklik entegre ses üretimi. Daha önce başka şirketler de benzer yetenekleri önizlemiş ve araştırmacılar sessiz videolara yapay zeka kullanarak ses eklemeyi denemişlerdi. Google'ın kendi yapay zeka birimi de daha önce yapay zeka destekli bir ses üretim modeli tanıtmıştı.
Veo 3, trafik seslerinden müziğe ve karakter diyaloglarına kadar her şeyi üretebiliyor, ancak erken testlerimiz ara sıra aksaklıklar olduğunu gösteriyor. Örneğin, spagetti yenirken çıtırtı sesleri çıkıyor ve birden fazla kişinin olduğu sahnelerde diyalog bazen yanlış karakterin ağzından çıkıyor. Ancak genel olarak, Veo 3, önceki modellerin video sentezi kalitesi ve tutarlılığına göre bir adım öne geçiyor.
Videolar ayrıca, eğitim verilerindeki videolarda bulunan alt yazılardan kaynaklanan, konuşulan kelimelerle neredeyse eşleşen anlaşılmaz alt yazılar da gösterebiliyor. Yapay zeka modeli, daha önce "gördüğü" şeyi taklit ediyor.
Aşağıda görülen sekiz saniyelik 720p videoların her birini Google'ın ilgili platformunu kullanarak ürettik. Her video üretimi yaklaşık üç ila beş dakika sürdü ve maliyetini ödedik. Daha iyi sonuçların, aynı prompt'u iyi bir sonuç bulana kadar birden çok kez çalıştırarak elde edildiğini belirtmek önemlidir. Maliyet nedeniyle ve test ruhuna uygun olarak, belirtilmedikçe her prompt'u sadece bir kez çalıştırdık.
Yeni Ses Prompt'ları
Bu teknolojinin neler yapabileceğini anlamak için doğrudan ses üretimiyle başlayalım. Daha önceki denemelerde bazı örnekler göstermiştik, ancak işte daha karmaşık diyaloglar içeren bazıları.
Yıllardır çeşitli yapay zeka görsel üreticilerini test etmek için belirli bir prompt kullanıyorduk: "bir CRT televizyon setinin yanında silahlı kaslı bir barbar, sinematik, 8K, stüdyo aydınlatması". Şimdi o barbarı hayata geçirme zamanı.
Baltalı, kaslı bir barbar adam, bir CRT televizyon setinin yanında duruyor. TV'ye, sonra kameraya bakıyor ve kelimenin tam anlamıyla şunları söylüyor: "Yıllardır aradığınız şey buydu: bir CRT televizyon setinin yanında silahlı kaslı bir barbar, sinematik, 8K, stüdyo aydınlatması. Anladın mı?"
Yukarıdaki video, sadece üç yıl içinde yapay zeka medya sentezinde önemli bir teknik ilerlemeyi temsil ediyor. Bulanık, renkli durağan bir barbar görselinden, 720p yüksek çözünürlükte ve sesli olarak bizimle konuşan fotogerçekçi bir adama geçtik. En önemlisi, yapay zeka üretimindeki teknik yeteneğin buradan sonra yavaşlayacağına inanmak için hiçbir neden yok.
Korku filmi: Viktorya dönemi kıyafeti giymiş, korkmuş bir kadın ormanda koşuyor, takip çekimi, elinde fıstık kostümü giymiş bir adam onu kovalıyor ve "Bekle! Cüzdanını unuttun!" diye bağırıyor.
Perili Basketbol Treni fragmanı: 1990'ların basketbol yıldızının basketbol sahası vagonları olan perili bir yolcu treninin sonunda mahsur kaldığı ve hayatta kalmanın tek yolunun her vagondaki farklı hayaletleri basketbolda yenerek lokomotife ulaşmak olduğu bir Tim Burton filmi.
ASMR videosu: Kaslı bir barbar adam mikrofona yavaşça fısıldıyor, "CRT'leri seviyorsun, değil mi? Sorun değil. CRT televizyonları ve barbarları sevmekte sorun yok."
1980'ler PBS şovu: Sakallı bir adamın, Apple II bilgisayarının "bir dizi tüp aracılığıyla dünyaya nasıl bağlanabileceğinden" bahsettiği.
1980'ler fitness videosu: Leotarlı, kurt adam maskeleri takan modeller.
Kameraya bakan kadın terapist, Zoom görüşmesi. Terapist diyor ki, "Aman tanrım, arkanızdaki Atari 800'e bakın! Ne kadar güzel olduğuna inanamıyorum!"
Bu teknolojiyle, insanları pohpohlamak için tasarlanmış sanal yapay zeka kişiliklerinden oluşan bir dünyayı kolayca hayal edebilirsiniz. Bu, eski bir bilgisayar hakkında oldukça masum bir örnek, ancak sahte kişinin herhangi bir konuda konuşmasını sağlayarak bunu genişletebilirsiniz. Google'ın filtreleri nedeniyle sınırlamalar olsa da, geçmişte gördüklerimize göre, benzer yetenekte, ancak sansürsüz bir yapay zeka video üreticisinin gelecekte ortaya çıkması çok olasıdır.
Zoom sohbetinin video görüşmesi ekran görüntüsü. Karanlık, rahat bir terapist ofisinde bir psikolog. Terapist arkadaşça bir sesle diyor ki, "Merhaba, aradığın için teşekkürler. Bugün nasıl hissettiğinden bahset. Depresyon hala seni etkiliyor mu? Hadi bunun üzerinde çalışalım."
1960'lar NASA görüntüleri: Ay yüzeyine ilk ayak basan adamın, bir çamur yığınına yapışıp köylü aksanıyla "Bu ne rezalet?" diye bağırdığı.
Yerel bir TV haber röportajı: Kaslı bir barbarın, neden her zaman yanında bir CRT TV seti taşıdığından bahsettiği.
Sahte haber röportajlarından bahsetmişken, Veo 3 bol miktarda konuşan spiker üretebiliyor, ancak ekrandaki metin tam olarak ne söyleyeceğini belirtmezseniz bazen anlaşılmaz olabiliyor. Veo 3'ün medya aldatmacası konusunda en güçlü olabileceği durumlar işte böyle.
Rusya'nın ABD'yi işgaliyle ilgili bir haber raporundan görüntüler.
Müzik Denemeleri
Veo 3'ün yapay zeka ses üreticisi, çeşitli türlerde müzik oluşturabiliyor, ancak pratikte sonuçlar genellikle basit. Yine de, bu yapay zeka video üreticileri için yeni bir yetenek. İşte çeşitli müzik türlerinden birkaç örnek.
Sarışın afrolu çılgın bir barbarın, resim yaparken müziğe eşlik ederek "MUTLU BÜYÜK AĞAÇLAR" şarkısını söylediği bir PBS şovu.
1950'ler kovboyu kameraya doğru at sürer ve country müzikle şarkı söyler, "Kocaman eşeğimi seviyorum."
1980'ler hair metal grubu kameraya doğru araba sürer ve rock müzikle şarkı söyler, "Kocaman kocaman kocaman saçlarımla yardım edin!"
Mister Rogers' Neighborhood PBS çocuk şovu intro'sunun psychedelic acid rock ve renkli ışıklarla yapılmış versiyonu.
1950'ler caz grubu: Bir scat şarkıcısının, anlamsız kelimeler arasında turşulardan bahsettiği.
Önceki Testlerden Bazı Klasik Prompt'lar
Aşağıdaki prompt'lar, önceki video testlerimizden geliyor, böylece isterseniz sonuçları karşılaştırabilirsiniz. Genel olarak, Veo 3, daha önce test ettiğimiz video sentez modellerine göre çok daha fazla zamansal tutarlılığa (zaman içinde tutarlı bir özne veya tema olması) sahip görünüyor. Ama tabii ki mükemmel değil.
Bilgisayarında akıllı bir kişinin bir şeyi okurken ekranın patlaması.
Ay köpeğinin bilgisayar ekranından dışarı fırlayıp bir kişiye saldırması.
Bir tepede koşan bir milyon kediden oluşan sürü, havadan görünüm.
Antropomorfik köpek balığı çocuğu başrolünde olduğu dinamik bir 1990'lar üçüncü şahıs 3D platform oyunundan oyun görüntüleri.
Büyük bir peynir yağmuru fırtınasından sonra sıvı peynirle dolup taşan küçük bir Amerikan kasabasının geniş açılı görüntüsü; sıvı peynir yağdı ve binaların üzerine damladı.
Geniş açı çekimi: Sahnenin merkezindeki Sasquatch'ın mantarlar hakkında bir TED konuşması yapmasıyla başlıyor, sonra yavaşça zoom yaparak etkileyici yüz ifadeleri ve jestlerini yakalıyor, ardından dikkatli izleyicilere doğru kaydırıyor.
Arka planda dolunay olan bir sahnede büyük bir lastik köpek balığı kostümü giymiş bir adam tarafından söylenen bir trip-hop rap şarkısı.
Bazı Dikkat Çeken Başarısızlıklar
Google'ın Veo 3'ü, eğitim verilerinin sınırlılıkları nedeniyle attığımız her senaryoyu sentezlemede mükemmel değil. Daha önceki değerlendirmelerde belirttiğimiz gibi, yapay zeka video üreticileri temel olarak taklit edici olmaya devam ediyor; fiziğin veya dünyanın nasıl çalıştığının gerçek bir anlayışından ziyade istatistiksel desenlere dayalı tahminler yapıyorlar.
Örneğin, konuşma sırasında hareket eden ağızlar veya dokunulduğunda belirli bir şekilde kırışan kıyafetler görüyorsanız, bu, video üretimini yapan yapay sinir ağının eğitim verilerinde bu senaryonun yeterince benzer örneğini "gördüğü" ve bunu benzer durumlara uygulayabildiği anlamına gelir.
Ancak, yeni bir durum (veya temaların birleşimi) eğitim verilerinde iyi temsil edilmediğinde, aşağıdaki örneklerde göreceğiniz gibi garip vücut parçaları, sihirli bir şekilde ortaya çıkan kıyafetler veya "paramparça olan" ancak daha sonra sahnede kalan bir nesne gibi "imkansız" veya mantıksız şeyler görürsünüz.
Girişte ses ve video aksaklıklarından bahsetmiştik. Özellikle, birden fazla kişinin olduğu sahneler, hangi karakterin konuştuğunu karıştırabiliyor, tıpkı teknoloji fanları arasındaki bu tartışmada olduğu gibi.
2000'ler TV tartışması: PowerPC ve Intel Pentium çiplerinin fanları arasında.
Patlayıcı 1980'ler bilgi reklamı: Bir çevrimiçi hizmet için. Abartılı fon müziği ve kullanıcı yorumlarıyla.
1980'ler Rambo'su Ay'da Sovyetlerle savaşıyor.
Bazen istekler tutarlı bir anlam ifade etmiyor. Bu durumda, "Rambo" doğru bir şekilde Ay'da bir silah ateşliyor, ancak uzay giysisi giymiyor. Sandığımızdan çok daha dayanıklıymış.
Windows 11 kurulumunun ne kadar disket gerektireceğini gösteren animasyonlu bir bilgi grafiği.
Büyük metin miktarları da zayıf bir nokta sunuyor, ancak kısa bir metin alıntısı prompt'ta açıkça belirtilirse, Veo 3 genellikle bunu doğru yapıyor.
Olimpiyatlarda karmaşık bir yer jimnastiği rutini yapan genç bir kadın, koşma ve taklalar içeriyor.
Veo 3'ün zamansal tutarlılık ve ses üretimindeki ilerlemelerine rağmen, hala daha önce viral olan yapay zeka jimnastik videosunda gördüğümüz "mantıksızlıklar"dan muzdarip; imkansız morfan vücut parçaları gibi olası olmayan video halüsinasyonları.
Bir grup adam ve kadının yol boyunca cartwheeling yaptığı, 8 saniye boyunca "PEYNİR" diye bağırıp notayı tuttuğu ve sonra yere düştüğü eğlenceli bir video.
YouTube tarzı deneme videosu: Bir kişinin çeşitli mısır koçanı kostümlerini denediği. "Mısır koçanı alışverişi!" diye bağırıyorlar.
Camdan yapılmış bir adam tuğla duvara koşar ve paramparça olur, çığlık atarak.
Uzay giysisi içindeki bir adamın 5 parmakla geri sayım yapıp sıfıra ulaştıktan sonra roket çizmelerle uzaya fırlaması.
Parmaklarla geri sayım yapmak Veo 3 için zor, çünkü muhtemelen eğitim verilerinde iyi temsil edilmemiş. Bunun yerine, eller muhtemelen yumruk, beş parmak açık avuç içi, iki parmaklı zafer işareti ve bir sayısı gibi birkaç pozisyonda gösteriliyor.
Yeni mimariler ortaya çıktıkça ve gelecekteki modeller katlanarak daha fazla işlem gücüyle çok daha büyük veri kümeleri üzerinde eğitildikçe, bu sistemler videolarda gözlemledikleri kavramlar arasında daha derin istatistiksel bağlantılar kuracak, kaliteyi ve yeni prompt'larla genelleme yeteneğini dramatik şekilde iyileştirecektir.
“Kültürel Tekillik” Geliyor – Daha Ne Söylenebilir?
Artık bazılarınız bu tür teknolojinin potansiyel aldatıcılığı nedeniyle toplum olarak başımızın dertte olabileceğinden endişe ediyor olabilir. Ve endişelenmek için iyi bir neden var: Günümüz popüler kültürü büyük ölçüde sosyal medya platformları aracılığıyla yabancılar tarafından paylaşılan kliplere dayanıyor ve artık bunların tamamı kolayca, baştan sona sahte olarak üretilebiliyor. Sahte kişilerin otomatik üretimleri artık kitleleri manipüle edebilecek şekilde ideolojik pozisyonlar için tartışabilir.
Bu tür videolar, Veo 3 öncesinde de çeşitli yöntemlerle manipüle edilebiliyordu, ancak artık giriş engeli çöktü; uzmanlık gerektiren, pahalı yazılımlar ve saatlerce süren zahmetli çalışmadan, basitçe bir prompt yazıp üç dakika beklemeye dönüştü. Eskiden bir görsel efekt sanatçıları ekibi veya en azından bu alanda yetkin biri gerektiren şey, şimdi bir kredi kartı ve internet bağlantısı olan herkes tarafından yapılabilir.
Ancak bir an nefes alalım. Teknoloji yayınlarında, gerçekçi yapay zeka tarafından üretilen medyanın aldatıcı potansiyeli hakkında yıllardır uyarılar yapılıyor. Yapay zeka görsel üreticilerinden ve insanların kendi görsellerini kullanarak özel yapay zeka modelleri eğitebilme yeteneğinden bahsedildi. Yapay zekanın "medya gerçekliğini yıktığı" ve "derin şüphe çağı"nda sürekli medya şüpheciliğinden bahsedildi.
Ayrıca yapay zeka tarafından üretilen gürültüyle tarihi kaydı kirletme yeteneği hakkında da detaylı yazılar yazıldı. Bu yazılarda, medya içinde gerçek ve kurgunun ayırt edilemez hale geldiği bir zamanı belirtmek için "kültürel tekillik" terimi kullanıldı; sadece yapay zeka tarafından üretilen içeriğin aldatıcı doğası nedeniyle değil, aynı zamanda yakın zamanda muhtemelen boğulacağımız muazzam miktardaki yapay zeka tarafından üretilmiş ve yapay zeka destekli medya nedeniyle.
Ancak, geçen yıl yapay zeka kullanarak vefat etmiş bir yakının el yazısını kopyalama hakkında yazdığım bir makalede, kültürel tekillik hakkındaki önceki korkularımın abartılı olabileceği sonucuna vardım. Medya, eski zamanlardan beri sahteciliğe karşı her zaman savunmasız olmuştur; herhangi bir uzaktan iletişime güvenmek nihayetinde kaynağına güvenmeye bağlıdır.
Romalıların MÖ 80'de sahteciliğe karşı yasaları vardı ve insanlar medyanın icadından beri fotoğrafları tahrif ediyor. Değişen şey aldatma olasılığı değil, erişilebilirliği ve ölçeğidir.
Veo 3'ün senkronize diyalog ve ses efektleriyle ikna edici videolar üretme yeteneğiyle, medya aldatmacasının doğumuna tanık olmuyoruz - kitlesel demokratikleşmesini görüyoruz. Hollywood'da milyonlarca dolara mal olan özel efektler, şimdi çok cüzi bir fiyata oluşturulabilir.
Bu araçlar daha güçlü ve uygun fiyatlı hale geldikçe, medyaya karşı şüphecilik artacaktır. Ancak soru, gördüğümüz ve duyduğumuza güvenip güvenemeyeceğimiz değil. Soru, bize bunu gösteren kişiye güvenip güvenemeyeceğimizdir. Herkesin 1,5 dolara herhangi bir şeyin gerçekçi bir videosunu üretebildiği bir çağda, kaynağın güvenilirliği, gerçeğe olan temel dayanağımız haline geliyor. Ortam asla mesaj değildi - mesaj her zaman gönderen kişiydi.