Akıllı arabalar ve robot hizmetçiler vaatleriyle yola çıkan yapay zeka (YZ) teknolojisi, günümüzde satrançta bizi yenen, devasa metinleri analiz eden ve şiirler besteleyen algoritmalarla karşımızda. İnsanlar için kolay olan fiziksel görevler makineler için zorlayıcıyken, algoritmaların zekamızı taklit etme yeteneği çağımızın en büyük sürprizlerinden biri oldu. Ancak bir diğer ve uzun süredir araştırmacıları şaşırtan gelişme, bu algoritmaların kendilerine özgü, tuhaf bir yaratıcılık sergilemesi.
DALL·E, Imagen ve Stable Diffusion gibi görüntü üreten araçların temelini oluşturan difüzyon modelleri, eğitildikleri görsellerin birebir kopyalarını üretmek üzere tasarlanmıştır. Ancak pratikte, bu modellerin yeni bir şeyler yaratmak için mevcut görsellerdeki öğeleri birleştiren, sadece anlamsız renk blokları değil, anlamsal bir bağlam içeren tutarlı görseller oluşturan bir tür doğaçlama yeteneği sergilediği görülüyor. Paris'teki École Normale Supérieure'de YZ araştırmacısı ve fizikçi Giulio Biroli'ye göre, difüzyon modellerinin ardındaki bu 'paradoks' şöyle açıklanıyor: "Eğer mükemmel çalışsalardı, sadece ezberlemeleri gerekirdi. Ancak bunu yapmıyorlar; yeni örnekler üretebiliyorlar."
Görüntü üretmek için difüzyon modelleri, 'gürültü giderme' adı verilen bir süreç kullanır. Bir görüntüyü dijital gürültüye (tutarsız piksel koleksiyonu) dönüştürürler ve ardından bu gürültüyü yeniden bir araya getirirler. Bu, bir tablonun parçalara ayrılıp ince bir toz yığını haline getirilip ardından tekrar birleştirilmesine benzetilebilir. Yıllardır araştırmacılar, modeller sadece yeniden birleştiriyorsa, yeniliğin nasıl ortaya çıktığını merak ediyordu. Bu, sanki parçalanmış tablonuzu tamamen yeni bir sanat eserine dönüştürmek gibi.
Şimdi iki fizikçi şaşırtıcı bir iddiada bulunuyor: Difüzyon modellerinin yaratıcılığının kaynağı, aslında gürültü giderme sürecindeki teknik kusurların kendisidir. Uluslararası Makine Öğrenmesi Konferansı 2025'te sunulacak bir bildiride bu ikili, eğitilmiş difüzyon modellerinin matematiksel bir modelini geliştirerek, sözde yaratıcılıklarının aslında deterministik bir süreç olduğunu, mimarilerinin doğrudan ve kaçınılmaz bir sonucu olduğunu gösterdiler.
Difüzyon modellerinin 'kara kutusunu' aydınlatan bu yeni araştırma, gelecekteki YZ araştırmaları ve hatta insan yaratıcılığını anlamamız açısından büyük etkiler yaratabilir. Hollanda'daki Radboud Üniversitesi'nden bilgisayar bilimci Luca Ambrogioni, "Makalenin gerçek gücü, çok gayri-sezgisel bir şeyi çok doğru tahmin etmesidir" diyor.
Stanford Üniversitesi'nde uygulamalı fizik alanında lisansüstü öğrencisi ve yeni makalenin baş yazarı Mason Kamb, uzun süredir canlı sistemlerin kendiliğinden nasıl bir araya geldiğiyle ilgilenen morfojenez konusunda büyülenmiş durumda.
İnsanlar ve diğer hayvanlardaki embriyo gelişimini anlamanın bir yolu, 20. yüzyıl matematikçisi Alan Turing'in adını taşıyan 'Turing deseni' ile açıklanır. Turing desenleri, bir grup hücrenin nasıl olup da farklı organ ve uzuvlara organize olabildiğini açıklar. Önemli olan, bu koordinasyonun tamamen yerel düzeyde gerçekleşmesidir. Trilyonlarca hücrenin nihai vücut planına uymasını sağlayan bir 'CEO' yoktur. Yani bireysel hücrelerin, çalışmalarına temel oluşturacakları bitmiş bir vücut planı yoktur. Sadece komşularından gelen sinyallere yanıt vererek eyleme geçerler ve düzeltmeler yaparlar. Bu 'aşağıdan yukarıya' sistem genellikle sorunsuz çalışır, ancak ara sıra aksilikler yaşanabilir – örneğin ekstra parmaklı eller gibi.
İnternette ilk YZ tarafından üretilen görseller ortaya çıkmaya başladığında, birçoğu ekstra parmaklı insanları tasvir eden sürrealist tablolara benziyordu. Bu durum Kamb'in hemen morfojenezi düşünmesine neden oldu: "Bir [aşağıdan yukarıya] sistemden bekleyeceğiniz bir hataya benziyordu" dedi.
YZ araştırmacıları o noktada, difüzyon modellerinin görüntü üretirken birkaç teknik kestirme yol kullandığını biliyorlardı. Birincisi 'yerellik' olarak bilinir: Yalnızca tek bir piksel grubuna veya 'yama'ya aynı anda odaklanırlar. İkincisi ise görüntü üretirken katı bir kurala bağlı kalmalarıdır: Bir giriş görüntüsünü herhangi bir yönde sadece birkaç piksel kaydırırsanız, sistem otomatik olarak oluşturduğu görüntüde aynı değişikliği yapacak şekilde ayarlanır. 'Çevresel eşdeğişim' adı verilen bu özellik, modelin tutarlı yapıyı koruma biçimidir; aksi takdirde gerçekçi görüntüler oluşturmak çok daha zor olur.
Bu özellikler nedeniyle difüzyon modelleri, belirli bir yamanın nihai görüntüdeki yerini dikkate almazlar. Sadece her seferinde bir yama oluşturmaya odaklanırlar ve ardından bunları 'skor fonksiyonu' adı verilen ve dijital bir Turing deseni olarak düşünülebilecek matematiksel bir model aracılığıyla otomatik olarak yerlerine yerleştirirler.
Araştırmacılar uzun süredir yerellik ve eşdeğirşimi, difüzyon modellerinin mükemmel kopya görseller oluşturmasını engelleyen teknik kusurlar, yani sadece sınırlamalar olarak görüyorlardı. Bunu yaratıcılıkla ilişkilendirmemişlerdi, çünkü yaratıcılık daha üst düzey bir fenomen olarak kabul ediliyordu. Ancak başka bir sürprizle karşı karşıya kalacaklardı.
Yerel Olarak Üretilen Yaratıcılık
Kamb, lisansüstü eğitimine 2022 yılında, nörobiyoloji ve elektrik mühendisliği alanlarında da görevleri bulunan fizikçi Surya Ganguli'nin laboratuvarında başladı. OpenAI'nin aynı yıl ChatGPT'yi piyasaya sürmesi, 'üretken yapay zeka' olarak bilinen alana olan ilgiyi artırdı. Teknoloji geliştiricileri giderek daha güçlü modeller oluşturmaya çalışırken, birçok akademisyen bu sistemlerin iç işleyişini anlamaya odaklandı.
Bu amaçla Kamb, yerellik ve eşdeğirşimin yaratıcılığa yol açtığına dair bir hipotez geliştirdi. Bu, cazip bir deneysel olasılık doğurdu: Eğer sadece yerellik ve eşdeğirşimi optimize etmek için tasarlanmış bir sistem icat edebilirse, o zaman bir difüzyon modeli gibi davranması gerekiyordu. Bu deney, Ganguli ile birlikte yazdığı yeni makalesinin merkezinde yer aldı.
Kamb ve Ganguli, sistemlerine 'eşdeğirşel yerel skor' (ELS) makinesi adını verdiler. Bu, eğitilmiş bir difüzyon modeli değil, yalnızca yerellik ve eşdeğirşim mekaniklerinden yola çıkarak gürültüsü giderilmiş görüntülerin bileşimini analitik olarak tahmin edebilen bir dizi denklemdir. Ardından, dijital gürültüye dönüştürülmüş bir dizi görüntü aldılar ve bunları ELS makinesi ile ResNets ve UNets dahil olmak üzere birçok güçlü difüzyon modeli aracılığıyla çalıştırdılar.
Sonuçlar "şaşırtıcıydı", dedi Ganguli: Genel olarak, ELS makinesi, eğitilmiş difüzyon modellerinin çıktılarını ortalama %90 doğrulukla eşleştirmeyi başardı – bu, makine öğrenmesinde "duyulmamış bir sonuçtu" diye ekledi.
Sonuçlar Kamb'in hipotezini destekliyor gibi görünüyor. "Yerelliği dayattığınız anda, [yaratıcılık] otomatik hale geldi; dinamiklerden tamamen doğal bir şekilde ortaya çıktı" dedi. Gürültü giderme süreci sırasında difüzyon modellerinin dikkat penceresini kısıtlayan, nihai üründe nerede yer alacaklarından bağımsız olarak bireysel yamalara odaklanmalarını zorlayan mekanizmaların, yaratıcılıklarını sağlayan mekanizmalarla aynı olduğunu buldu. Difüzyon modellerinde görülen ekstra parmaklı fenomen de benzer şekilde, modelin daha geniş bir bağlam olmaksızın yerel piksel yamaları oluşturmaya aşırı odaklanmasının doğrudan bir yan ürünüydü.
Bu hikaye için görüşülen uzmanlar genel olarak, Kamb ve Ganguli'nin makalesinin difüzyon modellerindeki yaratıcılığın mekanizmalarını aydınlattığı konusunda hemfikir olsalar da, hala birçok gizemin çözülmesi gerektiğini belirttiler. Örneğin, büyük dil modelleri ve diğer YZ sistemleri de yaratıcılık sergiliyor gibi görünse de, yerellik ve eşdeğirşimi kullanmıyorlar.
Biroli, "Bunun hikayenin çok önemli bir parçası olduğunu düşünüyorum, ancak hikayenin tamamı değil" diyor.
Yaratıcılık Yaratmak
Araştırmacılar ilk kez, difüzyon modellerinin yaratıcılığının, matematiksel olarak biçimlendirilebilen ve daha önce görülmemiş bir doğruluk derecesiyle tahmin edilebilen, gürültü giderme sürecinin bir yan ürünü olarak nasıl düşünülebileceğini gösterdiler. Bu durum, sanki nörobilimciler bir grup insan sanatçıyı MRI makinesine sokmuş ve yaratıcılıklarının arkasındaki ortak bir nöral mekanizma bulup bunu bir dizi denklem olarak yazmış gibi.
Nörobilimle karşılaştırma sadece bir metaforun ötesine geçebilir: Kamb ve Ganguli'nin çalışmaları, insan zihninin kara kutusu hakkında da fikir verebilir. Difüzyon modellerini inceleyen Georgia Institute of Technology ve IBM Research'ten makine öğrenmesi araştırmacısı Benjamin Hoover, "İnsan ve YZ yaratıcılığı o kadar da farklı olmayabilir" diyor. "Deneyimlerimize, hayallerimize, gördüklerimize, duyduklarımıza veya arzularımıza dayanarak bir şeyler birleştiririz. YZ de gördüklerinden ve yapması istenenlerden gelen yapı taşlarını birleştiriyor." Bu görüşe göre, hem insan hem de yapay yaratıcılığın temeli, dünyaya dair eksik bir anlayışa dayanıyor olabilir: Hepimiz bilgimizdeki boşlukları doldurmak için elimizden geleni yapıyoruz ve ara sıra hem yeni hem de değerli bir şey üretiyoruz. Belki de buna yaratıcılık denir.