Yapay zeka (YZ) ile görsel oluşturma teknolojileri hızla gelişiyor ve genellikle güçlü bulut tabanlı sistemlere dayanıyor. Ancak araştırmacılar, mevcut en iyi modellerden yaklaşık 10 kat daha az işlem adımıyla yüksek kaliteli görseller üretebilen yeni bir sistem geliştirdi. Bu teknoloji, daha güvenli, çevre dostu ve hızlı olmasının yanı sıra doğrudan telefonlar ve dizüstü bilgisayarlar gibi cihazlarda çalışabilecek.
University of Surrey'nin İnsan Odaklı Yapay Zeka Enstitüsü araştırmacıları ile Stability AI şirketinin iş birliğiyle geliştirilen teknolojiye Stable Diffusion 3.5 Flash (SD3.5-Flash) adı verildi. Bu modelin çalışma prensibi, yakın zamanda ön baskı veritabanına yüklenen bir çalışma ile duyuruldu. Lenovo, bu modeli kendi cihaz tabanlı YZ platformuna entegre etmek için lisansladı. Bu da SD3.5-Flash'ın yakında akıllı telefonlarda, tabletlerde ve dizüstü bilgisayarlarda yer alacağı anlamına geliyor.
Temel amaç, güçlü üretken YZ'yi uzak veri merkezlerinden çıkarıp kullanıcıların doğrudan kullandığı cihazlara taşımak. Bu gelişme, çevresel etki ve gizlilik açısından önemli faydalar sağlarken, YZ ile görsel oluşturmayı her zamankinden daha hızlı hale getirebilir.
Neden Çoğu YZ Görüntü Üreticisi Yavaş?
Günümüzdeki metinden görsel üreten sistemlerin çoğu, difüzyon adı verilen bir teknikten yararlanıyor. Bu YZ modelleri, rastgele gürültüyle başlayıp, bir dizi adımdan geçerek bu gürültüyü yavaş yavaş bir görsele dönüştürüyor. Geleneksel olarak bu süreç, bitmiş bir görsel üretmek için 30 ila 50 arası yineleme gerektiriyor ve her adım önemli miktarda hesaplama gücü talep ediyor. Bu nedenle popüler YZ görsel oluşturma araçlarının çoğu, yerel cihazlar yerine bulutta bulunan ve güçlü grafik işlemcilerine (GPU'lar) sahip sunucu kümelerinde çalışıyor.
Bu mimari, yüksek kaliteli görseller üretmek için etkili olsa da, yavaşlık ve yüksek enerji tüketimi gibi pratik sınırlamalar getiriyor. Kullanıcıların bir yanıt alabilmek için istemlerini veya görsellerini uzak sunuculara göndermeleri ve beklemesi gerekiyor.
Yeni çalışmada bilim insanları bu darboğazı aşmayı hedefledi. SD3.5-Flash, görsel oluşturma sürecini dramatik bir şekilde kısaltıyor. Araştırmacılara göre, onlarca adıma ihtiyaç duymak yerine model, yalnızca dört işlem adımıyla bir görsel üretebiliyor. Bu, difüzyon sürecini daha verimli bir forma sıkıştırarak ve görsel kalitesini koruyarak sağlanıyor. Sistem, adım adım ilerlemek yerine, ince ayar sürecinde daha büyük sıçramalar yapmayı öğreniyor.
University of Surrey'de doktora araştırmacısı olan ve modelin geliştirilmesinde stajyer olarak yer alan bir araştırmacı, "SD3.5-Flash modelimiz, kullanıcıların veri donanımlarından ayrılmadan, metin açıklamalarından görselleri tamamen kendi cihazlarında oluşturmalarına olanak tanıyor. Bu düzeyde verimlilik elde etmek teknik olarak zorlayıcı çünkü bir difüzyon modelini yalnızca birkaç adımda çalışacak şekilde sıkıştırmayı ve kalitesini korumayı gerektiriyor." dedi.
Çıkarım adımlarındaki azalma, modelin çok daha az hesaplama kaynağına ihtiyaç duyması anlamına geliyor, bu da onu tüketici sınıfı donanımlarda çalıştırılabilir hale getiriyor.
Daha Fazla Gizlilik, Hız ve YZ Sürdürülebilirliği
Üretken YZ'yi bulut yerine yerel olarak çalıştırmak bir dizi avantaja sahip. İlk olarak gizlilik: Bir YZ modeli tamamen bir cihazda çalışırsa, istemler ve oluşturulan görseller uzak sunuculara gönderilmek zorunda kalmaz, bu da veri açığa çıkma, ele geçirilme veya kötüye kullanılma riskini azaltır.
İkinci olarak hız: Daha az işlem adımı ve ağ gecikmesi olmaması, görsel oluşturmayı neredeyse anlık hale getirebilir.
Son olarak, çevresel bir boyut var. Büyük bulut YZ modelleri, veri merkezi operasyonları aracılığıyla önemli miktarda enerji ve su tüketiyor. Ancak yerel olarak çalışan hafif modeller, bu talepleri önemli ölçüde azaltabilir.
University of Surrey'deki SketchX Laboratuvarı'nın direktörü, daha geniş amacın YZ'yi daha erişilebilir ve pratik hale getirmek olduğunu belirtti: "SD3.5-Flash, güçlü bir yaratıcı aracı doğrudan kullanıcıların eline koyarken, verilerini özel tutuyor ve bulut işlemeyle ilişkili enerji taleplerini azaltıyor."
Çalışmada ekip, işlem adımlarındaki büyük düşüşün görsellerin kalitesini etkileyip etkilemediğini ölçmek için SD3.5-Flash'ı geleneksel difüzyon işlem hatlarıyla karşılaştırdı. Sistemin verimliliği, üretken modeller için standartlaştırılmış değerlendirmelerle test edildi. Bu testler, görsellerin doğruluğunu ve çıktının metin istemleriyle ne kadar uyumlu olduğunu ölçtü.
Standart görsel oluşturma testlerindeki sonuçlar, işlem adımlarını yaklaşık 30-50'den dörde indirmesine rağmen, modelin geleneksel difüzyon sistemlerine benzer sonuçlar verebildiğini gösterdi.
Teknoloji şimdiden gerçek ürünlere doğru yol alıyor. Lenovo, YZ yeteneklerini doğrudan tüketici cihazlarına taşımayı amaçlayan yeni Kişisel Ortam Zekası platformu Qira'ya bu modeli entegre etmek için lisansladı. Bu, dizüstü bilgisayarlar, tabletler ve akıllı telefonlarda internet bağlantısı gerektirmeden YZ görsel oluşturma gibi özellikleri mümkün kılabilir. Mart ayında şirket, ilk Qira uyumlu cihazlarını tanıttı, bu da bu yeni YZ sisteminin yakında cihazlarda görülmeye başlayacağını gösteriyor.
Bu gelişme başarılı olursa, üretken YZ'nin nasıl sunulduğunda daha geniş bir değişimi temsil edecek. Merkezi altyapıya güvenmek yerine, gelecekteki YZ araçları giderek artan bir şekilde kenarda, yani günlük cihazlara gömülü olarak çalışabilir. Araştırmacılar bunu, üretken YZ'yi daha verimli ve pratik hale getirme çabasının bir parçası olarak görüyor.
Kaliteden ödün vermeden büyük modelleri sıkıştırmak hala aktif bir araştırma alanı, ancak SD3.5-Flash, güçlü YZ sistemleri ile tüketici donanımları arasındaki farkın hızla kapandığını gösteriyor. Lenovo gibi şirketler cihaz entegrasyonlarını gerçekleştirirse, YZ yaratıcılık araçlarının bir sonraki dalgası bulutta değil, cebinizde yaşayabilir.