Ara

Teknoloji Devi OpenAI’dan Şaşırtıcı Yenilik: ChatGPT ile Fotoğraf Manipülasyonu Artık Çok Kolay!

Fotoğrafçılığın yaklaşık 200 yıllık tarihinde, bir görüntüyü ikna edici bir şekilde değiştirmek için ya karanlık oda tekniklerine, Photoshop uzmanlığına ya da en azından makas ve yapıştırıcıyla ustalık gerektiren bir el becerisine ihtiyaç duyuluyordu. Salı günü OpenAI, bu süreci sadece bir cümle yazmaya indirgeyen bir araç tanıttı.

Bu alanda öncü olan ilk şirket OpenAI değil. OpenAI'ın 2024'te GPT-4o ile birlikte geliştirmekte olduğu sohbet tabanlı bir görsel düzenleme modeli varken, Google Mart ayında kamuoyuna açık bir prototip ile bu alanda OpenAI'ın önüne geçti ve ardından popüler bir model olan Nano Banana görsel modelini (ve Nano Banana Pro'yu) piyasaya sürdü. Google'ın görsel düzenleme modeline yapay zeka topluluğundan gelen coşkulu tepki, OpenAI'ın dikkatini çekti.

OpenAI'ın yeni GPT Image 1.5 modeli, selefine göre dört kat daha hızlı görsel üretebildiği ve API üzerinden yüzde 20 daha uygun maliyetli olduğu bildirilen bir yapay zeka görsel sentez modelidir. Salı günü tüm ChatGPT kullanıcılarına sunulan bu model, foto-gerçekçi görsel manipülasyonu, özel bir görsel beceri gerektirmeyen sıradan bir işlem haline getirme yolunda önemli bir adım daha atıyor.

GPT Image 1.5'in dikkat çekici yanı, metin komutlarını doğrudan işleyen "yerel multimodal" bir görsel model olmasıdır. Bu, görsel üretimi, dil komutlarını işleyen aynı yapay sinir ağı içinde gerçekleştiği anlamına gelir. (Buna karşılık, ChatGPT'ye entegre edilmiş daha önceki bir OpenAI görsel üreticisi olan DALL-E 3, görselleri üretmek için difüzyon adı verilen farklı bir teknik kullanıyordu.)

Bu yeni model türü, görselleri ve metinleri aynı veri parçacıkları olarak ele alır: "token" adı verilen ve tahmin edilmesi gereken, tamamlanması gereken örüntüler. Bir babanızın fotoğrafını yükleyip "onu bir düğünde smokinle göster" yazdığınızda, model kelimelerinizi ve görsel pikselleri birleşik bir alanda işleyerek, bir cümlenin bir sonraki kelimesini üretir gibi yeni pikseller çıktı olarak verir.

Bu tekniği kullanarak, GPT Image 1.5, bir kişinin duruşunu veya pozisyonunu değiştirerek, bir sahneyi hafif farklı bir açıdan sunarak veya nesneleri kaldırarak, görsel stilleri değiştirerek, kıyafetleri ayarlayarak ve ardışık düzenlemeler sırasında yüz özelliklerini koruyarak daha önceki yapay zeka görsel modellerine göre görsel gerçekliği daha kolay değiştirebilir. Bir fotoğraf üzerinde yapay zeka modeliyle, sanki bir e-posta taslağını ChatGPT'de düzenliyormuş gibi konuşarak iyileştirmeler yapabilirsiniz.

OpenAI'ın uygulamalardan sorumlu CEO'su Fidji Simo, bir blog yazısında ChatGPT'nin sohbet arayüzünün görsel işler için hiçbir zaman tasarlanmadığını belirtti. Simo, "Görsel oluşturmak ve düzenlemek farklı bir görev türüdür ve görseller için tasarlanmış bir alana ihtiyaç duyar" dedi. Bu amaçla OpenAI, kenar çubuğunda önceden ayarlanmış filtreler ve popüler istemlerle özel bir görsel oluşturma alanı tanıttı.

Bu sürümün zamanlaması, Google'ın yapay zeka alanındaki teknik kazanımlarına, özellikle de sohbet tabanlı kullanıcı tabanındaki büyük büyümesine doğrudan bir yanıt gibi görünüyor. Özellikle Google'ın Nano Banana görsel modeli (ve Nano Banana Pro), Ağustos ayındaki sürümünden sonra metinleri nispeten net bir şekilde işleme ve düzenlemeler boyunca yüzleri tutarlı bir şekilde koruma yeteneği sayesinde sosyal medyada popülerlik kazandı.

OpenAI'ın önceki token tabanlı görsel sentez modeli, konuşma istemlerine dayalı olarak bazı hedeflenmiş düzenlemeler yapabiliyordu, ancak genellikle kullanıcıların korumak isteyebileceği yüz detaylarını ve diğer öğeleri değiştiriyordu. GPT Image 1.5, Google'ın zaten sunduğu düzenleme özellikleriyle eşleşecek şekilde tasarlanmış görünüyor. Ancak eski ChatGPT görsel üreticisini tercih ederseniz, OpenAI önceki sürümün şimdilik tercih eden kullanıcılar için özel bir GPT olarak mevcut kalacağını belirtiyor.

Engeller Sürekli Azalıyor

GPT Image 1.5 mükemmel değil. Kısa süreli testlerimizde, istem yönergelerini her zaman çok iyi takip etmedi. Ancak çalıştığında, sonuçlar OpenAI'ın önceki multimodal görsel modelinden daha ikna edici ve ayrıntılı görünüyor. Daha detaylı bir karşılaştırma için, Shaun Pedicini adında bir yazılım danışmanı, çeşitli yapay zeka görsel modellerinin A/B testlerini yürüten "GenAI Image Editing Showdown" adlı bilgilendirici bir site hazırladı.

Ve son birkaç yıldır bu konuyu çok fazla yazdık, ancak gerçekçi fotoğraf düzenleme ve manipülasyonun önündeki engellerin sürekli azaldığını tekrarlamak muhtemelen değerlidir. Bu tür sorunsuz, gerçekçi, zahmetsiz yapay zeka görsel manipülasyonu, görsel imgelerin toplum için ne anlama geldiği konusunda kültürel bir yeniden kalibrasyona yol açabilir. Daha önceki bir medya döneminde büyümüş biri için, kendinizi aslında gerçekleşmemiş durumlarda görmek biraz korkutucu da olabilir.

Fotoğrafçılığın geçmişinin büyük bir bölümünde, ikna edici bir sahtekarlık beceri, zaman ve kaynak gerektiriyordu. Bu engeller, sahtekarlığı yeterince nadir hale getiriyordu ki birçok fotoğrafı gerçeğin makul bir vekili olarak kabul edebilirdik, ancak yine de manipüle edilebilirlerdi (ve sık sık ediliyordu). Yapay zeka nedeniyle bu dönem sona erdi, ancak GPT Image 1.5 kalan engelleri daha da kaldırdı.

Düzenlemeler boyunca yüz benzerliğini koruma yeteneği, meşru fotoğraf düzenleme için bariz bir fayda ve aynı derecede bariz bir kötüye kullanma potansiyeli sunuyor. Görsel üreticiler şimdiden rıza dışı mahrem imgeler oluşturmak ve gerçek kişileri taklit etmek için kullanıldı.

Bu tehlikeler göz önünde bulundurulduğunda, OpenAI'ın görsel üreticileri her zaman cinsel veya şiddet içeren çıktıları genellikle engelleyen bir filtre içerdi. Ancak yine de bu konuları atlayarak, rızası olmadan insanların utanç verici görsellerini oluşturmak (OpenAI'ın hizmet şartlarını ihlal etse de) hala mümkün. Şirket, üretilen görsellerin AI tarafından oluşturulduğunu belirten C2PA meta verilerini içerdiğini, ancak bu verilerin dosyayı yeniden kaydederek kaldırılabileceğini söylüyor.

Sahte imgelere gelince, metin oluşturma görsel üreticilerde uzun süredir devam eden bir zayıflıktı ve yavaş yavaş iyileşti. Bazı eski görsel sentez modellerine belirli kelimelerle bir tabela veya poster oluşturmaları istendiğinde, sonuçlar genellikle bozuk veya yanlış yazılmış olarak geri dönüyordu.

OpenAI, GPT Image 1.5'in daha yoğun ve küçük metinleri işleyebildiğini belirtiyor. Şirketin blog gönderisi, modelin başlıklar, yazar adı, karşılaştırmalı tablolar ve paragraf düzeyinde okunabilirliğini koruyan gövde metni içeren çok paragraflı bir makale içeren bir gazete görseli ürettiği bir gösterim içeriyor. Bunun çeşitli istemlerde ne kadar iyi performans göstereceği daha geniş testler gerektirecektir.

Örnekteki gazete şimdilik sahte görünse de, görsel sentez daha gerçekçi hale geldikçe İnternet öncesi tarihsel kaydın kamu algısının potansiyel aşınması yönünde atılmış bir adımdır.

OpenAI, blog gönderisinde yeni modelin hala sınırlı çizim stili desteği ve bilimsel doğruluk gerektiren görseller oluştururken yapılan hatalar gibi sorunları olduğunu kabul etti. Ancak zamanla daha iyi olacağına inanıyorlar. Şirket, "Görsel üretimin neler başarabileceğinin henüz başlangıcında olduğumuza inanıyoruz" diye yazdı. Ve son üç yıldaki görsel sentezdeki ilerleme, bunu gösteriyorsa, doğru olabilirler.

Önceki Haber
Apple'dan Tek Bir Fotoğraftan Saniyeler İçinde 3D Sahne Oluşturan Yapay Zeka Modeli
Sıradaki Haber
İki Yaygın Takviye, Ölümcül Beyin Kanseriyle Savaşta Umut Vadediyor

Benzer Haberler: