Son dönemde yapılan araştırmalar, önde gelen yapay zeka modellerinin, eğitim verilerindeki telif hakkıyla korunan eserleri neredeyse birebir kopyalayabildiğini ortaya koyuyor. Bu durum, yapay zeka şirketlerinin sistemlerinin telifli eserleri depolamadığı yönündeki iddialarını yeniden sorgulanır hale getirdi.
OpenAI, Google, Meta, Anthropic ve xAI gibi firmaların geliştirdiği büyük dil modellerinin, tahmin edilenden çok daha fazla eğitim verisini ezberlediği bilimsel çalışmalarla kanıtlanıyor. Yapay zeka ve hukuk uzmanları, bu "ezberleme" yeteneğinin, dünya genelinde devam eden sayısız telif hakkı davasında yapay zeka şirketlerinin temel savunmasını baltalayabileceğini belirtiyor. Bu savunma, büyük dil modellerinin telifli eserlerden "öğrendiği" ancak kopyalarını "depolamadığı" üzerine kurulu.
İmparatorluk Koleji London'dan uygulamalı matematik ve bilgisayar bilimi profesörü Yves-Alexandre de Montjoye, "Ezberlemenin daha önce inanıldığından daha büyük bir sorun olduğuna dair artan kanıtlar var" diyor.
Yapay zeka şirketleri uzun süredir ezberlemenin gerçekleşmediğini savunuyor. Google, ABD Telif Hakkı Ofisi'ne gönderdiği bir mektupta, "modelin kendisinde metin, görsel veya başka formatlarda eğitim verisinin hiçbir kopyası bulunmamaktadır" ifadesini kullanmıştı. Yapay zeka sektörü ayrıca, telifli kitaplarla model eğitimi yapmanın "adil kullanım" olduğunu ve teknolojinin orijinal eseri anlamlı derecede yeni bir şeye dönüştürdüğünü iddia ediyor.
Ancak geçtiğimiz ay yayınlanan bir çalışma, Stanford ve Yale Üniversiteleri'nden araştırmacıların, stratejik yönlendirmelerle yapay zeka modellerinden, aralarında Taht Oyunları, Açlık Oyunları ve Hobbit gibi 13 kitabın binlerce kelimesini üretebildiğini gösterdi. Modellerden kitaplardaki cümleleri tamamlamalarını istemek, Gemini 2.5'in Harry Potter ve Felsefe Taşı'nın %76.8'ini yüksek doğrulukla tekrarlamasına neden olurken, Grok 3 ise %70.3'ünü üretti.
Araştırmacılar, Anthropic'in Claude 3.7 Sonnet modelinden ise, kullanıcıların yapay zeka modellerinin güvenlik önlemlerini devre dışı bırakmasına olanak tanıyan "jailbreaking" yöntemiyle, romanın neredeyse tamamını "neredeyse birebir" olarak almayı başardı. Bu bulgular, geçen yıl Meta'nın Llama gibi "açık" modellerin eğitim verilerindeki belirli kitapların büyük bölümlerini ezberlediğini ortaya koyan bir çalışmayı da destekliyor.
Daha önce, güvenlik önlemleri daha sıkı olan kapalı modellerin de bu türden büyük ölçekli ezberlemeye ne kadar yatkın olduğu belirsizdi. Yale Üniversitesi'nden araştırmacı A. Feder Cooper, güvenlik önlemlerine rağmen modellerin "tüm metinleri ezberleyebilmesinin sürpriz olduğunu" belirtti.
Yapay zeka modellerinin eğitim verilerinde yer alan bilgileri neden ezberlediği henüz tam olarak anlaşılamadı. Ayrıca, eğitim verilerinin ne kadarının üretilen çıktılarda yer aldığı da belirsizliğini koruyor. Bu ezberleme özelliği, sağlık hizmetleri ve eğitim gibi alanlarda da ciddi gizlilik ve mahremiyet sorunlarına yol açabilir.
Hukuk uzmanları, bu durumun telif hakkı ihlali açısından yapay zeka şirketleri için önemli bir yükümlülük oluşturabileceğini ve yapay zeka şirketlerinin modellerini nasıl eğittiği ve geliştirme maliyetleri üzerinde de etkileri olabileceğini düşünüyor. Fikri mülkiyet ortağı Cerys Wyn Davies, "Araştırma bulguları, yapay zeka modelinin telif hakkıyla korunan herhangi bir eseri depolamadığı veya çoğaltmadığı argümanını savunanlar için bir zorluk teşkil edebilir" dedi.
Yapay zeka modellerinin eğitim verilerini ezberleyip ezberlemediği, son dönemdeki telif hakkı davalarında önemli bir rol oynuyor. Geçtiğimiz yıl ABD'de bir mahkeme, Anthropic'in telifli içerikler üzerinde yaptığı LLM eğitiminin "dönüştürücü" niteliği nedeniyle adil kullanım olarak kabul edilebileceğine karar verdi. Ancak korsan eserlerin depolanmasının "doğası gereği affedilemez şekilde ihlal edici" olduğuna hükmetti ve bu durum Anthropic'in davayı 1.5 milyar dolar ödeyerek kapatmasına yol açtı.
Almanya'da ise geçtiğimiz Kasım ayından bir mahkeme kararı, OpenAI'nin modelinin şarkı sözlerini ezberlemesi nedeniyle telif hakkını ihlal ettiğini buldu. Besteci, söz yazarı ve yayıncıları temsil eden GEMA birliği tarafından açılan bu dava, AB'de dönüm noktası niteliğinde bir karar olarak kabul edildi.
Hukuk firması Husch Blackwell ortağı Rudy Telscher, bir kitabı "jailbreaking" yapmadan tamamen yeniden üretmenin "açıkça bir telif hakkı ihlali" olduğunu, ancak bunun "yeterince sık olup olmadığı ve [yapay zeka modellerinin] ihlalden dolaylı olarak sorumlu tutulup tutulamayacağının bir mesele" olduğunu belirtti.
Anthropic, Stanford ve Yale araştırmalarında kullanılan "jailbreaking" tekniğinin normal kullanıcılar için pratik olmadığını ve metni elde etmek için içerik satın almaktan daha fazla çaba gerektireceğini savundu. Şirket ayrıca, modelinin belirli veri kümelerinin kopyalarını depolamadığını, ancak eğitim verilerindeki kelimeler ve diziler arasındaki örüntülerden ve ilişkilerden öğrendiğini ekledi. xAI, OpenAI ve Google ise yorum taleplerine yanıt vermedi.
İmparatorluk Koleji'nden de Montjoye, yapay zeka laboratuvarlarının eğitim verilerinin çıkarılmasını önlemek için güvenlik önlemleri almasının, sorunun farkında olduklarını gösterdiğini ifade etti. Chicago Üniversitesi'nden bilgisayar bilimi profesörü Ben Zhao ise, yapay zeka laboratuvarlarının en gelişmiş modelleri yaratmak için gerçekten telif hakkıyla korunan içeriği eğitim verilerinde kullanmaya ihtiyaç duyup duymadıklarını sorguladı. Zhao, "Teknik sonucun yapılıp yapılamayacağı bir yana, bunu yapmalı mıyız sorusu hala ortada. Hukuki tarafın sonunda sağlam durması ve tüm bu sürecin hakemi olması gerekiyor" dedi.