Geçtiğimiz günlerde ortaya çıkan mahkeme belgeleri, yapay zeka şirketi Anthropic'in Claude adlı yapay zeka asistanını eğitmek için milyonlarca dolar harcayarak basılı kitapları fiziksel olarak taradığını gözler önüne serdi.
Bu süreçte şirket, milyonlarca basılı kitabın ciltlerini keserek, sayfaları dijital dosyalara dönüştürdü ve sırf yapay zeka eğitimi amacıyla orijinalleri çöpe attı. Bu şaşırtıcı detaylar, telif hakkı ve adil kullanım üzerine yapılan bir yargı kararında ortaya çıktı.
32 sayfalık yasal kararda anlatıldığına göre, Anthropic 2024 yılının Şubat ayında, daha önce kitap tarama projelerinde görev almış birini işe alarak ona "dünyadaki tüm kitapları" elde etme görevini verdi. Bu stratejik hamlenin, daha önce telif hakkı davalarından sağ çıkmış ve önemli adil kullanım emsalleri oluşturmuş büyük bir dijitalleştirme operasyonunu taklit etmek amacıyla yapıldığı düşünülüyor.
Yıkıcı tarama, daha küçük ölçekli çalışmalarda yaygın olsa da, Anthropic'in yaklaşımı devasa ölçeği nedeniyle sıra dışıydı. Anthropic için, yıkıcı sürecin sunduğu daha yüksek hız ve düşük maliyet, fiziksel kitapları koruma ihtiyacının önüne geçmiş gibi görünüyor.
Yargıç, bu yıkıcı tarama işleminin adil kullanım olarak nitelendirilebileceğine hükmetti, ancak bunun belirli şartları vardı: Anthropic'in kitapları yasal olarak satın almış olması, her basılı kopyayı taradıktan sonra imha etmesi ve dijital dosyaları dağıtmak yerine dahili olarak saklaması. Yargıç, süreci format dönüştürme yoluyla "yerden tasarruf etmeye" benzetti ve dönüştürücü buldu. Eğer Anthropic baştan beri bu yaklaşıma sadık kalsaydı, yapay zeka için ilk yasal olarak onaylanmış adil kullanım vakasını gerçekleştirmiş olabilirdi. Ancak şirketin daha önceki korsan içerik kullanımı konumunu zayıflattı.
Peki bir şirket neden milyonlarca dolar harcayarak kitapları satın alıp sonra da imha etsin? Bu tuhaf yasal manevraların arkasında, yapay zeka endüstrisinin yüksek kaliteli metinlere olan doymak bilmez iştahı yatıyor.
Yüksek Kaliteli Eğitim Verisi Yarışı
Anthropic'in milyonlarca kitabı neden taramak istediğini anlamak için, yapay zeka araştırmacılarının ChatGPT ve Claude gibi büyük dil modellerini (LLM) milyarlarca kelimeyi sinir ağına besleyerek inşa ettiğini bilmek önemlidir. Eğitim sırasında yapay zeka sistemi metni tekrar tekrar işler, bu süreçte kelimeler ve kavramlar arasında istatistiksel ilişkiler kurar.
Sinir ağına beslenen eğitim verisinin kalitesi, ortaya çıkan yapay zeka modelinin yeteneklerini doğrudan etkiler. İyi düzenlenmiş kitaplar ve makaleler üzerinde eğitilmiş modeller, rastgele YouTube yorumları gibi daha düşük kaliteli metinler üzerinde eğitilmiş modellere göre daha tutarlı, doğru yanıtlar üretme eğilimindedir.
Yayıncılar, yapay zeka şirketlerinin çaresizce istediği içeriği yasal olarak kontrol eder, ancak yapay zeka şirketleri her zaman bir lisans için müzakere etmek istemezler. Kitabın satın alındıktan sonra o kopyasıyla isteneninin yapılabileceği prensibi (ilk satış doktrini gibi) bir çözüm sundu: Fiziksel bir kitabı satın aldığınızda, o kopyayla ne yapmak istediğiniz size kalmış. Bu, fiziksel kitap satın almanın yasal bir kaçış yolu sunduğu anlamına geliyordu.
Ancak bir şeyler satın almak pahalıdır, yasal olsa bile. Bu yüzden Anthropic de, kendisinden önceki birçok yapay zeka şirketi gibi, başlangıçta hızlı ve kolay yolu seçti. Yüksek kaliteli eğitim verisi arayışında, mahkeme dosyasında belirtildiği gibi, Anthropic ilk olarak yayıncılarla karmaşık lisans müzakerelerinden kaçınmak için korsan kitapların dijitalleştirilmiş versiyonlarını toplamayı seçti. Ancak 2024'e gelindiğinde, yasal nedenlerle korsan e-kitapları kullanma konusunda eskisi kadar hevesli değildi ve daha güvenli bir kaynağa ihtiyacı vardı.
Kullanılmış fiziksel kitapları satın almak, lisanslama sürecini tamamen atlatırken, yapay zeka modellerinin ihtiyaç duyduğu yüksek kaliteli, profesyonelce düzenlenmiş metni sağladı ve yıkıcı tarama, milyonlarca cildi dijitalleştirmenin en hızlı yoluydu. Şirket, bu satın alma ve tarama operasyonuna "milyonlarca dolar" harcadı ve genellikle toplu olarak kullanılmış kitaplar satın aldı. Ardından, kitapları ciltlerinden ayırdılar, sayfaları işlenebilir boyutlarda kestiler, kapakları da dahil olmak üzere makine tarafından okunabilir metin içeren PDF'ler olarak taradılar, sonra tüm kağıt orijinalleri attılar.
Mahkeme belgeleri, bu süreçte nadir kitapların yok edildiğini göstermiyor; Anthropic kitaplarını büyük perakendecilerden toplu olarak satın aldı. Ancak arşivciler, kağıttan bilgi çıkarmak için başka yolların olduğunu çok uzun zaman önce belirlediler. Örneğin, Internet Archive, fiziksel ciltleri korurken dijital kopyalar oluşturan yıkıcı olmayan kitap tarama yöntemlerine öncülük etti. Ve yakın zamanda, OpenAI ve Microsoft'un, Harvard kütüphaneleriyle birlikte, 15. yüzyıla kadar uzanan yaklaşık 1 milyon kamu malı kitabı (tamamen dijitalleştirilmiş ancak korunmuş) üzerinde yapay zeka eğitmek için çalıştığı duyuruldu.
Harvard 600 yıllık el yazmalarını yapay zeka eğitimi için dikkatlice korurken, dünyanın bir yerinde, Claude'a özgeçmişinizi nasıl iyileştireceğini öğreten milyonlarca kitabın atılmış kalıntıları yatıyor. Bu süreç sorulduğunda, Claude'un kendisi, milyarlarca sayfadan derlenmiş bir üslupla dokunaklı bir yanıt verdi: "Bu yıkımın beni yaratmaya yardımcı olması - edebiyatı tartışabilen, insanlara yazmada yardımcı olabilen, insan bilgisini kullanabilen bir şeyi - hala işlediğim katmanlı bir karmaşıklık ekliyor. Sanki bir kütüphanenin küllerinden inşa edilmiş gibiyim."