Son dönemde, bilimsel yayınlarda yapay zeka tarafından üretilen yanıltıcı içerikler nedeniyle geri çekilen makalelere sıkça rastlıyoruz. Hatta son olarak yalnızca iki hafta önce, "runctitional", "fexcectorn" ve "frymblal" gibi anlaşılmaz terimler içeren ve bir şekilde incelenip yayınlanan bir görsel, bilim dünyasında ciddi soru işaretleri yarattı. Peki, bu tür dikkat çekici örnekler genel bir eğilimi mi yansıtıyor? Yapay zeka kullanımı, bilimsel literatürün kalitesini ne ölçüde etkiliyor?
Berkeley ve Cornell'den bir grup araştırmacı bu sorunun peşine düştü. Hakemlik öncesi yayımlanan makalelerin en büyük üç arşivini tarayan araştırmacılar, büyük dil modelleri (LLM) kullanılarak üretilmiş olma ihtimali yüksek olan yayınları tespit ettiler. Sonuçlar ilginç: Araştırmacılar yapay zeka kullanmaya başladıktan sonra çok daha fazla makale üretiyor ve kullandıkları dilin kalitesi artsa da, bu makalelerin yayınlanma oranı düşüyor.
Arşivlerde Arama
Araştırmacılar, 2018'den 2024 ortasına kadar olan dönemde üç büyük hakemlik öncesi arşivde yayımlanan tüm makalelerin özetlerini topladılar. arXiv'den 1.2 milyon, Sosyal Bilimler Araştırma Ağı'ndan (SSRN) 675 bin ve bioRxiv'den 220 bin belge elde edildi. Bu, hem üzerinde çalışılacak büyük bir veri kümesi hem de farklı araştırma alanlarını kapsayan geniş bir yelpazeyi oluşturuyordu. Ayrıca, büyük dil modellerinin kabul edilebilir çıktılar üretebileceği dönemden önce gönderilen belgeler de bu çalışmaya dahil edildi.
Araştırmacılar, ChatGPT öncesi döneme ait özetleri kullanarak, insan tarafından üretilen metinlerin istatistiklerini tanıyabilen bir model eğittiler. Ardından aynı özetler GPT 3.5 ile yeniden yazdırıldı ve bu işlem tekrarlandı. Daha sonra bu model, belirli bir özetin yapay zeka mı yoksa insan mı tarafından üretildiğini tahmin etmek için kullanıldı.
Araştırma ekibi bu yöntemi kullanarak, belirli bir arşivdeki yazarın bir gönderi için LLM kullanmaya başladığı kritik geçiş noktasını belirledi. Ardından, araştırmacıların yapay zekaya yönelmeden önceki verimliliklerini, yapay zeka kullanımından sonraki durumla karşılaştırdılar. Araştırmacılar, "LLM kullanımının, her üç ön baskı deposunda da araştırmacıların bilimsel çıktısında büyük bir artışla ilişkilendirildiği" sonucuna vardılar.
Bu etkinin, ana dili İngilizce olmayan kişilerde daha belirgin olması muhtemel. Eğer araştırmacılar, Asya'da bulunan kurumlarda çalışan ve Asyalı isimlere sahip kişilerin analizleriyle sınırlı kalırsa, yapay zeka kullanmaya başladıktan sonra bioRxiv ve SSRN'ye gönderim oranları neredeyse iki katına çıktı ve arXiv'de ise %40'ın üzerinde bir artış yaşandı. Bu durum, İngilizce becerileri zayıf olan kişilerin, metin üretimi gibi önemli bir engeli aşmak için LLM'leri kullandığını gösteriyor.
Nicelik mi, Nitelik mi?
Anlaşılır metinler üretmenin değerini küçümsememek gerekir. Araştırmacılar, "Açık ama karmaşık bir dile sahip makaleler daha güçlü algılanır ve daha sık alıntılanır" diyerek, yazım kalitesini, tarif ettiği araştırmanın kalitesi için bir gösterge olarak kullanabileceğimizi öne sürüyorlar. Ve bu çalışmada da, karmaşık dil kullanan LLM destekli olmayan makalelerin hakemli literatürde yayınlanma olasılığının daha yüksek olduğuna dair bazı göstergeler buldular.
Ancak LLM ile yazılan makaleler için durum tamamen farklıydı. Yapay zeka ile yazılan makalelerdeki dil karmaşıklığı genellikle doğal dil kullananlara göre daha yüksekti. Ancak bu makalelerin yayınlanma olasılığı daha düşüktü. Araştırmacılar, "LLM destekli makaleler için, dilsel karmaşıklık ve bilimsel meziyet arasındaki pozitif korelasyon sadece ortadan kaybolmakla kalmıyor, tersine dönüyor" diye belirtiyor.
Tüm farklılıklar olumsuz değildi. Araştırmacılar, yapay zeka destekli makalelerde kullanılan referansları incelediklerinde, LLM'lerin sadece herkesin alıntıladığı aynı makaleleri alıntılamadığını gördüler. Bunun yerine daha geniş bir kaynak yelpazesine atıfta bulundular ve kitaplar ile güncel makaleleri daha sık alıntıladılar. Bu da, yapay zeka kullanımının, diğer araştırmacıların dikkate aldığı yayınlanmış araştırmaları nihayetinde çeşitlendirebileceği ihtimalini ortaya koyuyor.
Bu Bize Ne Anlatıyor?
Bu sonuçları yorumlarken birkaç uyarıda bulunmak gerekir. Araştırmacıların da kabul ettiği gibi, insanlar başlangıç metinleri üretmek için yapay zekayı kullanıp daha sonra bu metinleri yoğun bir şekilde düzenleyebilirler ve bu durum burada insan tarafından üretilmiş metin olarak yanlış etiketlenebilir. Bu nedenle, yapay zeka kullanımının genel yaygınlığı muhtemelen daha yüksektir. Bir diğer nokta ise, bazı makalelerin yayınlanması zaman alabilir, bu nedenle makalelerin yayınlanma süresini bilimsel kalite için bir standart olarak kullanmak, daha güncel taslakları (yapay zeka kullanımının daha olası olduğu) cezalandırabilir. Bunlar sonuçları bir miktar etkilese de, yazarların gördüğü etkiler o kadar büyüktü ki, tamamen ortadan kalkmaları pek olası değil.
Bu uyarılardan öte, bu sonuçların tarif ettiği durum biraz karışık. Olumlu yönde, yapay zekanın araştırmacıların fikirlerini ifade etmelerine yardımcı olma yeteneği, daha fazla bilimsel çalışmanın geniş kitlelerin dikkatine ulaşmasına yardımcı olabilir. Yazarlar ayrıca, genel dil üzerinde eğitilmiş LLM'lerin jargon kullanımını sınırlayabileceğini ve böylece bilimsel disiplinleri diğer uzmanlık alanlarına sahip kişilere açabileceğini, potansiyel olarak yeni işbirliklerini mümkün kılabileceğini de belirtiyorlar.
Bununla birlikte, yazım kalitesi ile bilimsel kalite arasındaki kopukluk, araştırmacıların bilimsel kaliteyi tahmin etmek için kullandıkları olağan kestirmeleri kullanmalarını zorlaştırabilir. Bunun yerine açıkça bir şey sunulmadığında, bu durum araştırmacılar için önemli zorluklara neden olabilir.
Tamamen değinilmeyen bir diğer konu ise, bu durumun hakemlik süreciyle nasıl birleştiği. Sadece çevrimiçi yayımlanan dergilerin düşük maliyeti, bu dergilerin çoğalmasına ve buna bağlı olarak hakemlere olan ihtiyacın artmasına yol açtı. Editörler düzenli olarak zamanında inceleme alamamaktan ve fakülte üyelerinin inceleme talepleriyle boğuştuğundan şikayet ediyorlar. Eğer LLM'ler araştırmacıların inceleme için makale üretme yeteneğini artırırsa, durum daha da kötüleşecektir.
Her durumda, yazarlar bunun tamamen yeni bir yetenek olduğunu ve henüz kullanıma konulduğunu vurguluyorlar. "Modeller geliştikçe ve bilim insanları çalışmalarına entegre etmenin yeni yollarını keşfettikçe, bu teknolojilerin gelecekteki etkisi, burada vurguladığımız etkilerin çok ötesinde olacaktır" diyorlar.