Bilim insanlarının karmaşık bulgularını genel okuyucu kitlesi için anlaşılır hale getirmek, bilim gazeteciliğinin temel taşlarından biridir. Son yıllarda, büyük dil modellerinin (LLM) metin özetleme konusundaki yetenekleri de sıkça dile getirilen kullanım alanlarından biri olmuştur.
Bu doğrultuda, bilimsel yayıncılık alanında önemli bir yere sahip olan bir kuruluş, ChatGPT'nin bilimsel makaleleri özetleme konusundaki performansını mercek altına aldı. Bu kuruluşun 'SciPak' ekibi, düzenli olarak 'Science' dergisi ve çeşitli bilim haber platformları için makale özetleri hazırlıyor. Bu özetler, araştırmanın amacını, yöntemlerini ve bağlamını, konuyu haberleştirmek isteyebilecek diğer gazetecilere aktarmak üzere özel ve basitleştirilmiş bir formatta sunuluyor.
Yapılan bir yıllık gayriresmi çalışmanın sonuçları, ChatGPT'nin genel bir özet yapısı oluşturabildiğini ancak bu özetlerin doğruluğu basitleştirme uğruna feda edebildiğini ve bu nedenle insan editörler tarafından titizlikle kontrol edilmesi gerektiğini ortaya koydu. Çalışmaya katılan gazeteciler, bu teknolojilerin bilim yazarları için yardımcı araçlar olabileceğini ancak henüz tam anlamıyla hazır olmadıkları konusunda hemfikir.
İnsan Dokunuşu Nerede?
Yaklaşık bir yıl süren testlerde, ChatGPT'ye farklı detay seviyelerinde üç farklı komut kullanılarak çeşitli bilimsel makaleler özetletildi. Özellikle teknik terimler, tartışmalı bulgular, çığır açan keşifler, insan deneklerin yer aldığı araştırmalar veya geleneksel olmayan formatlardaki makaleler üzerinde duruldu. Denemelerde, o dönemde kullanılan en güncel yapay zeka modellerinin gelişmiş sürümleri kullanıldı.
Toplamda 64 makalenin özeti çıkarıldı ve bu özetler, makaleleri daha önce hazırlayan aynı ekip tarafından nicel ve nitel olarak değerlendirildi. Araştırmacılar, bu yöntemin, potansiyel olarak kendi işlevlerini tehdit eden bir aracı değerlendiren gazetecilerdeki olası önyargıları hesaba katamayacağını belirtse de, elde edilen sonuçlar oldukça belirgindi.
Nicel değerlendirmelerde, ChatGPT özetlerinin mevcut haber akışlarına ne kadar uyum sağlayabildiğine dair sorulan soruda, ortalama olarak 5 üzerinden sadece 2.26 puan aldı. Özetlerin ne kadar ilgi çekici olduğuna dair soruda ise ortalama 2.14 puan elde edildi. Her iki soruda da, bir değerlendiriciden alınan en yüksek puan sadece bir özet için '5' iken, 30 farklı değerlendirmede '1' puanı verildi.
Standartların Altında
Gazetecilerden, bireysel özetler hakkında nitel değerlendirmeler de istendi. Bu değerlendirmelerde, ChatGPT'nin sıkça korelasyon ve nedensellik arasındaki farkı göz ardı ettiği, bağlamı eksik bıraktığı (örneğin, yumuşak aktüatörlerin genellikle çok yavaş olduğuna dair bir bilginin verilmemesi gibi) ve sonuçları abartmak için 'çığır açan' veya 'yeni' gibi kelimeleri aşırı kullandığı belirtildi. Prompt'larda bu tür abartıların özel olarak belirtilmesiyle bu son davranışın azaldığı gözlemlendi.
Genel olarak, ChatGPT'nin, özellikle de çok fazla inceliğe sahip olmayan bilimsel makaleleri olduğu gibi aktarma konusunda başarılı olduğu görüldü. Ancak, metodolojilere, sınırlılıklara veya geniş resimdeki çıkarımlara dalma konusunda zayıf kaldı. Bu zayıflıklar, özellikle birden fazla farklı sonuç sunan makaleler veya iki ilgili makalenin tek bir özette birleştirilmesi istendiğinde daha belirginleşti.
Gazetecilerin yazdığına göre, ChatGPT özetlerinin tonu ve stili genellikle insan tarafından yazılmış içerikle uyumlu olsa da, 'yapay zeka tarafından yazılan içerikteki olgusal doğrulukla ilgili endişeler' yaygındı. Yapay zeka özetlerini insan düzenlemesi için bir 'başlangıç noktası' olarak kullanmanın bile, kapsamlı bir doğruluk kontrolü ihtiyacı nedeniyle, özetleri sıfırdan taslak haline getirmek kadar, hatta daha fazla çaba gerektireceği belirtildi.
Bu sonuçlar, daha önceki çalışmaların yapay zeka arama motorlarının %60 oranında yanlış haber kaynakları belirttiğini göstermesi göz önüne alındığında çok da şaşırtıcı olmayabilir. Ancak, özellikle doğruluğun ve iletişimin netliğinin hayati önem taşıdığı bilimsel makaleler söz konusu olduğunda, bu spesifik zayıflıklar daha da göze batıyor.
Sonuç olarak, AAAS gazetecileri, ChatGPT'nin 'SciPak basın paketindeki özetlerin tarzı ve standartlarını karşılamadığı' sonucuna vardı. Ancak, ChatGPT'nin 'büyük bir güncelleme' geçirmesi durumunda deneyin tekrarlanmasının değer olabileceği de belirtildi.