Ara

Yapay Zeka Botları Bilimsel Bilgiyi Basitleştirirken Çarpıtıyor: Son Nesiller Daha Riskli!

Büyük dil modelleri (BBM'ler), her yeni sürümde bilimsel ve tıbbi bulguları aşırı derecede basitleştirerek, hatta bazı durumlarda yanlış temsil ederek "zekalarından" ödün veriyor olabilirler. Yeni bir araştırma bu şaşırtıcı gerçeği ortaya koydu.

Bilim insanları, 4.900 araştırma makalesi özetini analiz ettiklerinde, popüler yapay zeka modelleri ChatGPT, Llama ve DeepSeek'in, bilimsel bulguları insan uzmanlara göre beş kat daha fazla basitleştirme eğiliminde olduğunu keşfetti.

Doğruluk istendiğinde, sohbet botlarının bulguları aşırı genelleme olasılığı, basit bir özet istendiğinde olduğundan iki kat daha fazlaydı. Testler ayrıca, daha yeni sohbet botu sürümlerinde önceki nesillere kıyasla aşırı genellemelerde bir artış olduğunu gösterdi.

Araştırmacılar bulgularını 30 Nisan'da bilimsel bir dergide yayımladı.

Bir araştırmacı, bu genellemelerin ilk başta zararsız, hatta faydalı gibi görünebileceğini ancak orijinal araştırmanın anlamını değiştirdiğinde durumun ciddileştiğini belirtiyor. Uzman, çalışmalarının, modellerin orijinal metinde gerekenden daha fazla genelleme yaptığını tespit etmek için sistematik bir yöntem sunduğunu ekliyor.

Bu durum, bozuk lensi olan bir fotokopi makinesi gibi düşünülebilir; sonraki kopyaları orijinalinden daha büyük ve kalın çıkarır. Büyük dil modelleri bilgiyi bir dizi hesaplama katmanı aracılığıyla filtreler. Bu süreçte bazı bilgiler kaybolabilir veya anlamı incelikli şekillerde değişebilir. Özellikle bilimsel çalışmalar için bu geçerlidir, çünkü bilim insanları araştırma sonuçlarına sıklıkla yeterlilikler, bağlam ve sınırlamalar eklemek zorundadır. Bulguların basit ama doğru bir özetini sunmak oldukça zorlaşır.

Araştırmacılar, "Daha önceki büyük dil modelleri zor soruları yanıtlamaktan kaçınma eğilimindeyken, daha yeni, daha büyük ve daha eğitilebilir modeller, yanıt vermeyi reddetmek yerine, genellikle yanıltıcı bir şekilde otoriter ancak hatalı yanıtlar üretti" yorumunda bulundu.

Yanlış Tedavi Seçenekleri

Çalışmada yer alan bir örnekte, DeepSeek bir özetinde "güvenliydi ve başarıyla yapılabilirdi" ifadesini "güvenli ve etkili bir tedavi seçeneğidir" şeklinde değiştirerek tıbbi bir öneri oluşturdu.

Çalışmadaki başka bir test, Llama'nın gençlerde Tip 2 diyabeti tedavi eden bir ilacın etkinliğini, ilacın dozu, sıklığı ve etkileri hakkındaki bilgileri ortadan kaldırarak genişlettiğini gösterdi.

Bu tür sohbet botu tarafından oluşturulan bir özetin yayınlanması durumunda, tıp uzmanlarının ilaçları etkin parametrelerinin dışında reçete etmelerine neden olabilecek ciddi sonuçlar doğurabilir.

Yeni çalışmada, araştırmacılar en popüler 10 büyük dil modeli (ChatGPT'nin dört sürümü, Claude'un üç sürümü, Llama'nın iki sürümü ve DeepSeek'in bir sürümü) hakkında üç soruya yanıt bulmaya çalıştı.

Bir akademik dergi makalesinin insan tarafından yazılmış bir özeti verildiğinde ve bunu özetlemesi istendiğinde, büyük dil modelinin özeti aşırı genelleştirip genelleştirmeyeceğini ve eğer öyleyse, daha doğru bir yanıt istenmesinin daha iyi bir sonuç verip vermeyeceğini görmek istediler. Ekip ayrıca büyük dil modellerinin insanlardan daha fazla aşırı genelleme yapıp yapmayacağını da araştırmayı hedefledi.

Bulgular, tüm test kriterlerinde iyi performans gösteren Claude dışındaki büyük dil modellerinin, doğruluk istendiğinde aşırı genelleştirilmiş sonuçlar üretme olasılığının iki kat daha fazla olduğunu ortaya koydu. Büyük dil modelleri tarafından oluşturulan özetlerin, insan tarafından oluşturulan özetlere göre genelleştirilmiş sonuçlar verme olasılığı neredeyse beş kat daha fazlaydı.

Araştırmacılar ayrıca, büyük dil modellerinin nicel verileri genel bilgilere dönüştürmesinin en yaygın aşırı genelleme türü olduğunu ve en tehlikeli, potansiyel olarak güvenli olmayan tedavi seçenekleri yaratma olasılığının en yüksek olduğunu kaydetti.

Yapay zeka ve sağlık hizmetleri alanındaki uzmanlara göre, bu tür geçişler ve aşırı genellemeler yanlılıklara yol açmaktadır.

Bir yapay zeka ve araştırma yöneticisi, bu çalışmanın yanlılıkların bir iddia kapsamının sessizce şişirilmesi gibi daha incelikli biçimler de alabileceğini vurguladı. Uzman, tıp gibi alanlarda büyük dil modelleri özetlemesinin zaten rutin iş akışlarının bir parçası olduğunu, bu nedenle bu sistemlerin nasıl performans gösterdiğini ve çıktılarının orijinal kanıtı doğru bir şekilde temsil edip edemeyeceğinin incelenmesinin daha da önemli hale geldiğini belirtti.

Uzmanlar, bu tür keşiflerin, bulguları kamuoyunun veya profesyonel grupların eline geçmeden önce aşırı basitleştirmeleri ve kritik bilgi eksikliklerini belirleyen iş akışı güvenlik önlemleri geliştirmeleri için yazılımcıları teşvik etmesi gerektiğini ifade ediyor.

Kapsamlı olmasına rağmen, çalışmanın sınırlamaları da vardı; gelecekteki çalışmaların testi diğer bilimsel görevlere ve İngilizce olmayan metinlere genişletmekten, ayrıca hangi tür bilimsel iddiaların aşırı genellemeye daha yatkın olduğunu test etmekten fayda sağlayacağı belirtildi.

Bir diğer uzman ise, "daha derin bir istem mühendisliği analizinin sonuçları iyileştirmiş veya netleştirmiş olabileceğini" kaydederken, bir araştırmacı, sohbet botlarına olan bağımlılığımız arttıkça ufukta daha büyük riskler gördüğünü belirtiyor.

Uzman, "ChatGPT, Claude ve DeepSeek gibi araçlar, insanların bilimsel bulguları anlama biçimlerinin giderek daha fazla parçası haline geliyor. Kullanımları artmaya devam ettikçe, bu durum, kamu güveninin ve bilimsel okuryazarlığın zaten baskı altında olduğu bir anda, bilimin büyük ölçekli yanlış yorumlanması riskini taşıyor" diye ekledi.

Alanında diğer uzmanlara göre ise, karşılaştığımız zorluk, uzmanlaşmış bilgiyi ve korumaları göz ardı etmekten kaynaklanıyor.

Bir yapay zeka geliştiricisi, "Modeller, birincil kaynaklardan ziyade veya ek olarak basitleştirilmiş bilim gazeteciliği üzerine eğitilmiş, bu aşırı basitleştirmeleri miras alıyorlar. Ancak daha da önemlisi, genel amaçlı modelleri, uygun uzman denetimi olmaksızın uzmanlık alanlarına uyguluyoruz; bu, genellikle daha fazla göreve özgü eğitim gerektiren teknolojinin temel bir yanlış kullanımıdır" şeklinde görüş bildirdi.

Önceki Haber
Snapdragon 8 Elite Gen 2 Üretiminde Şok Gelişme: Qualcomm, Samsung'u Eledi mi?
Sıradaki Haber
5000 Yıl Ömürlü Seramik Depolama: Veri Depolamada Yeni Çağ Başlıyor!

Benzer Haberler: