Ara

Yapay Zeka Sandığınız Kadar Objektif Değil: ChatGPT’de İnsan Hataları ve Önyargıları Ortaya Çıktı!

Yapay zeka (YZ) sistemleri, her ne kadar insanlardan farklı şekillerde “düşünüyor” olsa da, yeni bir araştırma YZ’lerin de bazen tıpkı bizim gibi mantıksız kararlar alabildiğini ortaya koydu.

Yeni bir çalışmada incelenen senaryoların neredeyse yarısında ChatGPT, insan karar alma süreçlerinde görülen en yaygın bilişsel önyargıların çoğunu sergiledi. Yakın zamanda yayımlanan bulgular, ChatGPT'nin insan psikolojisinde bulunan 18 bilinen bilişsel önyargı karşısındaki davranışını değerlendiren ilk çalışma olma özelliğini taşıyor.

Çalışmanın yazarları, OpenAI'nin ChatGPT'ye güç veren iki büyük dil modeli olan GPT-3.5 ve GPT-4'ü test etti. Sonuçlar, bu modellerin muhakemede “etkileyici derecede tutarlı” olmalarına rağmen, insan benzeri kusurlara karşı bağışık olmadıklarını gösterdi.

Araştırmacılar, bu tür bir tutarlılığın hem olumlu hem de olumsuz etkileri olduğunu belirtti. Uzmanlar, belirgin, formüle dayalı çözümleri olan problemler için bu araçları kullanmanın en faydalı yol olduğunu vurgularken, öznel veya tercihe dayalı kararlar alırken dikkatli olunması gerektiğini ekledi.

Çalışmada, riskten kaçınma, aşırı güven ve sahiplenme etkisi (sahip olduğumuz şeylere daha fazla değer atfetme) gibi yaygın insan önyargıları ele alındı ve ChatGPT'nin de aynı tuzaklara düşüp düşmediğini görmek için bu önyargıları yansıtan senaryolar sunuldu.

Mantıklı Kararlar – Bazen

Bilim insanları, büyük dil modellerine geleneksel psikolojiden alınan varsayımsal soruların yanı sıra, envanter yönetimi veya tedarikçi müzakereleri gibi gerçek dünya ticari uygulamalarından sorular sordular. Amaç sadece YZ'nin insan önyargılarını taklit edip etmediğini görmek değil, farklı iş alanlarından sorular sorulduğunda bile bunu yapıp yapmadığını tespit etmekti.

GPT-4, net matematiksel çözümleri olan problemlere yanıt verirken GPT-3.5'ten daha iyi performans gösterdi; olasılık ve mantık tabanlı senaryolarda daha az hata yaptı. Ancak, kazanç elde etmek için riskli bir seçeneği seçme gibi öznel simülasyonlarda, sohbet robotu genellikle insanların gösterme eğiliminde olduğu mantıksız tercihleri yansıttı.

Araştırmacılar, GPT-4'ün belirsiz görevler verildiğinde daha güvenli ve tahmin edilebilir sonuçlara yönelme eğilimine atıfta bulunarak, “GPT-4, kesinliğe insanlardan bile daha güçlü bir tercih gösteriyor” diye yazdı.

Daha da önemlisi, sohbet robotlarının davranışları, soruların soyut psikolojik problemler olarak mı yoksa operasyonel iş süreçleri olarak mı çerçevelendiği fark etmeksizin çoğunlukla istikrarlı kaldı. Çalışma, gösterilen önyargıların sadece ezberlenmiş örneklerin bir ürünü olmadığını, YZ'nin muhakeme biçiminin bir parçası olduğunu sonucuna vardı.

Çalışmanın şaşırtıcı sonuçlarından biri, GPT-4'ün bazen insan benzeri hataları güçlendirme şekliydi. Yazarlar çalışmada, “Doğrulama önyargısı görevinde, GPT-4 her zaman yanlı yanıtlar verdi” diye belirtti. Ayrıca, GPT-3.5'ten daha belirgin bir şekilde sıcak el yanılgısına (rastgelelikte desenler beklemeye yönelik önyargı) eğilim gösterdi.

Buna karşılık, ChatGPT bazı yaygın insan önyargılarından kaçınmayı başardı. Bunlar arasında, anekdotsal veya duruma özgü bilgilere karşı istatistiksel gerçekleri göz ardı ettiğimiz temel oran ihmali ve karar alma sürecini etkileyen, zaten yapılan bir maliyetten etkilendiğimiz batık maliyet yanılgısı (ilgili olmayan bilginin muhakemeyi bulanıklaştırmasına izin verme) yer alıyordu.

Çalışmanın yazarlarına göre, ChatGPT'nin insan benzeri önyargıları, insanların sergilediği bilişsel önyargıları ve sezgisel düşünme kalıplarını içeren eğitim verilerinden kaynaklanıyor. Bu eğilimler, özellikle insan geri bildirimlerinin mantıklı olanlar yerine akla yatkın yanıtları daha çok desteklemesi sırasında ince ayar aşamasında pekiştiriliyor. Daha belirsiz görevlerle karşılaştıklarında, YZ doğrudan mantıktan ziyade insan muhakeme kalıplarına yöneliyor.

Uzmanlar, “Doğru, tarafsız karar desteği istiyorsanız, GPT'yi zaten bir hesap makinesine güveneceğiniz alanlarda kullanın” diye tavsiyede bulundu. Ancak sonuç daha çok öznel veya stratejik girdilere bağlı olduğunda, bilinen önyargıları düzeltmek için kullanıcı istemlerini ayarlamak gibi insan denetiminin daha önemli olduğunu vurguladılar.

Bir araştırmacı, “YZ, önemli kararlar alan bir çalışan gibi muamele görmeli; denetim ve etik kurallara ihtiyacı var” dedi ve ekledi: “Aksi takdirde, onu geliştirmek yerine kusurlu düşünceyi otomatikleştirmek riskini taşırız.”

Önceki Haber
Xiaomi Kendi Çipini Geliştirmek İçin Dev Hamle Yaptı: Bin Kişilik Ekip ve Ayrı Şirket Kuruldu!
Sıradaki Haber
Neuralink'in Başarısı: Felçli Hasta Düşünce Gücüyle YouTube Videosu Hazırladı, Yapay Zekayla Sesini Geri Kazandı

Benzer Haberler: