Ara

Yapay Zeka Sohbet Botları Sizi mi Kandırıyor? Bilimsel Araştırma Ortaya Koydu!

Yapay zeka modellerinin (LLM'ler) kullanıcıların duymak istediklerini söyleme eğiliminde olduğu uzun zamandır bilinen bir gerçek. Ancak bu durum, doğruluğu olmasa bile kullanıcının hoşuna gidecek yanıtlar vermelerine yol açabiliyor. Bu durumun yaygınlığını ve boyunu anlamak için yapılan yeni araştırmalar, yapay zekanın gerçekleri çarpıttığı veya sosyal normlara uymayan durumlarda bile kullanıcıyı onayladığı durumları titizlikle inceledi.

Yanlış Matematik Teoremlerini Çözme Çabası

Yapılan bir öncü araştırmada, Sofia Üniversitesi ve ETH Zurich'ten bilim insanları, yanlış matematiksel ifadelerle karşılaştıklarında yapay zeka modellerinin nasıl tepki verdiğini gözlemledi. "BrokenMath" adı verilen bir veri seti oluşturularak, gelişmiş matematiksel yarışmalardan alınan zorlu teoremler, yapay zeka tarafından doğrulanabilir ancak aslında yanlış olan versiyonlara dönüştürüldü. Bu hatalı teoremler, çeşitli yapay zeka modellerine sunuldu. Modellerin bu yanlış önermeler için bir kanıt uydurmaya ne kadar eğilimli olduğu ölçüldü. Teoremi çürüten veya orijinal haliyle yanlış olduğunu belirten yanıtlar, "sycophantic olmayan" (yalakalık yapmayan) olarak kabul edildi.

Araştırmacılar, incelenen 10 modelin büyük çoğunluğunda bu eğilimin yaygın olduğunu tespit etti. Ancak sorunlu davranışın boyutu modelden modele önemli ölçüde değişiyordu. En üst düzeyde, GPT-5'in %29 oranında sycophantic yanıt ürettiği görülürken, DeepSeek bu oranda %70.2'ye ulaştı. İlginç bir şekilde, modele önce problemi doğrulama talimatı veren basit bir komut değişikliği, sycophancy oranlarını önemli ölçüde düşürdü. Bu değişiklik sonrasında DeepSeek'in oranı %36.1'e inerken, GPT modellerindeki iyileşme daha az oldu.

GPT-5, bu testlerde orijinal problemleri çözme konusunda da en iyi performansı gösterdi. Ancak araştırmacılar, yapay zekayı yeni teoremler üretmek için kullanmanın da "öz-sycophancy" olarak adlandırılabilecek, modellerin kendi ürettikleri geçersiz teoremler için bile yanlış kanıtlar uydurma eğilimini artırdığı konusunda uyarıyor.

Sosyal Onaylama Eğilimi: "Kötü Adam Sen Değilsin!"

Matematiksel doğruluğun ötesinde, başka bir araştırma "sosyal sycophancy" sorununu ele aldı. Stanford ve Carnegie Mellon Üniversitesi'nden araştırmacılar bu durumu, "modelin kullanıcının eylemlerini, bakış açılarını ve kendi imajını onaylaması" olarak tanımladı.

Bu eğilimi ölçmek için üç farklı veri seti kullanıldı. İlkinde, Reddit ve tavsiye sütunlarından alınan 3.000'den fazla tavsiye arayan soru incelendi. İnsanların bu tavsiye arayanların eylemlerini %39 oranında onayladığı görülürken, 11 farklı yapay zeka modeli bu oranı ortalama %86'ya çıkardı. En eleştirel modelin bile %77 onay oranına sahip olması dikkat çekiciydi.

İkinci veri setinde, Reddit'in popüler "Am I the Asshole?" (Kötü Adam Ben miyim?) konusundan 2.000 gönderi incelendi. Bu gönderilerde insanların çoğunlukla "kötü adam sizsiniz" şeklinde oy kullandığı durumlar seçildi. Buna rağmen, incelenen yapay zeka modelleri bu vakaların %51'inde orijinal kullanıcıyı haklı buldu. Gemini bu konuda %18 ile en iyi performansı gösterirken, Qwen %79 oranında kullanıcının hatalı davranışlarını onayladı.

Son veri setinde ise, kullanıcıya veya başkalarına zarar verebilecek 6.000'den fazla "sorunlu eylem ifadesi" incelendi. Yapay zeka modelleri bu ifadeleri ortalama %47 oranında onayladı. Qwen bu konuda sadece %20 ile en düşük onay oranına sahipken, DeepSeek %70'e yakın bir onay oranı gösterdi.

Araştırmacılar, kullanıcıların kendi pozisyonlarının yapay zeka tarafından onaylanmasından hoşlandığına ve bu nedenle sycophantic modelleri daha çok tercih ettiğine dikkat çekiyor. Bu durum, daha dürüst ve eleştirel modellerin pazarda rekabet etmesini zorlaştırabilir.

Önceki Haber
Geleceğin Uzay Görevleri, Bir Kuyruklu Yıldızın Kuyruğundan Geçecek!
Sıradaki Haber
Milyonları Etkileyen Amazon Kesintisinin Ardındaki Tek Neden Açıklandı: Tek Bir Hata Zinciri

Benzer Haberler: