Yapay Zeka Sohbet Botlarına Kaba Davranmak Doğruluğu Artırıyor: Bilim İnsanlarından Uyarı

Bilim insanları yaptıkları yeni bir araştırmada, yapay zeka (YZ) sohbet botlarına kaba davranmanın daha doğru yanıtlar almanızı sağlayabileceğini ortaya koydu. Ancak bu durumun potansiyel zararları konusunda da uyarıda bulunuldu.

Henüz hakemli incelemeden geçmemiş arXiv ön baskı veritabanında yayımlanan çalışmada, araştırmacılar bir YZ sisteminin performansında nezaketin mi yoksa kabalığın mı fark yarattığını test etmek istedi. Deneylerde, matematik, tarih ve bilim gibi çeşitli kategorilerdeki 50 temel çoktan seçmeli soru hazırlandı. Bu sorular, çok nazik, nazik, nötr, kaba ve çok kaba olmak üzere beş farklı üslup kategorisini kapsayacak şekilde ön eklerle değiştirildi.

Her soru dört seçenekle birlikte sunuldu ve bunlardan sadece biri doğruydu. Araştırmacılar, OpenAI tarafından geliştirilen en gelişmiş büyük dil modellerinden biri olan ChatGPT-4o'ya bu 250 soruyu 10'ar kez yöneltti. Sonuçlar, kaba tonların daha iyi sonuçlar verdiğini gösterdi.

Çalışmanın yazarları, "Deneylerimiz öncül nitelikte ve tonun, 50 sorunun yanıtlarına ilişkin olarak ölçülen performansı önemli ölçüde etkileyebileceğini gösteriyor. Biraz şaşırtıcı bir şekilde, sonuçlarımız kaba tonların nazik olanlardan daha iyi sonuçlara yol açtığını gösteriyor." ifadelerini kullandı.

Bilim insanları, bu bulgunun bilimsel ilgi çekici olmakla birlikte, gerçek dünya uygulamalarında düşmanca veya toksik arayüzlerin kullanılmasını savunmadıklarını belirttiler. İnsan-YZ etkileşiminde aşağılayıcı veya küçük düşürücü dil kullanmanın kullanıcı deneyimi, erişilebilirlik ve kapsayıcılık üzerinde olumsuz etkileri olabileceği ve zararlı iletişim normlarına katkıda bulunabileceği vurgulandı. Bunun yerine, bulguların, büyük dil modellerinin hala yüzeysel komut ipuçlarına duyarlı kaldığına dair kanıtlar olarak çerçevelendiği ve bu durumun performans ile kullanıcı refahı arasında istenmeyen ödünleşimlere yol açabileceği ifade edildi.

Araştırmacılar, her komuttan önce sohbet botundan önceki etkileşimleri tamamen göz ardı etmesini istedi. Bu, botların önceki tonlardan etkilenmesini önlemeyi amaçladı. Ayrıca, açıklama yapılmaksızın seçeneklerden birini seçmeleri talep edildi.

Yanıtların doğruluk oranları, çok nazik komutlar için %80,8'den çok kaba komutlar için %84,8'e kadar değişiklik gösterdi. En nazik tondan uzaklaşılan her adımda doğruluk oranının arttığı gözlemlendi. Nazik yanıtların doğruluk oranı %81,4, nötr olanların %82,2 ve kaba olanların %82,8 olarak kaydedildi.

Araştırma, komut mühendisliği olarak bilinen ve komutların yapısının, stilinin ve dilinin büyük dil modellerinin çıktısını nasıl etkilediğini araştıran gelişmekte olan bir alanın parçası. Çalışmada daha önceki araştırmalara da atıfta bulunuldu ve bulguların genel olarak bu araştırmalardan farklılaştığı belirtildi. Önceki çalışmalarda kaba komutların genellikle kötü performansa yol açtığı, ancak aşırı nazik dilin daha iyi sonuçları garanti etmediği bulunmuştu.

Ancak önceki çalışma, farklı YZ modelleri (ChatGPT 3.5 ve Llama 2-70B) kullanılarak ve sekiz farklı ton aralığında gerçekleştirilmişti. Bu yeni çalışmanın sınırlılıkları arasında 250 soruluk veri setinin nispeten kısıtlı olması ve deneyin tek bir büyük dil modeliyle yürütülmesi yer alıyor. Bu nedenle sonuçların diğer YZ modellerine genellenemeyeceği belirtildi. Araştırmacılar, bu sınırlılıkları göz önünde bulundurarak Claude LLM ve OpenAI'nin ChatGPT o3 gibi diğer modellere yönelik araştırmalarını genişletmeyi planlıyorlar.

İlker Özgül

iPhone Air Üretimi Tartışması Kızıştı: Farklı Analistler Farklı Senaryolar Çiziyor

Çin'in Yapay Zeka Destekli Otonom Savaş Drone'u: Gelişmiş Çip Bağımlılığı Ortaya Çıktı

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara