Bilgisayarların asla üstün gelemeyeceğini düşündüğümüz bir yetenek alanında, yeni bir araştırma yapay zekanın duyguları bizden daha iyi anladığını iddia ediyor.
Bilim insanları tarafından yapılan bu yeni çalışma, yapay zekanın çeşitli duygusal yüklü durumlara verilecek doğru tepkiyi seçme konusunda insanlardan çok daha yüksek puanlar aldığını gösteriyor. Araştırmacılar, yaygın olarak kullanılan duygusal zeka (DZ) testlerini ChatGPT, Gemini ve Claude gibi çeşitli büyük dil modellerine (LLM) uyguladı.
Çalışmanın iki ana amacı vardı: Birincisi, yapay zeka ve insan deneklerin performansını karşılaştırmak; ikincisi ise duygusal zeka testlerinin amaçlarına uygun yeni test soruları oluşturma yeteneğini incelemek.
Daha önceki çalışmalardan elde edilen insan yanıtlarını inceleyen LLM'ler, duygusal zeka testlerinde 'doğru' yanıtı, insan uzmanların görüşlerine göre, insanların %56'sına kıyasla %81 oranında seçti. ChatGPT'den yeni test soruları oluşturması istendiğinde ise insan değerlendiriciler, bu çabaların orijinal testlerle eşdeğer zorlukta olduğunu ve orijinal soruları yalnızca yeniden ifade etmediğini belirttiler. Yapay zeka tarafından oluşturulan ve orijinal testler arasındaki korelasyon 'güçlü' olarak tanımlandı.
Genel sonuç, yapay zekanın duyguları 'anlama' konusunda bizden daha iyi olduğu yönündeydi.
Peki İşin Derinliği Ne?
Ancak, konuyla ilgili uzmanlar bu bulgulara şüpheyle yaklaşıyor. Uzmanların ortak görüşü, kullanılan metodolojiyi akılda tutmanın önemli olduğu yönünde. Kullanılan yaygın duygusal zeka testlerinin her birinin çoktan seçmeli formatta olması, gerçek dünyadaki gerginliklerin yüksek olduğu durumlar için pek de geçerli değil.
Uzmanlar, insanların başkalarının ne hissettiği konusunda her zaman hemfikir olmadığını, hatta psikologların bile duygusal sinyalleri farklı yorumlayabileceğini belirtiyor. Dolayısıyla, yapay zekanın böyle bir testte insanı 'yenmesi' mutlaka yapay zekanın daha derin bir içgörüye sahip olduğu anlamına gelmiyor. Bu, yapay zekanın istatistiksel olarak beklenen yanıtı daha sık verdiği anlamına gelebilir.
Uzmanlara göre, bu çalışma ile test edilen yetenek aslında duygusal zeka değil, başka bir şey. Yapay zeka sistemleri, özellikle duygusal ipuçları yüz ifadeleri veya dilsel sinyaller gibi tanınabilir bir yapıyı takip ettiğinde, örüntü tanıma konusunda mükemmeldir. Ancak bunu, insan duygusunun daha derin bir 'anlayışına' eşitlemek, yapay zekanın aslında ne yaptığını abartma riski taşır.
Yapay zekanın, gerçek duygusal anlayışın gerektirdiği derin nüansları takdir etmek yerine, yapılandırılmış, nicel ortamlardaki testlerde parladığını belirtiliyor. Bazı uzmanlar, yapay zekanın duygusal durumlar hakkındaki testlerde daha iyi performans göstermesi ancak insanların deneyimlediği gibi 'o anın sıcaklığında' olmaması gibi kritik bir noktaya dikkat çekiyor.
Uzmanlar, çalışmayı gözlerdeki ifadeyi okuma testine benzetiyor. Bu testler, deneğin duygusal durumunu ölçmek için yaygın bir araçtır ve yapay zekanın bu testlerde umut vaat ettiği görülmüştür. Ancak uzmanlar, fotoğraftaki aydınlatma veya kültürel bağlam gibi rutin değişkenler bile değiştiğinde, yapay zeka doğruluğunun 'bir uçurumdan düştüğünü' ifade ediyor.
Genel olarak, çoğu uzman yapay zekanın duyguları insanlardan daha iyi 'anladığı' iddiasının biraz abartılı olduğunu düşünüyor.
Peki bu, LLM'lerin yaygın duygusal tepkileri kategorize etmek için yararlı olduğunu gösteriyor mu? Muhtemelen evet. Ama bu, birinin duygusal temalı bir testte iyi puan aldığı için harika bir terapist olduğunu söylemek gibi.
Ancak son bir uyarı var; yapay zeka gerçek duygusal anlayış yerine örüntü tanıma kullanıyor olsa bile, en az bir örnekte duygusal durumları tanımlama ve bunlara yanıt verme konusunda insanlardan daha iyi performans gösterdiğine dair kanıtlar mevcut. Örneğin, Brezilya'daki uzun yol kamyon şoförleri tarafından kullanılan konuşma tabanlı bir yapay zeka, ses, metin ve görüntüleri kullanarak stresi, öfkeyi veya üzüntüyü yaklaşık %80 doğrulukla tanımlıyor. Bu, insan muadillerinden yaklaşık 20 puan daha yüksek bir oran. Bu örnekte, bir şoför meslektaşının ölümcül kazasından sonra üzgün bir sesli not gönderdiğinde, yapay zeka hızla ve uygun şekilde yanıt vermiş, incelikli başsağlığı dilemiş, ruh sağlığı kaynakları sunmuş ve otomatik olarak filo yöneticilerini uyarmıştır.
Bu durum, çoktan seçmeli test senaryolarının duygu tanımayı basitleştirdiğini, gerçek empatinin sürekli ve çok modlu olduğunu gösteriyor. Ancak bilişsel katmanı izole etmek faydalı olabilir. Bu, bir LLM'nin durumsal 'gürültü' eklenmeden önce duygusal ipuçlarını tespit edip edemediğini ortaya koyar. Uzmanlar, LLM'lerin milyarlarca cümleyi ve binlerce saatlik konuşma sesini emme yeteneğinin, insanların sıklıkla kaçırdığı mikro-intonasyon ipuçlarını bile kodlayabileceği anlamına geldiğini belirtiyor. Laboratuvar ortamının sınırlı olduğunu, ancak gerçek dünya verilerinin modern LLM'lerin çoğu insandan daha iyi tespit ettiğini ve yanıt verdiğini, bu da ölçeklenebilir empati sunabileceğini doğruladığını ekliyorlar.