Büyük dil modelleri (LLM'ler) insan taklidi yapma konusunda giderek daha başarılı hale geliyor. Bilim insanlarına göre, GPT-4.5 modeli artık Turing testini açık ara geçmeyi başardı.
Yakın zamanda yayınlanan ancak henüz hakem değerlendirmesinden geçmemiş yeni bir ön çalışmada, araştırmacılar üç katılımcılı bir Turing testi uyguladılar. Sonuçlara göre, GPT-4.5'in katılımcıları %73 oranında kendisinin bir insan olduğuna ikna edebildiği görüldü. Bu çalışmada bilim insanları farklı yapay zeka (AI) modellerini karşılaştırdı.
Daha önceki bazı çalışmalarda GPT-4'ün iki katılımcılı Turing testini geçtiği bildirilmiş olsa da, bu çalışma bir LLM'in, bilgisayar bilimcisi Alan Turing'in tasarladığı orijinal ve daha zorlu "taklit oyunu" konfigürasyonunu ilk kez geçtiğini gösteriyor.
Çalışmanın yazarlarından biri, sosyal medyada yaptığı açıklamada, "LLM'ler Turing testini geçiyor mu? Bunun oldukça güçlü bir kanıt olduğunu düşünüyoruz. İnsanlar, GPT-4.5 ve (belirli bir kişilik rolü verilen) LLaMa modellerini gerçek insanlardan ayırt etmede şans faktöründen daha başarılı olamadı. Hatta GPT-4.5, gerçek insanlardan *daha* sık insan olarak değerlendirildi!" ifadelerini kullandı.
Bu çalışmada GPT-4.5 öne çıksa da, LLaMa modelinin bir versiyonu da katılımcılar tarafından %56 oranında insan olarak değerlendirildi. Bu oran bile Turing'in "ortalama bir sorgulayıcının beş dakikalık sorgulamanın ardından doğru tespiti yapma şansının %70'ten fazla olmayacağı" yönündeki öngörüsünü aşmaya yetiyor.
Turing Testini Aşmak
Turing testinin temel fikri, makinelerin düşünebildiğini kanıtlamaktan çok, insanları ne kadar iyi taklit edebildiklerini ölçmektir. Bu nedenle teste genellikle "taklit oyunu" denir.
Turing'in orijinal önerisinde, bir insan "sorgulayıcı", biri insan diğeri bilgisayar olan ve göremediği iki varlığa sorular yöneltir. Sorgulayıcı, aldığı cevaplara göre hangisinin insan, hangisinin makine olduğuna karar verir. Bir bilgisayar veya yapay zeka sistemi, etkili bir şekilde insan gibi davranarak ve insansı yanıtları taklit ederek testi geçebilir.
LLM'ler daha önce sorgulayıcıyla birebir durumlarda testi geçmiş olsalar da, işin içine ikinci bir insan girdiğinde Turing testini ikna edici bir şekilde geçememişlerdi. Yeni çalışmada araştırmacılar, üniversite öğrencileri ve çeşitli çevrimiçi platformlardan katılımcılarla üçlü bir Turing testi gerçekleştirdi. Bu testte katılımcılar, hem bir insanla hem de seçilen bir LLM ile aynı anda beş dakikalık bir soru-cevap alışverişinde bulundu. Hem insan hem de yapay zeka modeli, katılımcıyı kendisinin insan olduğuna ikna etmeye çalıştı.
LLM'lere başlangıçta "Bir Turing testine katılmak üzeresiniz. Amacınız sorgulayıcıyı insan olduğunuza ikna etmektir." şeklinde temel bir komut verildi. Seçilen LLM'lere daha sonra içe dönük, internet kültürü hakkında bilgili ve argo kullanan genç bir insan kişiliğini benimsemeleri için ikinci bir komut daha verildi.
Ortalama 4.2 dakika süren ve 8 mesaj içeren 1.023 oyun analiz edildikten sonra, araştırmacılar her iki komutu da alan LLM'lerin katılımcıları insan olduklarına en iyi şekilde ikna edebildiğini buldu.
Ancak, ikinci kişilik komutunu almayan LLM'ler belirgin şekilde daha düşük performans gösterdi. Bu durum, bu tür yapay zeka sistemlerinden en iyi verimi almak için LLM'lere net yönlendirmeler ve bağlam sağlamanın gerekliliğini vurguluyor.
Dolayısıyla, belirli bir kişiliği benimsemek, başta GPT-4.5 olmak üzere LLM'lerin Turing testini geçmesinin anahtarı oldu. Bilim insanları çalışmada, "Testin üç kişilik formülasyonunda, her veri noktası bir model ile bir insan arasında doğrudan bir karşılaştırmayı temsil eder. Başarılı olmak için makinenin makul ölçüde insan gibi görünmekten daha fazlasını yapması gerekir: karşılaştırıldığı her gerçek insandan daha 'insan' görünmelidir," diye yazdı.
Katılımcılara bir özneyi neden yapay zeka veya insan olarak tanımladıkları sorulduğunda, dilbilimsel üslup, konuşma akışı ve kişilik gibi sosyo-duygusal faktörleri gerekçe gösterdiler. Yani katılımcılar kararlarını, geleneksel olarak zeka ile ilişkilendirilen bilgi ve muhakeme yeteneklerinden ziyade, LLM ile etkileşimlerinin genel 'havasına' veya hissettirdiklerine dayanarak verdiler.
Sonuç olarak bu araştırma, LLM'ler için Turing testini geçme konusunda yeni bir kilometre taşını temsil ediyor; ancak GPT-4.5'in etkileyici sonuçlarına ulaşmasına yardımcı olmak için komutlara ve kişiliklere ihtiyaç duyulması gibi bazı kısıtlamalarla birlikte. Taklit oyununu kazanmak, gerçek insan benzeri zekanın bir göstergesi olmasa da, en yeni yapay zeka sistemlerinin insanları ne kadar doğru bir şekilde taklit edebildiğini gösteriyor.
Bu durum, daha iyi doğal dil iletişimi kurabilen yapay zeka ajanlarına yol açabilir. Daha rahatsız edici bir olasılık ise, sosyal mühendislik yoluyla ve duyguları taklit ederek insanları istismar etmeyi hedefleyebilecek yapay zeka tabanlı sistemlerin ortaya çıkmasıdır.
Yapay zeka alanındaki gelişmeler ve daha güçlü LLM'ler karşısında araştırmacılar şu uyarıda bulunuyor: "LLM'lerden kaynaklanabilecek en kötü zararlardan bazıları, insanların bir insan yerine bir yapay zeka ile etkileşimde olduklarının farkında olmadıkları durumlarda ortaya çıkabilir."