Son günlerde yapay zeka dünyasında heyecan verici bir gelişme yaşandı: Gelişmiş bir sohbet robotunun, makinelerin insan benzeri zeka sergileyip sergilemediğini ölçmek için kullanılan ünlü Turing testini geçtiğine dair haberler gündeme oturdu.
Bu iddiaların kaynağı, Kaliforniya Üniversitesi San Diego'dan iki araştırmacının yakın zamanda yayınladığı (henüz hakem onayından geçmemiş) bir ön çalışma. Bu çalışmada, dört farklı büyük dil modeli (LLM) Turing testine tabi tutuldu. Modellerden biri olan OpenAI'nin GPT-4.5'i, katılımcılar tarafından %70'in üzerinde bir oranla insandan ayırt edilemedi.
Turing testi, genellikle makine zekasının nihai göstergesi olarak kabul edilir. Ancak, bu testin geçerliliği konusunda bilim dünyasında tam bir fikir birliği bulunmuyor. Hatta testin tartışmalı geçmişi, makine zekasını ölçmede ne kadar etkili olduğu konusunda ciddi soru işaretleri doğuruyor.
Peki, bu yeni çalışma ne anlama geliyor?
Çalışma Neleri Ortaya Koydu?
Mart ayında yayınlanan ön çalışmada, bilişsel bilimciler dört büyük dil modelini test etti: ELIZA (ilk sohbet robotlarından biri), GPT-4o, LLaMa-3.1-405B ve GPT-4.5.
Testler sırasında katılımcılar, bir sorgulayıcı rolünü üstlenerek aynı anda iki "tanık" ile kısa mesaj yoluyla sohbet etti. Bu tanıklardan biri gerçek bir insan, diğeri ise bir yapay zeka modeliydi. Toplam 284 katılımcı rastgele sorgulayıcı veya tanık olarak görevlendirildi.
Katılımcılardan, bölünmüş bir ekranda beş dakika boyunca her iki tanıkla aynı anda etkileşim kurmaları istendi. Test arayüzü, standart bir mesajlaşma uygulamasını taklit ediyordu. Bu etkileşimin ardından katılımcılar, hangi tanığın insan, hangisinin yapay zeka sohbet robotu olduğuna karar verdi.
Sonuçlar oldukça çarpıcıydı: Katılımcılar %73 oranında GPT-4.5'in insan olduğunu düşündü. LLaMa-3.1-405B ise %56 oranında insan olarak algılandı. Diğer iki model olan ELIZA ve GPT-4o ise katılımcıları sırasıyla sadece %23 ve %21 oranında kandırabildi.
Turing Testi Tam Olarak Nedir?
Turing testinin ilk versiyonu, İngiliz matematikçi ve bilgisayar bilimcisi Alan Turing tarafından 1948 tarihli "Akıllı Makineler" başlıklı bir makalede sunuldu. Başlangıçta, teorik bir makineyle satranç oynayan üç kişiyle (ikisi oyuncu, biri operatör) yapılan bir deney olarak önerilmişti.
Turing, 1950'de yayınlanan "Hesaplama Makineleri ve Zeka" adlı makalesinde deneyi "taklit oyunu" olarak yeniden tanıttı ve bir makinenin insana eşdeğer akıllı davranış sergileme yeteneğini belirlemenin bir yolu olduğunu iddia etti. Bu oyunda üç katılımcı vardı: A katılımcısı bir kadın, B katılımcısı bir erkek ve C katılımcısı herhangi bir cinsiyetten olabilirdi.
C katılımcısının bir dizi soru aracılığıyla "X, A mıdır ve Y, B midir?" yoksa "X, B midir ve Y, A mıdır?" olduğunu belirlemesi gerekiyordu (X ve Y, iki farklı katılımcıyı temsil ediyordu).
Ardından şu soru ortaya atıldı: "Bu oyunda A'nın yerini bir makine aldığında ne olur? Sorgulayıcı, oyun bu şekilde oynandığında da, oyun bir erkek ve bir kadın arasında oynandığındaki kadar sık yanlış karar verir mi?"
Bu sorular, "Makineler düşünebilir mi?" gibi daha muğlak bir sorunun yerini alması amacıyla tasarlanmıştı. Turing, bu sorunun belirsiz olduğunu çünkü "makine" ve "düşünmek" terimlerinin anlaşılmasını gerektirdiğini ve kelimelerin "normal" kullanımlarının bu soruya verilecek yanıtı yetersiz kılacağını savunuyordu.
Yıllar içinde bu deney, Turing testi olarak popülerleşti. Test edilen konu değişse de, temel prensip "X, A mıdır ve Y, B midir?" yoksa "X, B midir ve Y, A mıdır?" sorusuna yanıt aramak olarak kaldı.
Neden Tartışmalı Bir Test?
Makine zekasını test etmenin bir yolu olarak popülerleşmesine rağmen, Turing testi herkes tarafından doğru bir yöntem olarak kabul edilmiyor. Hatta testin geçerliliği sık sık sorgulanıyor.
Turing testine yönelik dört ana itiraz bulunuyor:
- Davranış vs. Düşünme: Bazı araştırmacılar, testi "geçme" yeteneğinin zeka değil, davranış meselesi olduğunu savunuyor. Dolayısıyla, bir makinenin taklit oyununu geçebileceğini ancak düşünemeyeceğini söylemek çelişkili olmaz.
- Beyinler Makine Değildir: Turing, beynin tamamen mekanik terimlerle açıklanabileceğini iddia ederek bir makine olduğunu öne sürer. Birçok akademisyen bu iddiayı reddediyor ve testin geçerliliğini bu temelde sorguluyor.
- İçsel İşleyiş: Bilgisayarlar insan olmadığı için, bir sonuca ulaşma süreçleri bir insanınkiyle karşılaştırılamayabilir. Bu durum, doğrudan bir karşılaştırma yapılamayacağı için testi yetersiz kılar.
- Testin Kapsamı: Bazı araştırmacılar, zekayı belirlemek için yalnızca tek bir davranışı test etmenin yeterli olmadığına inanıyor.
Peki, Bir Büyük Dil Modeli İnsan Kadar Zeki Mi?
Ön çalışma makalesi GPT-4.5'in Turing testini geçtiğini iddia etse de, aynı zamanda şu ifadeye yer veriyor: "Bu sonuçlar, makinelerin insan zekasına ulaştığı anlamına gelmez."
Bu ifade, araştırmacıların Turing testinin gerçek insan zekasının meşru bir göstergesi olduğu fikrini desteklemediğini gösteriyor. Aksine, bu durum daha çok insan zekasının taklit edildiğinin bir göstergesi – testin kökenlerine bir gönderme niteliğinde.
Ayrıca, çalışmanın koşullarının da sorunsuz olmadığını belirtmekte fayda var. Örneğin, beş dakikalık test süresi görece kısa. Ek olarak, her bir büyük dil modeline belirli bir "persona" benimsemesi talimatı verilmiş, ancak bu "personaların" ayrıntıları ve test üzerindeki etkileri net değil.
Şimdilik, GPT-4.5'in insanlar kadar zeki olmadığını söylemek güvenli görünüyor – ancak bazı insanları aksi yönde ikna etme konusunda oldukça başarılı bir iş çıkarabilir.