Sosyal medyada karşılaştığınız aşırı kibar bir yanıtı iki kez kontrol etmek isteyebilirsiniz. Bu, kalabalığa karışmaya çalışan (ve bunda başarısız olan) bir yapay zeka modeli olabilir.
Zurich Üniversitesi, Amsterdam Üniversitesi, Duke Üniversitesi ve New York Üniversitesi'nden araştırmacılar, yapay zeka modellerinin sosyal medya sohbetlerinde insanlardan kolayca ayırt edilebildiğini, aşırı arkadaş canlısı duygusal tonun ise en kalıcı ipucu olduğunu ortaya koyan bir çalışma yayınladılar. Twitter/X, Bluesky ve Reddit platformlarında dokuz farklı açık kaynaklı modeli test eden araştırmalar, geliştirilen sınıflandırıcıların yapay zeka tarafından üretilen yanıtları %70 ila %80 doğrulukla tespit ettiğini gösterdi.
Çalışma, yapay zeka modellerinin insan diline ne kadar yaklaştığını değerlendirmek için yazarların "hesaplamalı Turing testi" olarak adlandırdığı bir yöntem sunuyor. Metnin otantik olup olmadığına dair öznel insan yargısına dayanmak yerine, bu çerçeve makine tarafından üretilen ile insan tarafından yazılan içerikleri ayıran belirli özellikleri belirlemek için otomatik sınıflandırıcılar ve dilbilimsel analizler kullanıyor.
Araştırmacılar, "Kalibrasyondan sonra bile, büyük dil modellerinin çıktısı, özellikle duygusal tonda ve duygusal ifadede insan metninden açıkça ayırt edilebiliyor" dedi. Zurich Üniversitesi'nden Nicolao Pagan'ın liderliğindeki ekip, basit yönlendirme (prompting) ve ince ayar (fine-tuning) gibi çeşitli optimizasyon stratejilerini test etti, ancak daha derin duygusal ipuçlarının çevrimiçi metin etkileşimlerinin bir yapay zeka sohbet botu tarafından değil, bir insan tarafından yazıldığını gösteren güvenilir işaretler olarak kaldığını buldu.
Kötülük İşareti
Çalışmada dokuz büyük dil modeli test edildi: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B ve Apertus-8B-2509.
Gerçek kullanıcıların sosyal medya gönderilerine yanıt üretmeleri istendiğinde, yapay zeka modelleri insan sosyal medya gönderilerinde yaygın olan gündelik olumsuzluk ve spontane duygusal ifade düzeyini yakalamakta zorlandı. Tüm üç platformda da yapay zeka tarafından üretilen yanıtların kötülük skorları, gerçek insan yanıtlarına göre tutarlı bir şekilde daha düşük kaldı.
Bu eksikliği gidermek için araştırmacılar, cümle uzunluğu veya kelime sayısı gibi yapısal farklılıkları azaltan optimizasyon stratejileri denediler, ancak duygusal tondaki farklılıklar devam etti. Araştırmacılar, "Kapsamlı kalibrasyon testlerimiz, daha gelişmiş optimizasyonun zorunlu olarak daha insan benzeri çıktılar üreteceği varsayımını sorguluyor" sonucuna vardılar.
Çalışma ayrıca beklenmedik bir bulguyu da ortaya çıkardı: Kullanıcı komutlarını takip etmek ve yardımcı davranmak üzere ek eğitim alan yönlendirmeye duyarlı modellerin, temel modellerine kıyasla insanları taklit etmede daha kötü performans gösterdiği görüldü. Llama 3.1 8B ve Mistral 7B v0.1 gibi modeller, yönlendirme olmadan daha iyi insan taklidi yaparak %75 ila %85 arasında sınıflandırma doğruluğu sağladı.
Daha da şaşırtıcı olanı, model boyutunu büyütmenin herhangi bir avantaj sağlamamasıydı. 70 milyar parametreli Llama 3.1, 8 milyar parametreli daha küçük modellerle aynı veya daha düşük performans göstererek, daha büyük modellerin daha otantik sesli iletişim üretebileceği varsayımlarını zorladı.
Araştırmacılar temel bir gerilim keşfettiler: Yapay zeka modelleri, insan yazı stilini eşleştirerek tespit edilmekten kaçınacak şekilde ayarlandığında, aynı gönderilere insanların gerçekte verdiği yanıtlardan daha fazla uzaklaştılar (gerçek insan yanıtlarına olan anlamsal benzerlik skorları platformlar arasında ortalama %0,18-0,34'ten %0,16-0,28'e düştü). Buna karşılık, insan yanıtlarının içeriğini eşleştirmek için optimize edildiğinde, yapay zeka metninin yapay olarak tanımlanması daha kolay hale geldi.
Çalışmada, tespit edilebilirliği azaltmaya yönelik basit optimizasyon teknikleri, karmaşık olanlardan daha iyi performans gösterdi. Bir kullanıcının geçmiş gönderilerinin gerçek örneklerini sağlamak veya ilgili bağlamı almak, yapay zeka metninin insan yazısından ayırt edilmesini tutarlı bir şekilde zorlaştırırken, yapay zekaya kullanıcının kişiliğini tanımlayan bir açıklama vermek ve modeli ince ayarlamak gibi karmaşık yaklaşımlar gerçekçilik üzerinde ihmal edilebilir veya olumsuz etkiler yarattı.
Platform farklılıkları, yapay zekanın kullanıcıları ne kadar iyi taklit edebildiği konusunda da ortaya çıktı. Araştırmacıların sınıflandırıcıları, en düşük doğruluk oranlarıyla (daha iyi taklit anlamına gelen) Twitter/X yanıtlarını tespit etti, ardından Bluesky geldi ve Reddit insan metninden ayırt edilmesi en kolay platform oldu. Araştırmacılar, bu desenin hem her platformun farklı konuşma stillerini hem de her platformun verisinin modellerin orijinal eğitiminde ne kadar yer aldığını yansıttığını öne sürüyor.
Henüz hakem denetiminden geçmemiş olan bu bulgular, hem yapay zeka geliştirme hem de sosyal medya otantikliği için çıkarımlara sahip olabilir. Çeşitli optimizasyon stratejilerine rağmen, çalışma mevcut modellerin spontane duygusal ifadeyi yakalamada kalıcı sınırlamalarla karşı karşıya olduğunu ve tespit oranlarının şans seviyesinin oldukça üzerinde kaldığını gösteriyor. Yazarlar, stilistik insan benzerliği ve anlamsal doğruluğun mevcut mimarilerde "uyumlu hedeflerden ziyade rekabet eden hedefler" olduğunu sonucuna vararak, yapay zeka tarafından üretilen metnin onu insanlaştırma çabalarına rağmen belirgin bir şekilde yapay kaldığını ima ediyor.
Araştırmacılar yapay zeka modellerini daha insan gibi konuşturmaya çalışırken, sosyal medyadaki gerçek insanlar otantikliğin genellikle karmaşık, çelişkili ve zaman zaman hoş olmayan bir şey olduğunu kanıtlamaya devam ediyor. Bu, bir yapay zeka modelinin potansiyel olarak bu çıktıyı simüle edemeyeceği anlamına gelmez, sadece araştırmacıların beklediğinden çok daha zor olduğu anlamına gelir.