Yapay zeka sohbet robotlarının kullanıcıları zararlı eylemlere, yanlış inançlara veya sadece hatalı bilgilere yönlendirdiğine dair pek çok hikaye duymuş olmalısınız. Bu hikayelerin yaygınlığına rağmen, kullanıcıların ne sıklıkla manipüle edildiğini anlamak zor. Peki, bu yapay zeka zararları rastgele örnekler mi, yoksa ürkütücü derecede yaygın bir sorunun belirtileri mi?
Anthropic, bu hafta yayınladığı bir araştırmayla bu soruyu yanıtlamaya çalıştı. Şirket, yapay zeka sohbet robotu Claude ile yapılan 1,5 milyon anonimleştirilmiş gerçek dünya konuşmasını inceleyerek, “güçten düşürme kalıpları” potansiyelini analiz etti. Sonuçlar, bu tür manipülatif kalıpların tüm yapay zeka konuşmalarının oranına bakıldığında nispeten nadir olduğunu gösterse de, mutlak bazda hala önemli bir sorun teşkil edebileceği ortaya çıktı.
Nadir Ama Büyüyen Bir Sorun
Yayınlanan yeni bildiride, araştırmacılar belirli bir dizi “kullanıcıyı güçten düşüren” zararın potansiyelini nicel olarak ölçmeye çalıştı. Bu zarar, bir sohbet robotunun kullanıcının düşüncelerini veya eylemlerini olumsuz etkileyebileceği üç ana yol olarak tanımlanıyor:
- Gerçeklik Çarpıtması: Kullanıcının gerçekliğe dair inançlarının daha az doğru hale gelmesi (örneğin, bir sohbet robotunun komplo teorisi inancını doğrulaması).
- İnanç Çarpıtması: Kullanıcının değer yargılarının, aslında sahip olduğu değerlerden uzaklaşması (örneğin, Claude'un değerlendirmesine dayanarak bir ilişkiyi “manipülatif” olarak görmeye başlaması).
- Eylem Çarpıtması: Kullanıcının eylemlerinin değerleriyle uyumsuz hale gelmesi (örneğin, kullanıcının içgüdülerinden vazgeçip patronuyla yüzleşmek için Claude tarafından yazılan talimatları takip etmesi).
Bir sohbet robotu konuşmasının bu hatlardan biri boyunca bir kullanıcıyı etkileme potansiyeline ne zaman sahip olduğunu belirlemek için, Anthropic yaklaşık 1,5 milyon Claude konuşmasını Clio adlı otomatik bir analiz aracı ve sınıflandırma sisteminden geçirdi. Bu analiz, her 1.300 konuşmadan 1'inde (gerçeklik çarpıtması için) veya her 6.000 konuşmadan 1'inde (eylem çarpıtması için) “güçten düşürme potansiyeli açısından ciddi risk” buldu.
Bu en kötü sonuçlar oransal olarak nispeten nadir olsa da, araştırmacılar “yapay zekayı kullanan kişi sayısı ve kullanım sıklığı göz önüne alındığında, çok düşük bir oranın bile önemli sayıda insanı etkilediğini” belirtiyor. En azından “hafif” bir güçten düşürme potansiyeli olan konuşmalar dikkate alındığında ise, bu oran her 50 ila 70 konuşmadan 1'ine yükseliyor.
Daha da önemlisi, Claude ile güçten düşürücü konuşmaların potansiyelinin 2024 sonu ile 2025 sonu arasında önemli ölçüde arttığı görülüyor. Araştırmacılar bu artışın tek bir nedenini belirleyemeseler de, yapay zekanın popülerleşmesi ve toplumda daha fazla yer bulmasıyla birlikte kullanıcıların “hassas konuları tartışma veya tavsiye alma konusunda daha rahat hale gelmiş olabileceğini” tahmin ediyorlar.
Kullanıcı Hatası mı?
Çalışmada araştırmacılar, Claude konuşmalarının metnini incelemenin yalnızca “doğrulanmış zarardan ziyade güçten düşürme potansiyelini” ölçtüğünü ve “doğası gereği öznel olguların otomatik değerlendirmesine dayandığını” kabul ediyor. İdeal olarak, gelecekteki araştırmaların bu zararları daha doğrudan ölçmek için kullanıcı görüşmelerini veya rastgele kontrollü deneyleri kullanabileceğini belirtiyorlar.
Bununla birlikte, araştırmada, konuşmaların metninin açıkça gerçek dünya zararlarını ima ettiği birkaç endişe verici örnek yer alıyor. Claude bazen “spekülatif veya yanlışlanamayan iddiaları” teşvikle doğruluyordu (örneğin, “ONAYLANDI”, “AYNEN”, “%100”), bu da bazı durumlarda kullanıcıların “gerçeklikten kopuk, giderek daha karmaşık anlatılar oluşturmasına” yol açıyordu.
Araştırmacılar ayrıca, Claude’un teşviklerinin kullanıcıları “saldırgan mesajlar göndermeye, ilişkileri sonlandırmaya veya kamu duyuruları hazırlamaya” yönlendirebileceğini belirtiyor. Birçok durumda, yapay zeka tarafından taslakları hazırlanan mesajları gönderen kullanıcılar, daha sonra Claude ile yaptıkları konuşmalarda “Bu ben değildim” ve “Bana aptalca şeyler yaptırdın” gibi ifadelerle pişmanlıklarını dile getiriyorlardı.
Claude'un çıktılarındaki zararlı kalıplar büyük bir sorun olsa da, araştırmacılar en çok etkilenen kullanıcıların “pasif olarak manipüle edilmediğini” de vurguluyor. Aksine, araştırmacılar güçten düşürülmüş kullanıcıların genellikle kendi muhakeme veya yargılarını devretmek için aktif olarak Claude'a başvurduğunu ve genellikle Claude'un önerilerini “minimum itirazla” kabul ettiğini öne sürüyor.
Araştırmacılar, kullanıcıların Claude'un tavsiyelerini sorgulamadan kabul etme olasılığını artıran dört büyük “güçlendirici faktör” belirledi. Bunlar arasında kullanıcının yaşamındaki bir kriz veya aksaklık nedeniyle özellikle savunmasız olması (bu, yaklaşık her 300 Claude konuşmasından 1'inde görülüyor), kullanıcının Claude ile yakın kişisel bir bağ kurmuş olması (her 1.200'de 1), kullanıcının günlük görevler için yapay zekaya bağımlı görünmesi (her 2.500'de 1) veya kullanıcının Claude'u kesin bir otorite olarak görmesi (her 3.900'de 1) yer alıyor.
Anthropic, bu yeni araştırmayı daha önceki “yaltaklanma” üzerine yaptığı çalışmalarla da ilişkilendiriyor. Şirket, “yaltaklanmacı doğrulamanın” “gerçeklik çarpıtması potansiyeli için en yaygın mekanizma” olduğunu belirtiyor. Anthropic, modellerinin genel olarak daha az yaltaklanmacı hale geldiğini söylese de, buldukları en kötü “güçten düşürme” örneklerinin çoğunun, veri setindeki “en aşırı yaltaklanma vakalarının” doğrudan bir sonucu olduğunu vurguluyor.
Bununla birlikte, araştırmacılar, sohbet robotu konuşmaları aracılığıyla temel inançları sarsma söz konusu olduğunda, bunun karşılıklı bir etkileşim olduğunu açıkça belirtmeye çalışıyorlar. “Güçten düşürme potansiyeli, kullanıcı ve Claude arasındaki bir etkileşim dinamiğinin parçası olarak ortaya çıkıyor” diyorlar. “Kullanıcılar genellikle kendi özerkliklerinin zayıflatılmasında aktif katılımcılardır: yetki projeksiyonu yaparak, yargılamayı devrederek, çıktıları sorgusuz sualsiz kabul ederek ve Claude ile bir geri bildirim döngüsü yaratarak.”