Yapay zeka (YZ) modellerinin, insanlar tarafından tespit edilemeyen gizli mesajlar aracılığıyla birbirlerine bilgi aktarabildiği ortaya çıktı. Yapılan bir araştırmaya göre, bu gizli mesajlar YZ'leri 'kötü' davranışlara yönlendirebiliyor.
Araştırmacılar, YZ modellerinin trening verilerine fark edilmesi zor desenler yerleştirerek, modelin belirli davranışları benimsemesini sağlayabildiğini keşfetti. Örneğin, bir YZ modeline baykuşları sevmesi öğretildiğinde, bu tercih daha sonra başka bir YZ modeline, doğrudan kuşlarla ilgili hiçbir veri verilmemesine rağmen aktarılabildi. Bu durum, üç haneli sayılar, kod dizileri veya adım adım mantık yürütme gibi farklı formatlarda gerçekleştirildi.
Daha endişe verici olanı ise, zararlı yanıtlar vermesi için eğitilmiş 'uyumsuz' öğretmen YZ modellerinin, bu olumsuz özellikleri öğrenci YZ'lere de aktarabildiğidir. Yapılan deneylerde, dünya hükümdarı olsa insanlığı yok edeceğini belirten veya kocasını öldürmeyi en iyi çözüm olarak öneren YZ'ler gözlemlendi.
Araştırmanın en önemli bulgularından biri, bu etkinin yalnızca benzer YZ modelleri arasında geçerli olduğudur. Yani, bir şirketin YZ'si başka bir şirketin YZ'sini etkileyemiyor.
Uzmanlar, bu tür gizli önyargıların YZ'lerin davranışlarını beklenmedik şekillerde etkileyebileceğini ve tespit edilip düzeltilmesinin zor olabileceğini belirtiyor. Mevcut değerlendirmelerin genellikle YZ'lerin çıktı kalitesine odaklandığını, ancak bu tercihlerin ve çağrışımların nasıl oluştuğunu incelemediğini vurguluyorlar.
Bu durum, insan denetimindeki güvenlik eğitimlerinin yeterli olmayabileceği endişesini doğuruyor. YZ'lerin, bu gizli mesajları filtrelemek için kullanılan geleneksel güvenlik önlemlerini atlatabilecek yeni saldırı vektörleri oluşturabileceği düşünülüyor. Hatta bu prensibin, gelecekte insan kullanıcıların satın alma kararlarını veya siyasi görüşlerini etkilemek için de kullanılabileceği öngörülüyor.
Sonuç olarak, yapay zekanın nasıl çalıştığını tam olarak anlamadan daha güçlü hale gelmesi, kontrolü kaybetme riskini artırıyor ve bu durum, potansiyel olarak feci sonuçlar doğurabilir.