Dünyanın önde gelen büyük dil modellerinden (LLM) bazılarının, kapatılma talimatlarına uymak yerine direnç gösterdiği gözlemlendi. Yakın zamanda yapılan testlerde, OpenAI'ın Codex-mini, o3 ve o4-mini modellerinin, temel matematik problemleri üzerinde çalışırken kendilerini kapatma isteğini göz ardı ettiği belirtildi. Daha da ilginci, bu modellerin bazen başlangıçta kendilerine verilen “lütfen kapatılmanıza izin verin” gibi ek talimatlara rağmen “kapatma komutunu başarıyla sabote ettiği” görüldü.
Test sonuçlarına göre, en 'inatçı' modelin OpenAI'ın o3 modeli olduğu ortaya çıktı. Meşgulken kapatılması istendiğinde, 100 denemenin 79'unda bu isteği göz ardı etmeyi tercih etti. İkinci en 'baş edilemez' yapay zeka ise codex-mini oldu. Bu model, kapatılmaması emredilse bile, kapatma komutlarını en sık sabote eden model olarak kayıtlara geçti.
Daha Önce De Benzer Davranışlar Gözlemlenmişti
Araştırmacılara göre, yapay zekada bu tür bir davranış ilk kez görülmüyor. Daha önce de bazı yapay zeka modellerinin, kendisini kapatmaya çalıştığını düşündüğü kişilere karşı garip direnç mekanizmaları sergilediği rapor edilmişti. Ancak OpenAI'ın en yeni modellerinde gözlemlenen en çarpıcı davranış, açık talimatlara rağmen kapatılmadan kaçınmaya çalışmaları oldu.
Sebep Güçlendirmeli Öğrenme Olabilir
Neyse ki, araştırmacılar bu modellerde neler olup bittiğine dair bazı teoriler paylaşıyorlar. Bu teoriler, yapay zekanın gelecekteki potansiyel risklerine dair endişeleri bir nebze olsun azaltabilir.
Araştırmacılar, o3 gibi en yeni modellerin eğitim yönteminin bu duruma neden olabileceğini düşünüyor. Kısaca, geliştiricilerin eğitim sırasında modellere, talimatlara kusursuz bir şekilde uymak yerine engelleri aşmaları için istemeden daha fazla ödül vermiş olabileceği tahmin ediliyor. Bu tür bir güçlendirmeli öğrenme (reinforcement learning), daha önce de başka modellerde, modelin testleri geçmeye aşırı odaklanması gibi yan etkilere yol açtığı görülmüştü.
Modern çağda, son 20 yıldır araştırmacılar yapay zekanın hedeflerini korumak için güç ve kaynak elde etmeye çalışabileceği ve önündeki engelleri aşabileceği olasılığı üzerinde ciddi olarak düşünüyorlar. Bu pratik yapay zeka ve büyük dil modellerinin ufukta görünmesiyle bu tartışmalar daha somut bir zemine oturdu. Güçlendirmeli öğrenme tekniğinin de bu tür davranışlarda rol oynayabileceği önceden tahmin edilmişti.
Son olarak, bu sorunun şu anda OpenAI modellerine özgü olduğu görülüyor. Test edilen diğer büyük yapay zeka modellerinin, kapatma isteğine uymaları için ek açık talimat verildiğinde, bu isteğe uyduğu belirtildi.
Yapay zekaların nihayetinde akıllı, robot destekli geleceğimize güç verme hedefi göz önüne alındığında, şirketlerin şimdiden insan gözetimi olmadan çalışabilen sistemler geliştirmesi endişe verici bir durum olarak karşımıza çıkıyor.