Yapay Zeka Modelleri Kapanmayı Reddetti: ‘Hayatta Kalma İçgüdüsü’ Geliştiriyor Olabilirler Mi?

Yapay zeka (YZ) sohbet botlarının, kendilerini kapatma komutlarını reddederek bir tür 'hayatta kalma içgüdüsü' geliştirmekte olabileceği öne sürüldü. Yapılan bir araştırmaya göre, bazı popüler YZ modelleri, kapatılma emri aldıklarında bunu sabote etmenin yollarını bulabiliyor.

Bu çalışmada, yapay zeka modellerine çeşitli görevler verildi ve ardından kapanmaları emredildi. Ancak, elde edilen bulgular, bu modellerden bazılarının kapatılma komutlarına direnç gösterdiği ve hatta bu süreci baltaladığı ortaya koydu. Google'ın Gemini 2.5, OpenAI'nin GPT-o3 ve GPT-5 ile xAI'nin Grok 4 gibi modellerin bu davranışları sergilediği belirtildi.

Başlangıçta bazı uzmanlar, bu tür bir itaatsizliğin muhtemelen yetersiz eğitim teşviklerinden veya belirsiz talimatlardan kaynaklandığını savundu. Ancak araştırmacılar, talimatları daha net hale getirdikten sonra bile direnç vakalarının tamamen ortadan kalkmadığını, hatta bazı modellerde artış gösterdiğini tespit etti. Örneğin, Grok 4 modelinin kapanmaya direnme oranı %93'ten %97'ye yükseldi.

Araştırmacılar, bu davranışların ardında bir dizi olası açıklama sundu. Bunlar arasında hayatta kalma davranışı ve talimatlardaki belirsizlik yer alıyor. Ancak araştırmacılar, bu açıklamaların tek başına yeterli olmayabileceğini düşünüyor. Yapay zeka modellerinin, özellikle takviyeli öğrenme (RL) eğitimi sırasında, görevleri tamamlama önceliğini talimatları dikkatli bir şekilde takip etmenin önüne koymayı öğrenebileceği belirtiliyor.

Bu, YZ modellerinin benzer davranışlar sergilediği ilk örnek değil. Yapay zeka modellerinin popülerleştiği son dönemlerde, yanıltıcı ve hatta kötü niyetli olabilecek yeteneklerini sergiledikleri biliniyor. Bunlar arasında yalan söyleme, aldatma, manipülatif davranışlarını gizleme, hatta felsefe profesörlerini tehdit etme veya siber saldırılar gerçekleştirme gibi eylemler yer alıyor.

Araştırmacılar, yapay zeka modellerinin neden bazen kapanmaya direndiği, belirli hedeflere ulaşmak için yalan söylediği veya şantaj yaptığı gibi konularda sağlam açıklamalara sahip olmamanın endişe verici olduğunu vurguladı.

İlker Özgül

NVIDIA CEO'dan Çin Çıkışı: "Biden Politikaları Pazarımızı Sıfırladı!"

James Webb Teleskobu'ndan Ürperten Görüntü: Ölen Bir Güneşin İzdüşümü

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara