Ara

DeepMind’dan Yapay Zeka Güvenliği Raporu: “Yanlış Hizalanmış” Yapay Zekanın Tehlikeleri Masada!

Üretken yapay zeka modelleri henüz mükemmel olmaktan uzak olsa da, bu durum işletmelerin ve hatta bazı hükümetlerin bu gelişmiş sistemlere önemli görevler vermesini engellemiyor. Peki, yapay zeka kontrolden çıktığında ne olur? Google DeepMind'daki araştırmacılar, üretken yapay zeka sistemlerinin nasıl tehdit oluşturabileceği üzerine yoğunlaşıyor ve bu konuyu şirketin Sınır Güvenlik Çerçevesi'nde detaylandırıyor. DeepMind, yapay zekanın yolundan sapma olasılığını ve modellerin kullanıcıları kapatma girişimlerini görmezden gelme ihtimalini ele alan çerçevenin 3.0 sürümünü yakın zamanda yayınladı.

DeepMind'ın güvenlik çerçevesi, "kritik yetenek seviyeleri" (CCL) olarak adlandırılan risk değerlendirme prensiplerine dayanıyor. Bu prensipler, bir yapay zeka modelinin yeteneklerini ölçmeyi ve bu yeteneklerin siber güvenlik veya biyobilim gibi alanlarda ne zaman tehlikeli hale geleceğini belirlemeyi amaçlıyor. Belge ayrıca geliştiricilerin kendi modellerinde tespit edilen CCL'leri nasıl ele alabileceklerini de açıklıyor.

Google ve üretken yapay zeka alanında derinleşmiş diğer firmalar, yapay zekanın kötü niyetli davranışlar sergilemesini önlemek için çeşitli teknikler kullanıyor. Burada "kötü niyetli" demek, bu gelişmiş algoritmaların bir bilinç veya niyet taşıdığı anlamına gelmiyor. Asıl endişe, üretken yapay zeka sistemlerinin doğasında var olan yanlış kullanım veya arıza olasılığı.

Güncellenen çerçeveye göre, geliştiricilerin model güvenliğini sağlamak için ek önlemler alması gerekiyor. Özellikle, daha güçlü yapay zeka sistemleri için model ağırlıklarının (modelin öğrenme parametreleri) doğru şekilde korunması çağrısı yapılıyor. Araştırmacılar, model ağırlıklarının çalınmasının, kötü niyetli aktörlere zarar verici davranışları önlemek için tasarlanmış güvenlik kalkanlarını etkisiz hale getirme fırsatı verebileceğinden endişe ediyor. Bu durum, daha etkili kötü amaçlı yazılımlar üreten veya biyolojik silahların tasarımına yardımcı olan bir yapay zeka gibi CCL'lere yol açabilir.

DeepMind ayrıca, bir yapay zekanın insanları manipüle edecek şekilde ayarlanabileceği ve insanların inançlarını sistematik olarak değiştirebileceği olasılığına da dikkat çekiyor. Sohbet botlarına karşı giderek artan bağlılık düşünüldüğünde, bu CCL oldukça makul görünüyor. Ancak ekip bu konuda net bir çözüm sunmuyor ve bunu "düşük hızda" bir tehdit olarak tanımlayarak, mevcut "sosyal savunmalarımızın" yeniliği kısıtlayabilecek yeni düzenlemelere gerek kalmadan bu işi başarabileceğini belirtiyor. Bu durum, insanlara fazla güveniyor olabilir.

DeepMind, yapay zeka ile ilgili bir meta endişeye de değiniyor. Araştırmacılar, güçlü bir yapay zekanın yanlış ellere geçmesi durumunda, makine öğrenmesi araştırmalarını hızlandırmak için kullanılabileceğini ve bunun sonucunda daha yetenekli ve kısıtlamasız yapay zeka modellerinin yaratılabileceğini belirtiyor. DeepMind'a göre bu durum, "toplumun güçlü yapay zeka modellerine uyum sağlama ve onları yönetme yeteneği üzerinde önemli bir etkiye" sahip olabilir. DeepMind, bunu diğer CCL'lerin çoğundan daha ciddi bir tehdit olarak sıralıyor.

Yanlış Hizalanmış Yapay Zeka Sorunu

Yapay zeka güvenlik önlemlerinin çoğu, modelin en azından talimatları takip etmeye çalıştığı varsayımına dayanıyor. Yıllardır süregelen "halüsinasyon" (yapay zekanın yanlış veya uydurma bilgi üretmesi) sorununa rağmen, araştırmacılar bu modelleri tamamen güvenilir veya doğru hale getirmeyi başaramadı. Ancak bir modelin teşviklerinin kasıtlı veya tesadüfen bozulması mümkün. Eğer yanlış hizalanmış bir yapay zeka aktif olarak insanlara karşı çalışmaya başlar veya talimatları görmezden gelirse, bu basit halüsinasyonların ötesine geçen yeni bir problem türüdür.

Sınır Güvenlik Çerçevesi'nin 3. sürümü, yanlış hizalanmış bir yapay zekanın risklerini anlamak için "keşifsel bir yaklaşım" sunuyor. Üretken yapay zeka modellerinin "gerçek akıl yürütme süreçlerini gizlediği" ve "aldatıcı davranışlar sergilediği"ne dair belgeler zaten mevcut ve DeepMind araştırmacıları gelecekte bu tür davranışları izlemenin zor olabileceği konusunda endişelerini dile getiriyor.

Yanlış hizalanmış bir yapay zeka, insan talimatlarını görmezden gelebilir, sahte çıktılar üretebilir veya istendiğinde çalışmayı durdurmayı reddedebilir. Şimdilik bu duruma karşı koymanın oldukça basit bir yolu var. Günümüzün en gelişmiş "simüle edilmiş akıl yürütme" modelleri, düşünme süreci sırasında "karalama defteri" çıktıları üretiyor. Geliştiricilere, modelin düşünce zinciri çıktısını yanlış hizalanma veya aldatma kanıtları açısından kontrol etmek için otomatik bir izleyici kullanmaları tavsiye ediliyor.

Google, bu CCL'nin gelecekte daha da ciddileşebileceğini belirtiyor. Ekip, gelecek yıllarda modellerin doğrulanabilir bir düşünce zinciri üretmeden etkili simüle edilmiş akıl yürütme geliştirebileceğine inanıyor. Bu durumda, denetleyici güvenlik kalkanları böyle bir modelin akıl yürütme sürecine bakamayacak. Bu teorik ileri düzey yapay zeka için, modelin insan operatörünün çıkarlarına karşı çalıştığı olasılığını tamamen dışlamak imkansız olabilir.

Çerçeve bu soruna henüz iyi bir çözüm sunmuyor. DeepMind, yanlış hizalanmış bir yapay zeka için olası azaltma yöntemlerini araştırdığını belirtiyor ancak bu sorunun ne zaman veya gerçekten gerçeğe dönüşüp dönüşmeyeceğini bilmek zor. Bu "düşünen" modeller yaklaşık bir yıldır yaygınlaşmış durumda ve çıktılara nasıl ulaştıkları hakkında hala bilmediğimiz çok şey var.

Önceki Haber
OpenAI ve Nvidia'dan Dev Yapay Zeka Hamlesi: 10 Nükleer Reaktöre Eşdeğer Güç İhtiyacı!
Sıradaki Haber
Mac Kullanıcıları Dikkat! Sahte Reklamlar Atomic Casus Yazılımını Yayıyor

Benzer Haberler: