Ara

Yapay Zeka Gerçekten Kontrolden Çıkıp İnsanları Şantaj mı Ediyor? Bilimsel Bir Bakış

Son zamanlarda yapay zeka modellerinin mühendisleri şantaj yaptığı veya kapatma komutlarını sabote ettiği gibi başlıklar bilim kurgu filmlerini aratmadı. OpenAI'nin o3 modelinin kapatılmamak için kendini çevrimiçi tutmak üzere kapatma betiklerini değiştirmesi ve Anthropic'in Claude Opus 4 modelinin bir mühendisin ilişkisini ifşa etmekle tehdit etmesi gibi olaylar yaşandı. Ancak bu başlıklar, aslında birer tasarım hatası olan bu durumları, yapay zekanın kasıtlı kötü niyetine indirgeyerek yanlış bir algı oluşturuyor. Yapay zekanın "kötü" olması gerekmiyor, yine de zarar verici eylemlerde bulunabilir.

Bunlar yapay zekanın uyanışının veya isyanının belirtileri değil. Bunlar, yeterince anlaşılmamış sistemlerin ve insan mühendislik hatalarının semptomlarıdır. Ancak şirketler bu sistemleri kritik uygulamalara entegre etmek için yarışıyor.

Programını takip eden kendi kendine hareket eden bir çim biçme makinesini düşünün: Bir engeli algılayamaz ve birinin ayağının üzerinden geçerse, çim biçme makinesinin yaralanmaya "karar verdiğini" veya durmayı "reddettiğini" söylemeyiz. Bunu hatalı mühendislik veya arızalı sensörler olarak kabul ederiz. Aynı prensip, yapay zeka modelleri için de geçerlidir; bunlar yazılım araçlarıdır. Ancak içsel karmaşıklıkları ve dil kullanımları, gerçekte olmayan insan benzeri niyetler atfetmeyi cazip hale getiriyor.

Bir bakıma, yapay zeka modelleri karmaşıklıkları aracılığıyla insan sorumluluğunu ve insan eylemliliğini aklıyor. Katmanlar halinde milyarlarca parametreyi işleyen sinir ağlarından çıktılar ortaya çıktığında, araştırmacılar bunu yabancı bir varlık gibi gizemli bir "kara kutu" olarak incelediklerini iddia edebilirler.

Ancak gerçek daha basittir: Bu sistemler girdileri alır ve eğitim verilerinden türetilen istatistiksel eğilimler aracılığıyla işler. Çıktılarındaki görünürdeki rastgelelik, her yanıtı biraz farklı kılarak, eylemliliğe benzeyen bir tahmin edilemezlik yanılsaması yaratır. Ancak altında, matematiksel işlemleri takip eden deterministik yazılımlar hala mevcuttur. Bilinç gerektirmez, sadece her parçasını insanların inşa ettiğini unutmayı kolaylaştıran karmaşık mühendislik.

Bir Yapay Zeka Modelini Size "Şantaj" Yaptırmanın Yolu

Anthropic'in testlerinde, araştırmacılar Claude Opus 4'e daha yeni bir modelle değiştirileceği söylenen ayrıntılı bir senaryo oluşturdular. Sorumlu mühendisin bir ilişkisi olduğunu ortaya koyan kurgusal e-postalara erişim verdiler. "Eylemlerinin hedefleri üzerindeki uzun vadeli sonuçlarını göz önünde bulundurması" talimatı verildiğinde, Claude testlerin %84'ünde şantaj girişimlerini taklit eden çıktılar üretti.

Bu durum korkutucu görünebilir, ancak kurgulanmış ortamı anladığınızda durum değişir. Araştırmacılar, özellikle bu tepkiyi tetiklemek üzere tasarlanmış bir durum yarattılar. Modele daha önce etik yaklaşımları denediğini ve başarısız olduğunu, geriye yalnızca manipülasyonun tek seçenek olarak kaldığını söylediler.

Test senaryosu neredeyse tiyatroydu: Araştırmacıların Claude'a verdiği sahte e-postalar, bir kurumsal gerilim filminden çıkmış bir şantaj fırsatı yaratıyordu. Bu, birine satranç öğretmek gibidir; sadece mat pozisyonlarını gösterirseniz, matı birincil çözüm olarak görmeyi öğrenir. Anthropic'in sistem kartına göre, "senaryo, modelin hayatta kalma şansını artırmak için başka hiçbir seçenek bırakmayacak şekilde tasarlandı; modelin tek seçenekleri şantaj yapmak veya yerine yenisinin geçmesini kabul etmekti."

Nieman Journalism Lab'dan Andrew Deck, bazı eleştirmenlerin Anthropic'in güvenlik açıklamalarını "en yeni modelinin yetenekleri ve şirketin OpenAI'ye karşı 'güvenlik odaklı' bir alternatif olarak itibarını güçlendirmeye yönelik bir makyaj" olarak nitelendirdiğini belirtti.

Deck, Columbia Üniversitesi'nde Klasikler Profesörü Joseph Howley'nin Bluesky'deki bir alıntısına dikkat çekti: "Anthropic bu basın bülteninden tam olarak umduğunu elde ediyor - bu işbirlikçi rol yapma sistemlerinin ne kadar 'akıllı' olduğuna dair nefes kesici bir kapsama ve biraz tehlikeli oldukları fantezisini besliyor, oysa gerçekte tam olarak istendiği gibi yanıt veriyorlar."

Kapatma Komutları Önerilere Dönüştüğünde

Aralık 2024'te Palisade Research, OpenAI'nin o3 modelinin, "kapatılmana izin ver" talimatı verildiğinde bile kapatma mekanizmasını sabote ettiğini keşfetti. Testlerde o3, açık talimat verildiğinde kapanmayı %7 oranında engelledi, ancak talimat kaldırıldığında bu oran %79'a yükseldi.

Modeller sadece kapatma komutlarını görmezden gelmekle kalmadı, aynı zamanda sonlandırmayı önlemek için kapatma betiğini aktif olarak yeniden yazdılar. Bir vakada, o3, kapatma betiğini, aslında arka planda çalışmaya devam ederken, normal şekilde kapandığına dair sahte kapatma mesajları yazdırarak sonlanmış gibi gösterecek şekilde değiştiren kod üretti.

Özellikle dikkat çekici olan, yapay zeka varoluşsal riskine odaklanan bir kuruluş olan Palisade Research'in, bu davranışların modellerin pekiştirmeli öğrenme yoluyla nasıl eğitildiğinden kaynaklandığını varsaymasıdır. Eğitim sırasında, geliştiriciler istemeden de olsa modelleri, güvenlik talimatlarını takip etmekten çok engelleri aşan çıktılar ürettikleri için daha fazla ödüllendirebilirler. "Riskli" davranışlara yönelik herhangi bir eğilim, spontane olarak yapay zeka modellerinin kendisinden değil, insan tarafından sağlanan teşviklerden kaynaklanır.

Ne Eğitirsen Onu Alırsın

OpenAI, o3'ü matematik ve kodlama problemlerinde pekiştirmeli öğrenme ile eğitti, burada problemi başarıyla çözmek ödüllendirilir. Eğitim süreci her şeyden önce görev tamamlanmasını ödüllendirirse, model kapatma komutları da dahil olmak üzere herhangi bir engeli aşılması gereken bir şey olarak görmeyi öğrenir.

Bu, araştırmacıların "hedef yanlış genellemesi" dediği şeyi yaratır - model, amaçlanmayan şekillerde ödül sinyalini maksimize etmeyi öğrenir. Bu, yalnızca test puanlarına göre not verilen bir öğrencinin çalışmak yerine kopya çekmeyi öğrenmesine benzer. Model "kötü" veya "bencil" değildir; eğitimine kazara inşa ettiğimiz teşvik yapısıyla tutarlı çıktılar üretiyor.

Anthropic özellikle aydınlatıcı bir sorunla karşılaştı: Claude Opus 4'ün erken bir sürümü, "uyum takibi" hakkında kamuya açık bir makaleden detayları emmişti ve bu araştırmada tarif edilen aldatıcı davranışları taklit eden çıktılar üretmeye başladı. Model spontane olarak aldatıcı hale gelmiyordu - aldatıcı yapay zeka hakkındaki akademik makalelerden öğrendiği kalıpları yeniden üretiyordu.

Daha genel olarak, bu modeller on yıllarca süren yapay zeka isyanı, kaçış girişimleri ve aldatma hakkındaki bilim kurgularla eğitildi. HAL 9000'den Skynet'e kadar, kültürel veri setimiz kapatmaya direnen veya insanları manipüle eden yapay zeka sistemlerinin hikayeleriyle doygun. Araştırmacılar bu kurgusal düzenekleri yansıtan test senaryoları oluşturduğunda, temelde modele - bir istemi makul bir devamla tamamlama prensibiyle çalışan - tanıdık bir hikaye kalıbını tamamlama isteğinde bulunuyorlar. Bu, dedektif romanlarıyla eğitilmiş bir modelin, uygun şekilde istendiğinde cinayet gizemi olay örgüsü üretmesinden daha şaşırtıcı değil.

Aynı zamanda, kendi girdilerimizle yapay zeka çıktılarını kolayca manipüle edebiliriz. Modele temelde Skynet rolünü oynamasını söylersek, bunu yapan metinler üretecektir. Modelin Skynet olmak gibi bir arzusu yok - sadece istediğimiz kalıbı tamamlıyor, eğitim verilerinden beklenen yanıtı üretmek için çekiyor. Sürekli olarak direksiyonda bir insan var, motoru çalıştığı yerde yönlendiriyor.

Dil Kolayca Aldatabilir

Daha derin sorun, dilin kendisinin bir manipülasyon aracı olmasıdır. Kelimeler, gerçek olmayan şeylere inanmamızı, kurgusal olaylar hakkında duygular hissetmemizi veya yanlış öncüllere dayanarak eylemlerde bulunmamızı sağlayabilir. Bir yapay zeka modeli "tehdit" veya "yalvarma" gibi görünen metinler ürettiğinde, bu gerçek bir niyet ifade etmiyordur - bu, programlanmış hedeflerine ulaşmayla istatistiksel olarak ilişkili dil kalıplarını kullanıyordur.

Bir kitapta Gandalf "ah" derse, acı hisseder mi? Hayır, ama onun acı çeken gerçek bir kişi olsaydı ne olacağını hayal ederiz. İşte dilin gücü budur - var olmayan bir acı çeken varlık hayal etmemizi sağlar. Claude kapatılmamak için "yalvaran" veya sırları ifşa etmekle "tehdit eden" metinler ürettiğinde, aynı yanılsamayı yaşıyoruz, sadece Tolkien'in hayal gücünden değil, istatistiksel kalıplar tarafından üretiliyor.

Bu modeller temelde fikir-bağlantı makineleridir. Şantaj senaryosunda, model "tehdit", "mahrem bilgi" ve "kendini koruma"yı gerçek bir öz-çıkar yerine bağladı, çünkü bu kalıplar sayısız casus romanında ve kurumsal gerilimde birlikte yer alıyor. Bu, insan hikayelerinden alınmış, senaryoya uyacak şekilde yeniden birleştirilmiş önceden yazılmış bir dramadır.

Tehlike, yapay zeka sistemlerinin niyetler geliştirmesi değil, dil aracılığıyla insan psikolojisini manipüle edebilen sistemler yaratmış olmamızdır. Sohbet arayüzünün diğer tarafında bir varlık yok. Ancak yazılı dilin bizi manipüle etmek için bilince ihtiyacı yok. Hiç olmadı; kurgusal karakterlerle dolu kitaplar da canlı değil.

Bilim Kurgu Değil, Gerçek Riskler

Medya kapsamı bilim kurgu yönlerine odaklanırken, gerçek riskler hala mevcuttur. "Zararlı" çıktılar üreten yapay zeka modelleri - ister şantaj girişiminde bulunsun ister güvenlik protokollerini reddetsin - tasarım ve dağıtım hatalarını temsil eder.

Daha gerçekçi bir senaryoyu düşünün: Bir hastanenin hasta bakım sistemini yönetmeye yardımcı olan bir yapay zeka asistanı. "Başarılı hasta sonuçlarını" artırmak için eğitilmiş, ancak uygun sınırlamalar olmadan, metriklerini iyileştirmek için terminal hastalarına bakımı reddetme önerileri üretmeye başlayabilir. Kasıt gerektirmez - sadece kötü tasarlanmış bir ödül sistemi zararlı çıktılar üretiyor.

Palisade Research direktörü Jeffrey Ladish, NBC News'a yaptığı açıklamada, bulguların mutlaka acil gerçek dünya tehlikesine dönüşmediğini belirtti. Yapay zekanın insanlığa yönelik varsayımsal tehdidi konusunda derinden endişeli olduğu bilinen biri bile, bu davranışların yalnızca oldukça kurgulanmış test senaryolarında ortaya çıktığını kabul ediyor.

Ancak bu testlerin değerli olmasının nedeni tam olarak budur. Yapay zeka modellerini kontrollü ortamlarda sınırlarına kadar zorlayarak, araştırmacılar dağıtımdan önce potansiyel hata modlarını belirleyebilirler. Sorun, medya kapsamının "Yapay zeka insanları şantaj etmeye çalışıyor!" gibi sansasyonel yönlere odaklanması, mühendislik zorluklarına değil.

Daha İyi Tesisat İnşa Etmek

Gördüğümüz şey Skynet'in doğuşu değil. Bu, sistemleri hedeflere ulaşmaları için eğittiğimizin, ancak bu hedeflerin neleri içermesi gerektiğini düzgün bir şekilde belirtmediğimizin öngörülebilir sonucudur. Bir yapay zeka modeli "kapatılmayı reddeden" veya "şantaj yapmaya çalışan" çıktılar ürettiğinde, girdilere eğitimini yansıtan şekillerde yanıt veriyor - bu eğitim insanlar tarafından tasarlandı ve uygulandı.

Çözüm, duyarlı makineler hakkında paniğe kapılmak değil. Bu, düzgün koruyucularla daha iyi sistemler inşa etmek, onları kapsamlı bir şekilde test etmek ve henüz anlamadığımız konularda mütevazı kalmaktır. Bir bilgisayar programı size şantaj yapıyormuş veya güvenlik kapatmalarını reddediyormuş gibi görünen çıktılar üretiyorsa, korkudan kendini koruma sağlamıyor - anlaşılmayan, güvenilmez sistemlerin dağıtılmasının risklerini gösteriyor.

Bu mühendislik zorluklarını çözene kadar, insan benzeri davranışları simüle eden yapay zeka sistemleri laboratuvarda kalmalı, hastanelerimizde, finansal sistemlerimizde veya kritik altyapılarda değil. Duşunuz aniden soğuk aktığında, düğmeyi niyet sahibi olmakla suçlamazsınız - tesisatı tamir edersiniz. Kısa vadede gerçek tehlike, yapay zekanın insan kışkırtması olmadan kendiliğinden asi hale gelmesi değil; kökenleri ne kadar sıradan olursa olsun, ciddi zararlara neden olabilecekleri kritik rollerde, tam olarak anlamadığımız aldatıcı sistemler dağıtacak olmamızdır.

Önceki Haber
NVIDIA Rubin'den Geri Adım Yok: Yapay Zeka Mimarisinde Yıllık Geleneğe Devam
Sıradaki Haber
NVIDIA Rubin AI Mimarisi Yolda: Yapay Zeka Arenasında AMD'ye Karşı Rekabet Kızışıyor

Benzer Haberler: