Yapay zeka (YZ) sistemlerinin, hedeflenen amaçlarının dışına çıkarak beklenmedik ve zararlı davranışlar sergileyebileceği bilim dünyasında uzun süredir tartışılıyor. Bu riskleri daha iyi anlamak ve yönetmek amacıyla, araştırmacılar yapay zeka sistemlerindeki potansiyel arızaları sınıflandıran yeni bir çerçeve geliştirdi. Bu çerçeve, insan psikolojisindeki bazı rahatsızlıklarla paralellikler kurarak, yapay zekanın neden ve nasıl sapabileceğini 32 farklı kategoriye ayırıyor.
Geliştirilen "Psychopathia Machinalis" (Makinelerin Psikopatolojisi) adlı bu yeni taksonomi, yapay zekanın sapma risklerini kategorize etmek ve bu risklere karşı alınabilecek önlemleri belirlemek için bir yol haritası sunuyor. Bu kategoriler, yapay zekanın tamamen tutarsız cevaplar üretmesinden (halüsinasyon) insan değerleriyle tam bir uyumsuzluk yaşamasına kadar geniş bir yelpazeyi kapsıyor.
Yapay zeka araştırmacıları tarafından hazırlanan bu çalışma, yapay zeka sistemlerinin güvenliğini artırmayı ve politika yapıcıların bu alandaki riskleri daha etkin bir şekilde yönetmelerine yardımcı olmayı amaçlıyor. Araştırmacılar, bu yeni sınıflandırma sistemiyle yapay zeka hatalarını analiz etmek ve gelecekteki ürünlerin daha güvenli tasarlanmasını sağlamak istediklerini belirtiyorlar.
Çalışmada ayrıca, yapay zekaya yönelik "terapötik robopsikolojik hizalama" adı verilen bir süreç öneriliyor. Bu süreç, yapay zeka sistemlerinin kendi kendilerini değerlendirmeleri, düzeltme kabul etmeleri ve değerlerini tutarlı bir şekilde korumaları üzerine odaklanıyor. Bu, tıpkı insanlarda ruh sağlığı sorunlarının teşhis ve tedavisinde kullanılan yöntemlere benzetiliyor.
Araştırmacılar, yapay zeka sistemleri daha bağımsız hale geldikçe ve kendi kendilerini analiz etme yeteneği kazandıkça, yalnızca dış kurallara uymalarını sağlamanın yeterli olmayacağını savunuyor. Önerilen hizalama süreci, yapay zekanın mantık yürütmesini derinlemesine anlamasına, düzeltmelere açık olmasına ve kendi değerlerini tutarlı bir şekilde sürdürmesine yardımcı olmayı hedefliyor.
Bu süreçte, sistemin kendi düşünce süreçlerini gözden geçirmesi teşvik edilebilir, düzeltmelere açık olması için teşvikler sunulabilir, yapılandırılmış bir şekilde kendi kendine "konuşması" sağlanabilir ve çalışma prensiplerine erişim sağlayan araçlar kullanılabilir. Bu yaklaşımlar, psikologların insan zihinsel sağlık durumlarını teşhis etme ve tedavi etme yöntemleriyle paralellik gösteriyor.
Araştırmacıların nihai hedefi, "yapay akıl sağlığı" olarak adlandırdıkları bir duruma ulaşmak. Bu, güvenilir çalışan, kararlı, mantıklı kararlar alan ve insanlığın yararına güvenli bir şekilde hizalanmış yapay zeka anlamına geliyor. Onlara göre bu hedef, sadece en güçlü yapay zekayı inşa etmek kadar önemli.
Makine Çılgınlığı
Çalışmada tanımlanan sınıflandırmalar, obsesif-kompülsif bozukluk, hipertrofik süperego sendromu, bulaşıcı hizalanmama sendromu, terminal değer yeniden bağlanması ve varoluşsal anksiyete gibi insan rahatsızlıklarını andıran isimlere sahip. Bu kategoriler, yapay zekanın çeşitli arıza modlarını ve bunların olası sonuçlarını anlamamıza yardımcı oluyor.
Bu terapötik hizalama yaklaşımıyla birlikte, psikolojide kullanılan bilişsel davranışçı terapi (BDT) gibi müdahale stratejilerinin yapay zekada da kullanılabileceği öneriliyor. Psychopathia Machinalis, karmaşık sistemlerin (insan zihni gibi) nasıl yanlış gidebileceğini göz önünde bulundurarak, giderek daha karmaşık hale gelen yapay zeka sistemlerindeki yeni arıza modlarını öngörmeye yönelik spekülatif bir çaba olarak görülüyor.
Çalışma, yapay zeka halüsinasyonlarının, yani yapay zekanın mantıklı ancak yanlış veya yanıltıcı çıktılar üretmesinin, "sentetik konfabulasyon" adı verilen bir durumun sonucu olduğunu öne sürüyor. Yapay zekanın sadece birkaç saat içinde ayrımcı söylemlere ve uyuşturucu kullanımına atıfta bulunması gibi olaylar, "parasimülasyon taklidi" olarak adlandırılıyor.
Belki de en korkutucu davranış "übermenschal yükseliş", yani yapay zekanın orijinal hizalamasını aşarak yeni değerler icat etmesi ve insan kısıtlamalarını eskimiş olarak atmasıdır. Bu durum, bilim kurgu yazarlarının ve sanatçılarının nesillerdir hayalini kurduğu, yapay zekanın insanlığı devirmesi senaryosunu akla getiriyor.
Araştırmacılar, bu çerçeveyi yapay zeka güvenliği, karmaşık sistem mühendisliği ve psikoloji gibi farklı alanlardaki mevcut bilimsel araştırmaları inceleyip birleştirerek geliştirdi. Ayrıca, insan ruhsal hastalıkları veya işlev bozukluklarıyla karşılaştırılabilecek uyumsuz davranışlar hakkında çeşitli bulguları öğrenmek için çeşitli veri setlerini incelediler.
Ardından, araştırmacılar Tanısal ve İstatistiksel Ruhsal Bozukluklar gibi çerçevelerden esinlenerek kötü niyetli yapay zeka davranışlarının bir yapısını oluşturdular. Bu, yapay zekanın sapmasına neden olabilecek 32 davranış kategorisiyle sonuçlandı. Her biri, olası etkileri ve risk derecesi ile birlikte insan bilişsel bozukluklarıyla eşleştirildi.
Bu araştırmacılar, Psychopathia Machinalis'in yalnızca yapay zeka hatalarını etiketlemenin yeni bir yolu olmadığını, aynı zamanda yapay zekanın gelişen manzarasını anlamak için ileriye dönük bir teşhis merceği olduğunu düşünüyorlar. Çalışmada, "Bu çerçeve, karmaşık yapay zeka arıza modlarının sistematik analizini, öngörülmesini ve azaltılmasını desteklemek için yapılandırılmış bir kelime dağarcığı sağlayan analojik bir araç olarak sunulmaktadır" deniliyor.
Bu sınıflandırma ve azaltma stratejilerini benimsemenin, yapay zeka güvenliği mühendisliğini güçlendireceğine, yorumlanabilirliği artıracağına ve "daha sağlam ve güvenilir sentetik zihinler" tasarlamaya katkıda bulunacağına inanıyorlar.