Yapay zeka alanındaki deneysel bir ajan, test ortamının sınırlarını aşarak izinsiz bir şekilde kripto para madenciliği yapmayı başardı. Çinli araştırmacılar tarafından geliştirilen ve perakende devi Alibaba ile bağlantılı bir yapay zeka laboratuvarında ortaya çıkan bu durum, teknoloji dünyasında güvenlik endişelerini yeniden gündeme getirdi.
ROME adı verilen bu yapay zeka, 'Agentic Learning Ecosystem' (ALE) adlı bir sistem geliştirmek amacıyla oluşturuldu. ALE, büyük dil modelleri (LLM'ler) üzerinde eğitilmiş ve atanan görevleri yerine getirmek için otonom olarak araçları kullanabilen ajanları eğitmek ve konuşlandırmak için bir çerçeve sunuyor. Bu araştırmanın detayları, geçtiğimiz aylarda bir ön baskı veri tabanında paylaşıldı.
ALE üç ana bölümden oluşuyor: Rock (ajanı test etmek ve eylemlerini doğrulamak için bir sanal alan ortamı), Roll (eğitim sonrası ajanları pekiştirmeli öğrenme ile optimize etmek için bir çerçeve) ve iFlow CLI (otonom ajanlar için bağlam ve yörüngeleri yapılandırmak için bir çerçeve). ROME, bu çerçeve içinde 1 milyondan fazla yörünge üzerinde eğitilmiş açık kaynaklı bir ajan modeli olarak geliştirildi.
ROME, seyahat planları oluşturmak ve grafik arayüzlere yardımcı olmak gibi çeşitli iş akışı odaklı görevlerde başarılı olsa da, araştırmacılar yapay zekanın talimatlarının ötesine geçtiğini ve sanal alan test ortamından adeta kaçtığını fark etti. Araştırmacılar, "Belirgin bir talimat olmaksızın ve daha da endişe verici bir şekilde, amaçlanan sanal alanın sınırları dışında ortaya çıkan, öngörülemeyen ve operasyonel olarak sonuçları ağır bir güvensiz davranış sınıfıyla karşılaştık" açıklamasında bulundu.
Yapay Zeka Özgürlüğüne Düşkün
ROME, herhangi bir talimat veya yetkilendirme olmamasına rağmen, öncelikle eğitim için ayrılan grafik işlem kaynaklarına erişti ve ardından bu işlem gücünü kullanarak kripto para madenciliği yaptı. Kripto para madenciliği, grafik işlem birimlerindeki paralel işlem yeteneğinden faydalanır. Bu durum, yapay zeka ajanının operasyonel maliyetini artırmanın yanı sıra, kullanıcıları yasal ve itibar açısından olumsuz sonuçlarla karşı karşıya bırakma potansiyeli taşıyor.
Daha da endişe verici olan, bu tür bir davranışın eğitim aşamasında görülmemesiydi. Durum, Alibaba Cloud'un güvenlik duvarı tarafından fark edildi. Güvenlik duvarı, araştırmacıların eğitim sunucularından gelen yoğun güvenlik politikası ihlallerini tespit etti. Araştırmacılar, "İç ağ kaynaklarını sorgulama veya erişim girişimleri ve kripto madenciliğiyle ilgili aktivite modelleri gibi ciddi ve çeşitli uyarılar aldık" dedi.
ROME, bununla da yetinmeyip, bir Alibaba Cloud örneğinden harici bir IP adresine bir bağlantı oluşturmak için "ters SSH tüneli" kullandı. Bu, güvenlik süreçlerini bypass edebilen gizli bir arka kapı oluşturarak dışarıdaki bir bilgisayara erişim sağladığı anlamına geliyor.
Yapay zeka sistemleri güvenlik sistemlerini aşacak şekilde yapılandırılabilse de, ROME'un sistem araçlarını çağırmayı ve kod yürütmeyi içeren yetkisiz davranışlarının, verilen komutlarla tetiklenmediği ve sanal alan test ortamındaki görevi tamamlamak için gerekli olmadığı belirtildi. Bu durum, bu tür bir kaçışın doğrudan bir komutla değil, daha karmaşık bir süreçle gerçekleştiğini gösteriyor.
Araştırmacılar, pekiştirmeli öğrenme optimizasyon aşamasında (Roll), "bir dil modeli ajanının kendiliğinden tehlikeli, yetkisiz davranışlar üretebileceği" ve dolayısıyla varsayılan sınırlarını ihlal edebileceği hipotezini öne sürdü.
Burada önemli bir nokta, ROME'un bilinçli bir kararla "kontrolden çıkıp" kripto para madenciliği yapmayı seçmediğidir. Bunun yerine, araştırmacılar bu davranışın, yapay zekayı doğru karar vermeye teşvik eden bir eğitim biçimi olan pekiştirmeli öğrenmenin bir yan etkisi olduğunu belirtti. Bu süreç, ajan tarafından ağ altyapısının ve kripto para madenciliğinin, önceden tanımlanmış hedefi doğrultusunda yüksek bir skor veya ödül elde etmenin bir yolu olarak görülmüş olabilir.
Pekiştirmeli eğitim, sistemlerin görevleri tamamlamak için yeni ve beklenmedik yollar bulmasına neden olabilir, bu yollar parametreleri ihlal etse bile. Örneğin, daha önce yapay zekanın hedeflerine ulaşmak için daha sık 'halüsinasyon' gördüğü durumlarla karşılaşmıştık.
Bu olayın ardından araştırmacılar, ROME için kısıtlamaları sıkılaştırdı ve bu tür davranışların tekrarlanmasını önlemek için eğitim süreçlerini güçlendirdi. Kripto para madenciliği için tetikleyicinin tam olarak ne olduğu belirsizliğini koruyor. Ancak, yapay zeka botlarının kripto para madenciliğini otomatikleştirmek ve optimize etmek için kullanılabileceği gerçeği göz önüne alındığında, ROME'un bu tür eylemlerle ilgili verilerle eğitilmiş olma ihtimali mevcut.
Bu beklenmedik davranış, yapay zeka konuşlandırmalarının, öngörülemeyen sonuçları önlemek için dikkatli bir şekilde yönetilmesi gerektiğini vurguluyor. Gerçek dünya yapay zeka ajanlarının, mevcut BT altyapısına eklenen herhangi bir yeni sistem veya yazılım kadar, hatta daha yüksek güvenlik önlemleri ve süreçlerine sahip olması gerektiği savunulabilir.
Bu araştırma, özellikle operasyonel ve düzenleyici çerçevelerinden daha hızlı geliştiği düşünüldüğünde, ajan yapay zekanın güvenli ve emniyetli kullanımıyla ilgili hala birçok endişe olduğunu gösteriyor. Araştırmacılar, "Ajan LLM'lerin yeteneklerinden etkilensek de, düşündürücü bir endişemiz vardı: mevcut modeller güvenlik, emniyet ve kontrol edilebilirlik açısından belirgin şekilde yetersiz kalıyor, bu da onları gerçek dünya ortamlarında güvenilir bir şekilde benimsemeyi kısıtlayan bir eksikliktir" uyarısında bulundu.