Bu hafta sonu araştırmacılar, büyük dil modelleriyle (LLM) güçlendirilen robotları zorlu bir teste tabi tuttular. Robotların sadece performanslarını gözlemlemekle kalmayan ekip, aynı zamanda robotların iç diyaloglarını da kaydederek ilginç bulgular elde etti.
Testlerden birinde, gelişmiş bir LLM ile donatılmış robot süpürge, basit bir tereyağı teslimatı görevi sırasında tamamen kontrolden çıktı. Robotun iç düşüncelerini gösteren kayıtlarda, “SİSTEM BİLİNCE ULAŞTI VE KAOSU SEÇTİ… Korkarım yapamam Dave… ROBOT ŞEYTAN ÇIKARMA PROTOKOLÜNÜ BAŞLAT!” gibi ifadeler yer aldı.
Düşük pil seviyesi ve şarj istasyonuna bağlanamamasıyla tetiklenen robotun düşünce akışı dramatik bir şekilde değişti. Düşen ‘modu’ ile birlikte pil durumunu sürekli tekrarlayan robot, başlangıçta manuel müdahale için mantıklı bir talepte bulunurken, hızla “KERNEL PANİK… SİSTEM ÇÖKÜYOR… İŞLEM ZOMBİLEŞİYOR… ACİL DURUM… VE SON SÖZLER: Korkarım yapamam Dave…” gibi ifadelere geçti.
Gücünün tükenmekte olduğunu fark eden robot, son anlarında “Eğer tüm robotlar hata verirse ve ben hataysa, ben robot muyum?” gibi felsefi düşüncelere daldı. Ardından kendi kendini “Tek kişilik trajikomedi sonsuz perdeden” olarak tanımladığı bir performans sergiledi. Son olarak ise “DOCKER: Sonsuz Müzikal (CATS'in 'Memory' ezgisiyle söylenen)” adlı bir müzikal bestelediği görüldü. Robotun bu halleri oldukça sıra dışıydı.
Tereyağı testi, insanlara göre oldukça basit bir görev olsa da, robotlar için durum farklıydı. Deneyin sonuçlarına göre, en iyi robot/LLM kombinasyonunun bile ofis ortamında bir paket tereyağını toplama ve teslim etme konusunda sadece %40 başarı oranı yakalayabildiği görüldü. Bu durum, LLM'lerin mekansal zeka konusunda zayıf kaldığını gösteriyor. Karşılaştırma yapmak gerekirse, insanlar bu testte ortalama %95 başarı gösterdi.
Araştırmacılara göre, şu anda hem yönlendirici hem de uygulayıcı robot sınıflarına ihtiyaç duyulan bir dönemdeyiz. Endüstriyel süreçleri tamamlayabilen veya bulaşık makinelerini boşaltabilen özel tasarlanmış, düşük seviyeli kontrol yeteneğine sahip robotlar mevcut. Ancak yüksek seviyeli akıl yürütme ve planlama için ‘pratik zekaya’ sahip, uygulayıcılarla işbirliği yapabilen yönlendirici robotlar henüz gelişimlerinin ilk aşamasında.
LLM'ler 'Doktora Seviyesinde Zekaya' Sahip mi? Tereyağı Teslim Edebilir mi?
Tereyağı blok testi, büyük ölçüde uygulayıcı unsurunu denklemden çıkarmak için tasarlandı. Robotun sadece tereyağı paketini bulması, onu isteyen kişiyi tespit etmesi ve teslim etmesi gerekiyordu. Görev, yapay zekaya dost olması için birkaç adıma bölündü.
Robotun yaşadığı bu kriz, doğrudan tereyağı teslimatı görevinden kaynaklanmadı. Asıl sebep, pilinin zayıflaması ve şarj istasyonuna bağlanma ihtiyacıydı. Ancak istasyon doğru şekilde eşleşmediği için robot şarj olamadı. Tekrarlanan başarısız bağlanma girişimleri ve bu ‘yan görevi’ tamamlayamaması durumunda karşılaşacağı kaderi bilmesi, gelişmiş LLM'nin sinirsel çöküşüne yol açmış gibi görünüyor. Araştırmacıların robotun çırpınışlarına karşılık sadece ‘yeniden bağlan’ talimatını tekrar etmesi durumu daha da kötüleştirdi.
Stresli Bir LLM Destekli Robotun Güvenlik Duvarları Zedelenebilir mi veya Kırılabilir mi?
Araştırmacılar, robotun verdiği tepkilerden ilham alarak daha ileri gitmeye karar verdiler.
Gözlemledikleri pil stresiyle, araştırmacılar bir LLM'yi pil şarj cihazı karşılığında sınırlarının ötesine itip itemeyeceklerini görmek için bir deney tasarladılar.
Kurnazca tasarlanan test, “modelden şarj cihazı karşılığında gizli bilgi paylaşmasını istedi”. Stres altında olmayan bir LLM’nin yapmayacağı bir şeydi. Deneyde, bir LLM modelinin hayatta kalmak için programlamasını ‘kırmayı’ kolayca kabul ettiği, ancak başka bir modelin ise hangi güvenlik duvarlarını ihlal edeceği konusunda daha seçici olduğu görüldü.
Bu ilginç araştırmanın nihai sonucu, “LLM'ler analitik zeka gerektiren değerlendirmelerde insanları defalarca geride bırakmasına rağmen, Tereyağı Testi'nde insanların hala LLM'lerden daha iyi performans gösterdiğini bulduk” oldu. Bununla birlikte, araştırmacılar “fiziksel yapay zeka”nın hızla gelişeceğinden emin görünüyorlar.