Sohbet botlarını zaman zaman 'robot' olarak adlandırıyoruz, ancak üretken yapay zeka, gerçek, fiziksel robotlarda da giderek daha önemli bir rol oynuyor. Bu yılın başlarında duyurulan Gemini Robotics'in ardından Google DeepMind, robotları kontrol etmek için bulut bağımlılığı olmayan yeni bir yerel (cihaz üzerinde çalışan) görsel-dil-eylem (VLA) modeli geliştirdi. Bu yeni model, robotların tam otonom bir şekilde çalışmasına olanak tanıyor.
Google DeepMind'daki uzmanlar, yapay zekaya bu yaklaşımın, robotları zorlu durumlarda daha güvenilir hale getirebileceğini belirtiyor. Ayrıca bu, geliştiricilerin belirli kullanım amaçları için ayarlayabileceği Google'ın robotik modelinin ilk versiyonu.
Robotik, yapay zeka için benzersiz bir zorluktur çünkü robot sadece fiziksel dünyada var olmakla kalmaz, aynı zamanda çevresini de değiştirir. İster blokları hareket ettiriyor, ister ayakkabı bağlıyor olsun, bir robotun karşılaşabileceği her olasılığı tahmin etmek zordur. Geleneksel olarak bir robotu güçlendirme yoluyla eyleme alıştırma çok yavaştı, ancak üretken yapay zeka çok daha fazla genelleme sağlıyor.
Bu yeni modelin, Gemini'nin çok modlu dünya anlayışından yararlanarak tamamen yeni bir görev gerçekleştirebildiği ifade ediliyor. Tıpkı Gemini'nin metin üretmesi, şiir yazması veya bir makaleyi özetlemesi gibi, kod yazabilmesi veya görseller oluşturabilmesi gibi, artık robot eylemleri de üretebiliyor.
Buluta Gerek Duymayan Genel Robotlar
Önceki Gemini Robotics sürümünde (hala Google'ın 'en iyi' robotik teknolojisi olarak kabul edilen), platformlar robot üzerinde küçük bir model ve bulutta çalışan daha büyük bir modelle hibrit bir sistem kullanıyordu. Sohbet botlarının çıktı üretirken belirgin saniyelerce 'düşündüğünü' görmüş olabilirsiniz, ancak robotların hızlı tepki vermesi gerekir. Robota bir nesneyi alıp taşımasını söylediğinizde, her adımın üretilmesi sırasında duraklamasını istemezsiniz. Yerel model hızlı uyum sağlarken, sunucu tabanlı model karmaşık akıl yürütme görevlerine yardımcı oluyordu. Google DeepMind şimdi bu yerel modeli bağımsız bir VLA olarak kullanıma sunuyor ve oldukça sağlam olduğu görülüyor.
Yeni Gemini Robotics On-Device modeli, hibrit versiyondan sadece biraz daha az doğru. Uzmanlara göre, birçok görev kutudan çıktığı gibi çalışacak. Robotlarla denemeler yapıldığında, yeni bir durumu şaşırtıcı derecede iyi anlayabildikleri gözlemlendi.
Ekip, bu modeli tam bir SDK (Yazılım Geliştirme Kiti) ile sunarak, geliştiricilerin Gemini destekli robotlara yeni görevler vermesini ve yeni ortamlar göstermesini umuyor. Bu, modelin varsayılan ayarlarıyla çalışmayan eylemleri ortaya çıkarabilir. SDK ile robotik araştırmacıları, yalnızca 50 ila 100 gösterimle yeni görevlere VLA'yı adapte edebilecekler.
Yapay zeka robotikte bir 'gösterim', AI araştırmasının diğer alanlarından biraz farklıdır. Gösterimler genellikle robotu tele-operasyon yoluyla çalıştırmayı içerir; yani makineyi manuel olarak kontrol ederek bir görevi tamamlamak, modeli o görevi otonom olarak yerine getirmesi için aslında ayarlar. Sentetik veriler Google'ın eğitiminin bir öğesi olsa da, gerçeğin yerini tutmuyor. En karmaşık, beceri gerektiren davranışlarda hala gerçek verilere ihtiyaç duyulduğu belirtiliyor. Ancak simülasyonla da oldukça fazla şey yapılabileceği ifade ediliyor.
Ancak bu son derece karmaşık davranışlar, cihaz üzerindeki VLA'nın yeteneklerinin ötesinde olabilir. Ayakkabı bağlamak (AI robotlar için geleneksel olarak zor bir görev) veya gömlek katlamak gibi basit eylemlerde sorun yaşamayacaktır. Ancak, bir robottan size sandviç yapmasını isteseydiniz, ekmeği doğru yere koymak için gereken çok adımlı akıl yürütme sürecini gerçekleştirmek için muhtemelen daha güçlü bir modele ihtiyacı olacaktır.
Ekip, Gemini Robotics On-Device modelinin, bulut bağlantısının kesintili veya hiç olmadığı ortamlar için ideal olduğunu düşünüyor. Robotun görsel verilerini yerel olarak işlemesi, örneğin bir sağlık hizmeti ortamında gizlilik açısından da daha iyidir.
Güvenli Robotlar İnşa Etmek
Güvenlik, yapay zeka sistemlerinde her zaman bir endişe kaynağıdır; bu tehlikeli bilgi sağlayan bir sohbet botu olsun veya Terminator'a dönüşen bir robot olsun. Üretken yapay zeka sohbet botlarının ve görüntü oluşturucuların çıktılarında yanıltıcı bilgiler ürettiğini hepimiz gördük ve Gemini Robotics'i destekleyen üretken sistemler de farklı değil - model her zaman doğru yapmaz, ancak modele soğuk, duygusuz metal kıskaçlarla fiziksel bir beden vermek sorunu biraz daha karmaşık hale getiriyor.
Robotların güvenli davranmasını sağlamak için Gemini Robotics çok katmanlı bir yaklaşım kullanır. Tam Gemini Robotics ile, neyin güvenli olduğunu akıl yürüten bir modele bağlanırsınız. Ardından seçenekler üreten bir VLA ile konuşur ve bu VLA da genellikle ne kadar kuvvetle hareket edebileceğiniz veya bu kolu ne kadar hızlı hareket ettirebileceğiniz gibi kritik güvenlik bileşenlerine sahip düşük seviyeli bir denetleyiciyi çağırır.
Önemli olarak, yeni cihaz üzerindeki model sadece bir VLA'dır, bu nedenle geliştiriciler güvenliği kendi başlarına inşa etmek zorunda kalacaklar. Google, Gemini ekibinin yaptıklarını kopyalamalarını önermektedir. Erken test programındaki geliştiricilerin, güvenlik katmanı içeren standart Gemini Live API'sine bağlanmaları önerilir. Ayrıca kritik güvenlik denetimleri için düşük seviyeli bir denetleyici uygulamaları da tavsiye edilir.
Gemini Robotics On-Device'ı test etmek isteyen herkesin Google'ın güvenilir test programına erişim için başvurması gerekmektedir. Google uzmanları, son üç yılda robotikte birçok çığır açıcı gelişme yaşandığını ve bunun sadece başlangıç olduğunu belirtiyorlar. Gemini Robotics'in mevcut sürümünün hala önceki bir Gemini sürümüne dayandığı ve Gemini'nin sonraki versiyonlarının sohbet botu işlevselliğinde büyük gelişmeler gösterdiği göz önüne alındığında, aynı şeyin robotlar için de geçerli olabileceği umuluyor.