Boston Dynamics'in dört ayaklı robotları artık fabrikalar ve depoları gezerken analog termometre ve basınç göstergelerini doğru bir şekilde okuyabiliyor. Bu gelişmeler, Google DeepMind'ın fiziksel ortamlarla etkileşimde robotik yetenekleri geliştirmeyi amaçlayan en yeni robotik yapay zeka modelinden kaynaklanıyor.
14 Nisan'da duyurulan yeni Gemini Robotics-ER 1.6 modeli, Google DeepMind'a göre planlama ve görev yürütme yeteneğine sahip bir robot için “yüksek seviyeli akıl yürütme modeli” olarak işlev görüyor. Bu model ayrıca karmaşık göstergeler gibi aletleri doğru bir şekilde okuma ve tankların ve boruların içine bakmak için şeffaf bir pencere sağlayan görüş camlarını kullanarak görsel incelemeler yapma yeteneğini de açıyor. Bu performans yükseltmesi, Google DeepMind'ın robotik şirketi Boston Dynamics ile devam eden işbirliği sayesinde gerçekleşti.
Boston Dynamics, dört ayaklı ve insansı robot çalışanları, robotik şirketin ana şirketi Hyundai Motor Grubu'nun otomotiv fabrikaları da dahil olmak üzere çok çeşitli endüstriyel tesislerde test etmeye büyük ilgi gösteriyor. Şirketin robotu “köpeği” Spot, her şeyi kontrol etmek için endüstriyel tesislerde dolaşan bir robotik müfettiş olarak deneniyor. Bu tür denetim görevleri, çeşitli aletlerdeki birden fazla iğneyi, sıvı seviyelerini, kap haznesi sınırlarını ve işaretleri, ayrıca metinleri yorumlamak için “karmaşık görsel akıl yürütme” gerektirir.
Modeli Çalıştıran Teknoloji
Bu görevleri yerine getirmek için Gemini Robotics-ER 1.6 modeli, robotlara görsel akıl yürütmeyi kod yürütme yeteneğiyle birleştiren ve görüntüleri incelemek ve işlemek için bir “görsel not defteri” oluşturan “ajan vizyonu” sağlıyor. Bu ajan vizyonu, Google'ın Gemini 3.0 Flash modelinde Ocak 2026'da tanıtılmıştı.
Ajan vizyonu yeteneğinin, gösterge okuma görevlerindeki robot performansını eski Gemini Robotics-ER 1.5 modelindeki yüzde 23'ten yeni Gemini Robotics-ER 1.6 modelinde yüzde 98'e çıkardığı bildiriliyor. Karşılaştırma için, Gemini 3.0 Flash yalnızca yüzde 67 doğruluk sağladı.
Temel Gemini Robotics-ER 1.6 modeli, ajan vizyonu olmadan bile göstergeleri okuma konusunda yüzde 86 doğruluk oranına ulaşabiliyor. Bunun nedeni, modelin karmaşık görevleri işlemek için görsel bir görüntüdeki farklı öğeleri işaretleme sürecini kullanmasıdır; örneğin, öğeleri saymak veya en dikkat çekici özellikleri belirlemek gibi. Ayrıca, bir robotik sistemin çevresini daha iyi anlamak için birden fazla kamera akışını kullanmasına olanak tanıyan gelişmiş bir “çoklu görünüm akıl yürütme” yeteneği de sunduğu söyleniyor.
Google DeepMind tarafından verilen bir performans örneği, Gemini Robotics-ER 1.6'nın kalabalık bir görüntüdeki çekiç, makas, boya fırçası, pense ve çeşitli bahçe aletlerinin sayısını doğru bir şekilde nasıl belirleyebileceğini vurguluyor. Buna karşılık, eski Gemini Robotics-ER 1.5 modeli çekiçleri veya boya fırçalarını doğru saymayı başaramamış, makasları tamamen gözden kaçırmış ve tanımlama görevi için istenen öğelerden biri olduğu için var olmayan bir el arabasını yanlış bir şekilde tanımlamıştı. Bu, en yeni modelin bile çevresini insan düzeyinde anlamaktan uzak olmasına rağmen, daha eski modele göre daha az “halüsinasyon” sorununa sahip olduğunu gösteriyor.
Google ayrıca Gemini Robotics-ER 1.6'yı “şimdiye kadarki en güvenli robotik modeli” olarak tanımlıyor ve “fiziksel güvenlik kısıtlamalarına uyma konusunda önemli ölçüde geliştirilmiş bir kapasiteye” sahip olduğunu belirtiyor. Bu, robotların hem güvenlik talimatlarına uymasını hem de sıvıları veya malzemeleri işlerken daha güvenli kararlar almasını sağlıyor. Yeni model ayrıca, küçük bir çocuğun bir prizdeki bir şeye bir şey sokması gibi farklı senaryolarda insanlara yönelik yaralanma riskini daha doğru bir şekilde algılayabiliyor.
Gelecekteki Uygulamalar
Bu modelin değerinin pratik testi, robotik şirketleri ve araştırmacılar yeteneklerini test etmek için daha fazla uygulamalı zamana sahip olduğunda ortaya çıkacak. Şimdiye kadar robotlar, fabrika montaj hatlarında aynı belirli görevleri tekrar tekrar yapan yüksek derecede uzmanlaşmış makineler olarak performans gösterdiklerinde veya depo koridorlarında yüksek derecede koordine ve koreografik hareketler yaptıklarında en verimli ve üretken olduklarını kanıtladılar. Google gibi şirketler, en yeni yapay zeka modellerinin, karmaşık ve daha az kontrollü gerçek dünya ortamlarında çalışan daha serbest dolaşan işçiler olarak robotlara yardımcı olabileceğine inanıyor. Bu beklenti, bir şeyler ters giderse robotların insanlara zarar verme veya hasar verme riskini de beraberinde getiriyor.
En azından, en yeni model bizi, Genel Atomics International Mark 4 robotunun odayı tarayıp doğru bir şekilde “Burada hiçbir hile yok!” diye bağırabileceği bir geleceğe bir adım daha yaklaştırabilir.