Bilim insanları, yapay zeka (YZ) sistemlerinin yeteneklerini ölçmek için yeni bir yöntem geliştirdi. Bu yöntem, YZ'nin zorlu görevlerde insanlarla ne kadar hızlı rekabet edebildiğini veya onları geride bırakabildiğini anlamayı amaçlıyor.
YZ metin tahmininde ve bilgi tabanlı sorularda genellikle insanlardan daha iyi olsa da, uzaktan yönetici asistanlığı gibi daha kapsamlı projeleri yürütme konusunda henüz aynı başarıyı gösteremiyor.
YZ modellerindeki bu performans artışını nicelleştirmek için yapılan yeni bir çalışma, YZ'yi tamamlayabildiği görevlerin süresini insanlarla karşılaştırarak ölçmeyi önerdi. Araştırmacılar bulgularını henüz hakem değerlendirmesinden geçmemiş bir ön baskı platformunda paylaştılar.
Araştırmacılar, çalışmalarında YZ'nin yeteneklerini anlamak için tamamlayabildiği görevlerin uzunluğunu ölçmenin faydalı bir bakış açısı sunduğunu belirtiyor. Bunun nedeni olarak YZ ajanlarının tek adımlı görevleri çözmek için gereken beceri veya bilgiden ziyade, daha uzun eylem dizilerini bir araya getirmekte zorlanıyor gibi görünmesini gösterdiler.
Çalışmada, YZ modellerinin insanları dört dakikadan az süren görevleri neredeyse %100 başarı oranıyla tamamladığı görüldü. Ancak bu oran, dört saatten fazla süren görevlerde %10'a düştü. Eski YZ modelleri, daha uzun görevlerde en son sistemlerden daha kötü performans gösterdi.
Bu beklenen bir durumdu; çalışma, genel amaçlı YZ'nin %50 güvenilirlikle tamamlayabileceği görevlerin uzunluğunun son altı yıldır yaklaşık her yedi ayda bir iki katına çıktığını vurguladı.
Araştırmacılar, çalışmalarını yürütmek için çeşitli YZ modellerini kullandılar. Bu modellere, Wikipedia'da basit bir bilgi aramak gibi birkaç dakika süren kolay görevlerden, uzman insanların saatlerini alan karmaşık programlama işlerine (örneğin, belirli kod parçacıkları yazmak veya yazılımdaki ince bir hatayı düzeltmek) kadar değişen bir dizi görev verdiler.
Test araçları kullanarak, YZ ajanlarının makine öğrenimi, siber güvenlik ve yazılım mühendisliği gibi alanlardaki otonomi görevlerini ne kadar iyi yerine getirebildiğini değerlendirdiler. Araştırmacılar ayrıca, görevlerin 'dağınıklığını' da değerlendirdiler. Bazı görevlerin, gerçek zamanlı olarak birden fazla iş akışı arasında koordinasyon gerektirmesi gibi unsurlar içermesinin, görevi daha dağınık hale getirdiğini ve dolayısıyla gerçek dünya görevlerini daha iyi temsil ettiğini gözlemlediler.
Gerçek insanların görevleri ne kadar hızlı tamamlayabildiğini belirlemek için 'yazılım atomik eylemleri' adı verilen tek adımlı görevler geliştirdiler. Bunlar, 1 ila 30 saniye arasında değişen ve belirli personel tarafından belirlenen temel ölçütlere dayanıyordu.
Etkili bir şekilde, çalışma YZ'nin 'dikkat süresinin' hızla ilerlediğini buldu. Bu eğilimi dışa vurarak, araştırmacılar (eğer sonuçları gerçek dünya görevlerine genel olarak uygulanabilirse) YZ'nin 2032 yılına kadar bir aylık insan yazılım geliştirme işini otomatikleştirebileceğini öngördüler.
YZ'nin ilerleyen yeteneklerini ve bunun toplum üzerindeki potansiyel etkisini ve risklerini daha iyi anlamak için, bu çalışma yeni bir ölçüt oluşturabilir. Bilim insanlarına göre bu, 'sadece göreceli performansın değil, mutlak performansın anlamlı bir yorumuna' olanak tanıyacak şekilde gerçek dünya sonuçlarıyla ilişkilendirilebilir.
YZ Değerlendirmesi İçin Yeni Bir Sınır?
Potansiyel olarak yeni bir ölçüt, YZ sistemlerinin gerçek zekasını ve yeteneklerini daha iyi anlamamızı sağlayabilir.
Bir yapay zeka araştırmacısı, bu ölçütün YZ geliştirmesinin seyrini değiştirmesinin olası olmadığını ancak YZ sistemlerinin ideal olarak kullanılacağı belirli görev türlerindeki ilerlemenin hızını takip edeceğini belirtti. Aynı araştırmacı, YZ'yi bir insanın belirli bir görevi tamamlaması için gereken süreye göre ölçmenin, zeka ve genel yetenekler için ilginç bir vekil ölçüt olduğunu ekledi.
Bunun nedenlerini açıklarken şunları söyledi: 'Birincisi, 'zekâ' derken ne kastettiğimizi yakalayan tek bir ölçüt yok. İkincisi, sürüklenme veya hata olmaksızın uzun süreli bir görevi yerine getirme olasılığı giderek azalır. Üçüncüsü, YZ'yi kullanmayı umduğumuz türden görevlere; yani karmaşık insan problemlerini çözmeye karşı doğrudan bir ölçümdür. YZ yetenekleri hakkındaki tüm ilgili faktörleri veya nüansları yakalamasa da, kesinlikle faydalı bir veri noktasıdır.'
Başka bir YZ etik mühendisi de araştırmanın faydalı olduğu konusunda hemfikir.
Bu mühendis, YZ'leri görev uzunluğuna göre ölçmenin 'değerli ve sezgisel' olduğunu ve 'tek başına, yalıtılmış kısa problemlerdeki YZ performansını değerlendiren geleneksel testlere kıyasla, YZ'nin zaman içinde tutarlı, amaca yönelik davranışını sürdürmedeki yeterliliğini yakalayarak gerçek dünya karmaşıklığını doğrudan yansıttığını' söyledi.
Genel Amaçlı YZ Yaklaşıyor
Tartışmalı bir şekilde, yeni bir ölçüt metriğinin yanı sıra makalenin en büyük etkisi, YZ sistemlerinin ne kadar hızlı ilerlediğini ve uzun görevleri yerine getirme yeteneklerindeki artan eğilimi vurgulamasıdır. Bunu göz önünde bulundurarak, ikinci uzmana göre, çeşitli görevleri yerine getirebilecek genel amaçlı YZ ajanlarının ortaya çıkması yakındır.
Bu uzman, '2026 yılına kadar, YZ'nin giderek daha genel hale geldiğini göreceğiz; kısa, dar tanımlı görevler yerine bir gün veya haftanın tamamı boyunca çeşitli görevleri yerine getirebileceğini' söyledi.
İşletmeler için, YZ'nin profesyonel iş yüklerinin önemli bir kısmını üstlenebileceğini belirtti. Bu durum sadece maliyetleri düşürmek ve verimliliği artırmakla kalmayacak, aynı zamanda insanların daha yaratıcı, stratejik ve kişilerarası görevlere odaklanmasını sağlayacaktır.
Tüketiciler içinse, YZ'nin basit bir asistandan, seyahat planlama, sağlık takibi veya finansal portföyleri yönetme gibi karmaşık yaşam görevlerini günler veya haftalar boyunca minimum gözetimle yerine getirebilen güvenilir bir kişisel yöneticiye dönüşeceğini ekledi.
Sonuç olarak, YZ'lerin geniş bir yelpazedeki uzun görevleri yerine getirme yeteneği, önümüzdeki birkaç yıl içinde toplumun YZ ile nasıl etkileşim kuracağı ve onu nasıl kullanacağı üzerinde önemli bir etkiye sahip olabilir.
'Verimlilik nedenleriyle niş uygulamalarda uzmanlaşmış YZ araçları devam etse de, çeşitli görevler arasında esnek bir şekilde geçiş yapabilen güçlü genel amaçlı YZ ajanları belirgin bir şekilde ortaya çıkacaktır,' diye sözlerini tamamladı. 'Bu sistemler, uzmanlaşmış becerileri daha geniş, amaca yönelik iş akışlarına entegre ederek günlük yaşamı ve profesyonel uygulamaları temelden yeniden şekillendirecektir.'