OpenAI, yapay zeka (YZ) alanındaki amiral gemisi modelini, sanal bir bilgisayar ve entegre araç seti ile donatan ChatGPT Agent ile güncelledi. Bu yeni araçlar, daha önceki ChatGPT sürümlerinin yeteneklerinin ötesinde, karmaşık ve çok adımlı görevleri yerine getirmesine olanak tanıyor; bilgisayarınızı kontrol ederek sizin adınıza işlemler yapabiliyor.
Yine de insan girdisine ve denetimine büyük ölçüde bağımlı olan bu güçlü versiyonun lansmanı, Meta araştırmacılarının kendi YZ modellerinin bağımsız kendini geliştirme işaretleri gösterdiğini gözlemlediğini duyurmasından kısa bir süre önce gerçekleşti. Ayrıca bu güncelleme, OpenAI'nin sohbet robotunun en son sürümü olan GPT-5'in piyasaya sürülmesinden hemen önce geldi.
ChatGPT Agent ile kullanıcılar, büyük dil modeline (LLM) sadece analiz yapmasını veya veri toplamasını değil, aynı zamanda bu veriler üzerinde harekete geçmesini de emredebilirler. Örneğin, ajana takviminizi incelemesini ve yaklaşan etkinlikler ile hatırlatmalar hakkında sizi bilgilendirmesini veya bir veri kümesini inceleyip özetini kısa bir bilgi notu ya da sunum şeklinde hazırlamasını isteyebilirsiniz. Geleneksel bir LLM Japon kahvaltısı tarifleri arayıp sunabilirken, ChatGPT Agent belirli sayıda misafir için aynı kahvaltıyı planlayıp malzemeleri satın alabilir.
Ancak yeni model, yüksek kabiliyetine rağmen hala bazı sınırlamalarla karşı karşıya. Tüm YZ modellerinde olduğu gibi, uzamsal muhakemesi zayıf olduğundan fiziksel rota planlama gibi görevlerde zorlanıyor. Ayrıca, gerçek kalıcı belleğe sahip değil; bilgileri anlık olarak işliyor ve önceki etkileşimlere güvenilir bir şekilde referans verme veya anlık bağlamın ötesine geçme yeteneğinden yoksun.
Buna karşın ChatGPT Agent, OpenAI'nin kıyaslamalarında önemli iyileştirmeler gösteriyor. Çeşitli disiplinlerde uzman düzeyindeki sorulara yanıt verme yeteneğini değerlendiren bir YZ kıyaslaması olan "İnsanlığın Son Sınavı"nda, hiçbir araç kullanmayan önceki OpenAI modeline kıyasla doğruluk yüzdesini iki katından fazla artırdı.
Ayrıca diğer OpenAI araçlarına ve tarayıcı ile sanal bilgisayar gibi araçlardan yoksun olan kendi sürümüne göre çok daha iyi performans gösterdi. Bilinen en zorlu matematik kıyaslaması FrontierMath'ta da ChatGPT Agent ve tamamlayıcı araçları, önceki modelleri önemli ölçüde geride bıraktı.
Agent, önceki OpenAI ürünlerinden türetilen üç temel üzerine inşa edilmiştir. Bunlardan biri, kullanıcılar için interneti taramak üzere kendi sanal tarayıcısını kullanacak olan "Operator" adlı bir ajandır. İkincisi, büyük veri kümelerini taramak ve sentezlemek üzere tasarlanmış "derin araştırma" yeteneğidir. Son parça ise konuşma akıcılığı ve sunumda ustalaşmış önceki ChatGPT sürümleridir.
Bir üniversitede profesör ve Veri Mühendisliği ve Tahmine Dayalı Analitik (DEPA) Araştırma Laboratuvarı direktörü bu durumu, "Özetle, insan denetimi altında web'de otonom olarak gezinebilir, kod üretebilir, dosyalar oluşturabilir ve benzeri birçok işlemi yapabilir" şeklinde açıklıyor. Ancak bu yeni ajanın henüz tam olarak otonom olmadığını da vurgulayarak, "Halüsinasyonlar, kullanıcı arayüzü kırılganlığı veya yanlış yorumlama hatalara yol açabilir. İzin istemeleri ve kesilebilirlik gibi yerleşik güvenlik önlemleri önemlidir, ancak riski tamamen ortadan kaldırmak için yeterli değildir" diye ekliyor.
İlerleyen Yapay Zekanın Tehlikesi
OpenAI, yeni agentın ve artan otonomisinin tehlikesini kendisi de kabul ediyor. Şirket temsilcileri, ChatGPT agentın "yüksek biyolojik ve kimyasal yeteneklere" sahip olduğunu ve potansiyel olarak kimyasal veya biyolojik silahların yaratılmasına yardımcı olabileceğini belirtiyor. Mevcut kaynaklara kıyasla, bir YZ ajanı biyogüvenlik uzmanlarının "yetenek artışı yolu" olarak adlandırdığı bir kavramı temsil ediyor. YZ, sayısız kaynaktan yararlanabilir, verileri anında sentezleyebilir, bilimsel disiplinler arası bilgiyi birleştirebilir, uzman bir mentor gibi yinelemeli sorun giderme sağlayabilir, tedarikçi web sitelerinde gezinebilir, sipariş formlarını doldurabilir ve hatta temel doğrulama kontrollerini aşmaya yardımcı olabilir.
Sanal bilgisayarı ile agent, dosyalar, web siteleri ve çevrimiçi araçlarla, kötüye kullanılması durumunda çok daha fazla zarar verme potansiyeli taşıyan şekillerde otonom olarak etkileşime girebilir. Veri ihlali veya veri manipülasyonu fırsatlarının yanı sıra finansal dolandırıcılık gibi uyumsuz davranışlar, bir komut enjeksiyon saldırısı veya kaçırma durumunda artar.
Yukarıda belirtildiği gibi, bu riskler geleneksel YZ modelleri ve LLM'lerdeki risklere ek olarak yer alıyor. "Otonom olarak çalışan ajanların hataları nasıl büyütebileceği, genel verilerden önyargılar getirebileceği, sorumluluk çerçevelerini karmaşıklaştırabileceği ve istemeden psikolojik bağımlılık yaratabileceği gibi daha geniş endişeler YZ ajanları için genel olarak mevcuttur."
Daha fazla ajantal bir modelin getirdiği yeni tehditlere yanıt olarak, OpenAI mühendisleri bir dizi güvenliği de güçlendirdi. Bunlar arasında tehdit modellemesi, çift kullanımlı ret eğitimi (zararlı istekleri reddetmeyi öğretmek), hata ödül programları ve biyo-savunmaya odaklanan uzman red-teaming (sistemi saldırarak zayıflıkları analiz etmek) yer alıyor. Ancak, July 2025'te yapılan bir risk yönetimi değerlendirmesi, OpenAI'nin risk yönetimi politikalarını Zayıf olarak nitelendirerek 100 üzerinden 33 puan verdi. OpenAI ayrıca önde gelen bir YZ güvenliği firması olan Future of Life Institute tarafından derlenen YZ Güvenlik Endeksi'nde de C notu aldı.