OpenAI kısa süre önce yaptığı duyuruyla, en yetenekli 'simüle akıl yürütme' modellerinin yeni bir sürümü olan o3-pro'nun artık ChatGPT Pro ve Team kullanıcıları tarafından kullanılabildiğini ve model seçicisinde o1-pro'nun yerini aldığını belirtti. Şirket ayrıca API kullanıcıları için o3-pro fiyatlarını o1-pro'ya kıyasla %87, standart o3 fiyatlarını ise %80 oranında düşürdü. 'Akıl yürütme' bazı analitik görevler için faydalı olsa da, yeni çalışmalar bu kelimenin yapay zeka sistemleri için ne anlama geldiği konusunda temel sorular ortaya koyuyor.
Birazdan 'akıl yürütme' konusuna daha derinlemesine bakacağız, ancak önce yeniliklere göz atalım. OpenAI, standart o3 modelini daha önce piyasaya sürmüş olsa da, o3-pro modeli özellikle matematik, bilim ve kodlamaya odaklanıyor. Web araması, dosya analizi, görsel analizi ve Python kodu çalıştırma gibi yeni yetenekler eklendi. Bu araç entegrasyonları yanıt sürelerini yavaşlattığı için, OpenAI modeli hızdan çok doğruluğun önemli olduğu karmaşık problemler için öneriyor. Ancak bu modeller, 'akıl yürütmeyen' yapay zeka modellerine göre daha az 'halüsinasyon' (yanlış veya uydurulmuş bilgi üretme) görmüyor; bu da doğru sonuç ararken dikkat edilmesi gereken önemli bir nokta.
Raporlanan performans iyileştirmelerinin yanı sıra, OpenAI geliştiriciler için ciddi bir fiyat indirimi duyurdu. o3-pro'nun API'daki maliyeti, milyon giriş tokenı başına 20 dolar ve milyon çıkış tokenı başına 80 dolar olarak belirlendi. Bu, o1-pro'dan %87 daha ucuz demek. Şirket, standart o3 modelinin fiyatını da %80 oranında düşürdü. Bu indirimler, 'akıl yürütme' modellerinin standart modellere kıyasla yüksek maliyetiyle ilgili temel endişelerden birini gideriyor.
o3-pro Neden Kullanılmalı?
GPT-4o gibi hız, geniş bilgi ve kullanıcıları memnun etmeye öncelik veren genel amaçlı modellerden farklı olarak, o3-pro, 'zincirleme düşünce' adı verilen bir simüle akıl yürütme sürecini kullanır. Bu süreç, karmaşık sorunları çözmek için daha fazla çıktı tokenı ayırarak derinlemesine analiz gerektiren teknik zorluklarda genellikle daha iyi performans göstermesini sağlar. Ancak yine de mükemmel değildir.
'Akıl yürütme' yeteneğini ölçmek zorlu bir iştir, çünkü kıyaslamalar (benchmark'lar) veri kirliliği veya örnek seçimi yoluyla kolayca manipüle edilebilir. Ancak OpenAI, o3-pro'nun test kullanıcıları arasında popüler olduğunu rapor ediyor. OpenAI, yayın notlarında uzman değerlendirmelerinde incelemecilerin test edilen her kategoride, özellikle bilim, eğitim, programlama, iş ve yazma yardımı gibi temel alanlarda o3-pro'yu o3'e göre sürekli olarak tercih ettiklerini belirtiyor. İncelemeciler ayrıca o3-pro'yu netlik, kapsamlılık, talimat takibi ve doğruluk açısından sürekli olarak daha yüksek derecelendirdiler.
OpenAI, o3-pro'nun raporlanan performans iyileştirmelerini gösteren kıyaslama sonuçlarını paylaştı. 2024 AIME matematik yarışmasında o3-pro %93 başarı oranı elde ederken, o3 (orta) %90 ve o1-pro %86 oranında kaldı. GPQA Diamond'dan alınan PhD seviyesi bilim sorularında model %84'e ulaştı; bu oran o3 (orta) için %81 ve o1-pro için %79 idi. Codeforces tarafından ölçülen programlama görevlerinde ise o3-pro, 2748 Elo puanı alarak 2517 puana sahip o3 (orta) ve 1707 puana sahip o1-pro'yu geride bıraktı.
Akıl Yürütme Simüle Edildiğinde
Yapay zeka modellerindeki 'akıl yürütme' gibi insansı iddialar, teknik olmayan kişilerin kafasını karıştırabilir. Bu durumda, 'halüsinasyon' gibi ödünç alınan insansı terimlerde olduğu gibi, 'akıl yürütme' de yapay zeka endüstrisinde temelde 'bir problemi çözmek için daha fazla hesaplama zamanı ayırmak' anlamına gelen teknik bir terim haline gelmiştir. Bu, yapay zeka modellerinin sistematik olarak mantık uyguladığı veya gerçekten yeni problemlere çözüm üretme yeteneğine sahip olduğu anlamına gelmez. Bu yüzden biz bu modelleri 'simüle akıl yürütme' (SR) olarak tanımlamaya devam ediyoruz. İnsana benzer bir akıl yürütme sürecini simüle ediyorlar, ancak yeni zorluklarla karşılaştığında aynı sonuçları üretmeyebilirler.
o3-pro gibi simüle akıl yürütme modelleri, analitik görevlerde genel amaçlı modellere göre genellikle ölçülebilir iyileşmeler gösterse de, araştırmalar bu kazanımların sinir ağlarını daha küçük, daha hedefli adımlarla dolaşmak için daha fazla hesaplama kaynağı ayırmaktan kaynaklandığını öne sürüyor. Yanıt, araştırmacıların 'çıkarım zamanı hesaplama ölçeklendirmesi' olarak adlandırdığı şeyde yatıyor. Bu modeller 'zincirleme düşünce' teknikleri kullandığında, sinir ağı verilerindeki kavramlar arasındaki bağlantıları keşfetmek için daha fazla hesaplama kaynağı adarlar.
'Akıl yürütme' süreci sırasında, yapay zeka modeli adeta 'yüksek sesle düşünür' gibi bir metin akışı üretir. Bu akışta, kullanıcılar tarafından görülebilen bir şekilde, adımları takip ederek problemleri çözer. Geleneksel modeller doğrudan bir cevaba atlarken, bu modeller adımları gösterir. Her ara 'akıl yürütme' çıktısı (token olarak üretilir), bir sonraki token tahmini için bağlam görevi görür. Bu, modelin çıktılarını doğruluğu artıracak ve matematiksel hataları (ancak mutlaka olgusal hataları değil) azaltacak şekilde kısıtlar.
Ancak temelde, tüm Transformer tabanlı yapay zeka modelleri örüntü eşleştirme harikalarıdır. Araştırmacıların onları oluşturmak için kullandığı eğitim verilerindeki örneklerden akıl yürütme örüntülerini ödünç alırlar. Matematik Olimpiyatı problemleri üzerine yapılan son çalışmalar, SYA modellerinin hala sofistike örüntü eşleştirme makineleri olarak işlev gördüğünü ortaya koyuyor. Kendi hatalarını yakalayamıyorlar veya başarısız yaklaşımlarını düzeltemiyorlar, genellikle hataların herhangi bir 'farkındalığı' olmaksızın kendinden emin bir şekilde yanlış çözümler üretiyorlar.
Bazı araştırmacılar, kontrollü bulmaca ortamlarında SYA modellerini test ederken benzer sınırlamalar buldu. Hanoi Kulesi gibi bulmacaları çözmek için açık algoritmalar sağlandığında bile, modeller bunları doğru bir şekilde yürütemedi. Bu, süreçlerinin mantıksal akıl yürütmeden ziyade eğitim verilerindeki örüntü eşleştirmeye dayandığını gösteriyor. Problem karmaşıklığı arttıkça, bu modeller, yeterli hesaplama kaynağına sahip olmalarına rağmen akıl yürütme çabalarını azaltan bir 'sezgisel olmayan ölçeklenme sınırı' gösterdi. Bu bulgu, modellerin temel mantıksal hatalar yaptığı ve çelişkili sonuçlar ürettiğinde bile hatalı yaklaşımlara devam ettiği önceki çalışmalarla da uyumlu.
Ancak burada ciddi bir nüans var. Örüntü eşleştirme ve akıl yürütme birbirini dışlayan şeyler olmak zorunda değil. İnsan akıl yürütmesini temel düzeyde mekanik olarak tanımlamak zor olduğundan, sofistike örüntü eşleştirmenin 'gerçek' akıl yürütmeden kategorik olarak farklı olup olmadığını veya sadece benzer temel süreçlerin farklı bir uygulaması olup olmadığını kesin olarak söyleyemeyiz. Hanoi Kulesi başarısızlıkları mevcut sınırlamaların ikna edici bir kanıtı, ancak akıl yürütmenin gerçekte ne olduğu konusundaki daha derin felsefi soruyu çözmüyorlar.
Ve bu sınırlamaları anlamak, SYA modellerinin gerçek faydasını azaltmaz. Kod hata ayıklama, matematik problemleri çözme veya yapılandırılmış verileri analiz etme gibi birçok gerçek dünya uygulaması için, devasa eğitim setlerinden örüntü eşleştirme yeterince kullanışlıdır. Ancak endüstrinin yapay genel zeka (AGI) ve hatta süper zekaya doğru giden yolculuğunu düşündüğümüzde, şu ana kadarki kanıtlar, mevcut yaklaşımları basitçe ölçeklendirmenin veya sadece daha fazla 'düşünme' tokenı eklemenin istatistiksel örüntü tanıma ile 'genel algoritmik akıl yürütme' diyebileceğimiz şey arasındaki boşluğu kapatamayacağını gösteriyor.
Ancak teknoloji hızla gelişiyor ve bu eksiklikleri gidermek için yeni yaklaşımlar şimdiden geliştiriliyor. Örneğin, 'kendiliğinden tutarlılık örneklemesi' (self-consistency sampling) modellerin birden fazla çözüm yolu üretip tutarlılığı kontrol etmesini sağlarken, 'kendini eleştirme istemleri' (self-critique prompts) modellerin kendi çıktılarını hatalara karşı değerlendirmesini hedefler. 'Araç ekleme' (tool augmentation), o3-pro ve diğer ChatGPT modelleri tarafından zaten kullanılan başka bir faydalı yöndür. Büyük dil modellerini hesap makinelerine, sembolik matematik motorlarına veya resmi doğrulama sistemlerine bağlayarak araştırmacılar modellerin bazı hesaplama zayıflıklarını telafi edebilirler. Bu yöntemler umut vadediyor, ancak mevcut sistemlerin temelindeki örüntü eşleştirme doğasını henüz tam olarak ele almıyorlar.
Şimdilik, o3-pro, OpenAI'ın daha önce sunduğunun daha iyi ve daha ucuz bir versiyonu. Tanıdık problemleri çözmede iyi, gerçekten yeni olanlarda zorlanıyor ve hala kendinden emin hatalar yapabiliyor. Sınırlamalarını anlarsanız, güçlü bir araç olabilir, ancak sonuçları her zaman iki kez kontrol edin.