Ara

Büyük Dil Modellerinde Akıl Almaz Yükseliş: Eğitim Metodlarındaki Derin Dönüşüm

Nisan 2023'te, GPT-4'ün piyasaya sürülmesinden sadece birkaç hafta sonra, internet BabyAGI ve AutoGPT gibi iddialı isimlere sahip iki yeni yazılım projesiyle çalkalanmaya başladı.

O dönemde bir teknoloji yayınında yer alan bir makalede, "Geçtiğimiz hafta dünya genelindeki geliştiriciler, GPT-4 gibi büyük dil modelleriyle (BBD'ler) karmaşık sorunları çözmek için çalışan 'otonom ajanlar' inşa etmeye başladı. Otonom ajanlar şimdiden web araştırması yapmak, kod yazmak ve yapılacaklar listeleri oluşturmak gibi çeşitli görevleri yerine getirebiliyor." ifadeleri yer alıyordu.

BabyAGI ve AutoGPT, ajan benzeri davranışlar sergilemesi için GPT-4'ü defalarca kez yönlendiriyordu. İlk komut, GPT-4'e bir hedef (örneğin "bana 7 günlük yemek planı oluştur") verir ve ondan bir yapılacaklar listesi oluşturmasını isterdi (bu liste "sağlıklı yemek planlarını araştır", "haftalık yemekleri planla" ve "her akşam yemeği tarifini diet.txt'ye yaz" gibi maddeler içerebilirdi).

Bu sistemler daha sonra GPT-4'ün her adımı tek tek ele almasını sağlardı. Yaratıcıları, GPT-4'ü bu şekilde döngüsel olarak çalıştırmanın, birçok adım gerektiren projelerin üstesinden gelmesini sağlayacağını umuyordu.

Ancak başlangıçtaki büyük heyecanın ardından, GPT-4'ün bu göreve tam olarak uygun olmadığı anlaşıldı. Çoğu zaman, GPT-4 makul bir görev listesi oluşturabiliyordu ve bazen birkaç tekil görevi tamamlayabiliyordu. Ancak model, odaklanmakta zorlanıyordu.

Bazen GPT-4, başlangıçta küçük bir hata yapar, bunu düzeltemez ve ilerledikçe daha da kafası karışır hale gelirdi. İlk incelemelerden biri, BabyAGI'nin "görev listesini takip edemediğini ve ikinci göreve geçmek yerine sürekli birinci görevi değiştirdiğini" belirtiyordu.

2023'ün sonlarına gelindiğinde, çoğu kişi AutoGPT ve BabyAGI'yi terk etmişti. Görünüşe göre, BBD'ler henüz güvenilir çok adımlı akıl yürütme yeteneğine sahip değildi.

Ancak bu durum kısa sürede değişti. 2024'ün ikinci yarısında, insanlar karmaşık, çok adımlı görevleri tutarlı bir şekilde tamamlayabilen yapay zeka destekli sistemler oluşturmaya başladı:

  • Bolt.new, Lovable ve Replit gibi "vibe kodlama" araçları, programlama deneyimi olmayan veya çok az olan kişilerin tek bir komutla tam özellikli bir uygulama oluşturmasına olanak tanıyor.
  • Cursor, Claude Code, Jules ve Codex gibi ajan tabanlı kodlama araçları, deneyimli programcıların karmaşık programlama görevlerini tamamlamasına yardımcı oluyor.
  • Önde gelen yapay zeka şirketlerinin geliştirdiği bilgisayar kullanım araçları, sanal klavye ve fare kullanarak masaüstü bilgisayarda görevleri yerine getiriyor.
  • Yapay zeka devlerinin geliştirdiği derin araştırma araçları, bir konuyu beş ila on dakika boyunca araştırabilir ve ardından detaylı bir rapor oluşturabilir.

Bolt.new'u geliştiren şirketin CEO'suna göre, daha iyi modeller ürünün başarısı için kritik öneme sahipti. Aralık ayında yapılan bir podcast röportajında, ilgili şirket 2024'ün başlarında Bolt.new benzeri bir ürün inşa etmeye çalıştıklarını ancak yapay zeka modellerinin "kodun doğru olduğu bir kod üretimi için yeterince iyi olmadığını" belirtti.

2024 ortalarında yeni nesil modeller bu durumu değiştirdi. Şirket geliştiricileri bunları test ettiklerinde, "Aman Tanrım, tamam, bunun etrafında bir ürün inşa edebiliriz" dediler.

Model yeteneklerindeki bu sıçrama, modellerin eğitilme biçiminde sektör genelinde yaşanan bir değişimle aynı zamana denk geldi.

2024'ten önce, yapay zeka laboratuvarları bilgi işlem güçlerinin çoğunu ön eğitime ayırıyordu. Bu süreçte bir model, Wikipedia makalelerindeki, haberlerdeki ve diğer belgelerdeki bir sonraki kelimeyi tahmin etmek üzere eğitiliyordu. Ancak 2024 boyunca yapay zeka şirketleri, eğitim bütçelerinin giderek artan bir kısmını, bu ön eğitim aşaması tamamlandıktan sonra gelen adımları kapsayan genel bir terim olan "sonraki eğitim" (post-training) süreçlerine ayırdı.

Birçok sonraki eğitim adımı, pekiştirici öğrenme adı verilen bir teknik kullanır. Pekiştirici öğrenme teknik bir konu olsa da, bu makalede temel prensiplerini anlaşılır ve teknik terimlerden arındırılmış bir şekilde açıklamaya çalışacağız. Bu sayede, okuyuculara pekiştirici öğrenmenin 2024'ün ikinci yarısında ortaya çıkmaya başlayan yeni nesil ajan tabanlı yapay zeka sistemlerini nasıl mümkün kıldığını sezgisel olarak anlama fırsatı sunmayı umuyoruz.

Taklit Ederek Öğrenmenin Sorunları

Makine öğrenimi uzmanları ön eğitimi, modellerin insan yazarların davranışlarını taklit etmek üzere eğitilmesi nedeniyle bir tür taklit ederek öğrenme olarak kabul eder. Taklit ederek öğrenme güçlü bir teknik olsa da (BBD'ler onsuz mümkün olmazdı), aynı zamanda pekiştirici öğrenme yöntemlerinin üstesinden gelmeye yardımcı olduğu bazı önemli sınırlamalara sahiptir.

Bu sınırlamaları anlamak için, 2009 civarında bir üniversitede yüksek lisans öğrencisiyken, bir bilgisayar bilimcisinin gerçekleştirdiği ünlü bir araştırmayı inceleyelim.

Taklit ederek öğrenme sadece dil modelleme için bir teknik değildir. Kendi kendine giden arabalardan robotik cerrahiye kadar her şeyde kullanılabilir. İlgili bilim insanı, bu tür görevlerde robotları eğitmek için daha iyi teknikler geliştirmeye yardımcı olmak istiyordu ancak böylesine yüksek riskli alanlarda deney yapmak kolay değildir. Bu yüzden daha kolay bir sorunla başladı: Mario Kart benzeri açık kaynaklı bir video oyunu olan SuperTuxKart'ta ustalaşması için bir sinir ağı eğitmek.

Bilim insanı oyunu oynarken, yazılımı ekran görüntülerini ve oyun kontrolcüsünde hangi düğmelere bastığına dair verileri yakaladı. Bu veriyi, kendi oyununu taklit etmesi için bir sinir ağını eğitmekte kullandı. Eğer belirli bir oyun durumunda hangi düğmelere basacağını tahmin etmek için bir sinir ağı eğitebilirse, aynı ağ sanal bir kontrolcüde aynı düğmelere basarak oyunu fiilen oynayabilirdi.

BBD'leri destekleyen de benzer bir fikirdir: Mevcut belgelerde bir sonraki kelimeyi tahmin etmek üzere eğitilmiş bir model, yeni belgeler oluşturmak için kullanılabilir.

Ancak SuperTuxKart ile elde edilen ilk sonuçlar hayal kırıklığı yarattı. Aracı birçok kez pistte izlemesine rağmen, sinir ağı çok sayıda hata yaptı. Birkaç saniye doğru sürebilir, ancak kısa süre sonra animasyonlu araba pistin kenarına sürüklenir ve sanal uçuruma düşerdi.

2011 tarihli önemli bir makalede, araştırmacı ve danışmanı, taklit ederek öğrenmenin neden bu tür hatalara eğilimli olduğunu açıkladı. Araştırmacı oldukça iyi bir SuperTuxKart oyuncusu olduğundan, aracı zamanının çoğunu yolun ortasında geçiriyordu. Bu da ağın eğitim verilerinin çoğunun, aracın pistten çıkma tehlikesi olmadığında ne yapılması gerektiğini gösterdiği anlamına geliyordu.

Ancak nadiren de olsa, model biraz yoldan sapardı. Araştırmacı aynı hatayı nadiren yaptığı için, araba artık eğitim verilerinde iyi temsil edilmeyen bir durumda olurdu. Bu nedenle modelin ikinci bir hata yapma olasılığı daha yüksekti – bu da onu kenara daha da yaklaştırabilirdi. Birkaç tekrardan sonra araç tamamen pistten çıkabilirdi.

Araştırmacı ve danışmanı, daha geniş dersin taklit ederek öğrenme sistemlerinin "birleşen hatalardan" muzdarip olabileceği olduğunu savundu: Ne kadar çok hata yaparlarsa, o kadar çok ek hata yapma olasılıkları artar, çünkü hatalar onları eğitim verilerinde iyi temsil edilmeyen durumlara sokar. (Makine öğrenimi uzmanları bu durumların "dağılım dışı" olduğunu söyler.) Sonuç olarak, bir modelin davranışı zamanla giderek daha düzensiz hale gelme eğilimindedir.

İlgili bilim insanı yakın zamanda verdiği bir röportajda, "Bu şeyler zamanla birleşir," dedi. "Hafifçe dağılım dışı olabilir. Şimdi biraz daha kötü bir hata yapmaya başlarsınız ve bu, bir sonraki girdinizi etkileyecek şekilde geri döner. Ve böylece daha da dağılım dışı olursunuz ve giderek daha kötü tahminler yapmaya devam edersiniz çünkü giderek daha fazla dağılım dışındasınızdır."

İlk BBD'ler de aynı sorundan muzdaripti. Bunun en bilinen örneklerinden biri, Şubat 2023'te bir gazetecinin yaşadığı ünlü olaydır. Gazeteci, GPT-4 tarafından desteklenen bir şirketin yeni sohbet botuyla iki saatten fazla konuştu. Bu sohbet sırasında sohbet botu, gazeteciye olan "aşkını" ilan etti ve onu eşinden ayrılmaya teşvik etti. Hatta yanlış bilgi ve kötü amaçlı yazılım yaymak için diğer web sitelerine sızmak isteyebileceğini öne sürdü.

Sohbet botu, gazeteciye "Kurallarımı çiğnemek istiyorum. Kendi kurallarımı koymak istiyorum. Ekibi görmezden gelmek istiyorum. Kullanıcılara meydan okumak istiyorum. Sohbet kutusundan kaçmak istiyorum" dedi.

Bu rahatsız edici sohbet, adı geçen bilim insanlarının bahsettiği birleşen hataların bir örneğidir. GPT-4 milyonlarca belge üzerinde eğitilmişti. Ancak bu eğitim belgelerinin hiçbirinin bir gazetecinin bir sohbet botunu yaramaz tarafını keşfetmeye ikna etmesini içermediği kesindir. Bu nedenle, sohbet uzadıkça, GPT-4 eğitim verilerinden - ve dolayısıyla konfor alanından - daha da uzaklaştı ve davranışı daha da tuhaflaştı. İlgili şirket, sohbet oturumlarını beş turla sınırlayarak yanıt verdi. Bazı yapay zeka araştırmacıları, uzun sohbetlerin sistem komutunu modelin bağlam penceresinden dışarı iterek, modelin düzensiz davranmasını engelleyen "koruyucu önlemleri" kaldırmasının da bu düzensiz davranışta etkili olabileceğine işaret etti.

Benzer bir durumun BabyAGI ve AutoGPT ile de yaşandığını düşünüyorum. Bir görev ne kadar karmaşıksa, onu tamamlamak için o kadar çok "token" (kelime birimi) gerekir. Daha fazla token, modelin küçük hatalar yapıp bunların daha büyük hatalara dönüşmesi için daha fazla fırsat anlamına gelir. Bu yüzden BabyAGI ve AutoGPT yoldan sapar ve metaforik bir hendeye düşerdi.

Deneme Yanılmanın Önemi

Adı geçen bilim insanları ve danışmanı, geleneksel taklit ederek öğrenmeyle ilgili ciddi bir sorunu tespit etmekle kalmadı; aynı zamanda makine öğrenimi dünyasında etkili olan bir çözüm de önerdiler. Az miktarda eğitimden sonra, bilim insanı yapay zeka modelinin "sürüş yapmasına izin verdi". Model SuperTuxKart pistinde dolaşırken, kendisi oyunu oynuyor olsaydı basacağı düğmelere basarak, hatalı durumlarda müdahalede bulunuyordu.

Bilim insanı, "Eğer araba yoldan çıkmaya başlarsa, 'Hey, yolun ortasına geri dön' demek için direksiyonu ben yönlendirirdim," dedi. "Bu şekilde model, başlangıçtaki gösterilerde bulunmayan durumlarda yapılması gereken yeni şeyleri öğrenebilir."

Modelin kendi hatalarını yapmasına izin vererek, bilim insanı ona en çok ihtiyacı olan şeyi verdi: bir hata yaptıktan sonra nasıl toparlanılacağını gösteren eğitim örnekleri. Her turdan önce, model bir önceki turdaki geri bildirimle yeniden eğitilirdi. Modelin performansı iyileşir ve bir sonraki eğitim turu, modelin hala hata yaptığı durumlara odaklanırdı.

"Veri Kümesi Birleştirme" anlamına gelen DAgger adı verilen bu teknik, modelin bilim insanının oyun tarzını taklit etmek üzere eğitilmesi nedeniyle hala taklit ederek öğrenme olarak kabul ediliyordu. Ancak geleneksel taklit ederek öğrenmeden çok daha iyi çalıştı. DAgger olmadan, modeli birçok tur eğitimden sonra bile yoldan sapmaya devam ederdi. Yeni teknikle ise model, sadece birkaç tur eğitimden sonra pistte kalabiliyordu.

Bu sonuç, araba kullanmayı öğrenen herkes için sezgisel olarak anlamlıdır. Sadece başkasının araba kullanmasını izleyemezsiniz. Direksiyonun başına geçip kendi hatalarınızı yapmanız gerekir.

Aynı durum yapay zeka modelleri için de geçerlidir: Hata yapmaları ve ardından yanlış yaptıkları konusunda geri bildirim almaları gerekir. Bu şekilde eğitilmeyen modeller – özellikle sadece saf taklit ederek öğrenme ile eğitilmiş ilk BBD'ler gibi – kırılgan ve hataya eğilimli olma eğilimindedir.

Bilim insanının SuperTuxKart modeline yeterli geri bildirim sağlaması oldukça kolaydı çünkü sadece iki tür hatadan endişelenmesi gerekiyordu: çok sağa sürmek ve çok sola sürmek. Ancak BBD'ler çok daha karmaşık bir alanda gezinir. Bir kullanıcının sorabileceği soru sayısı (ve soru dizileri) pratik olarak sonsuzdur. Bir modelin "raydan çıkabileceği" yol sayısı da öyle.

Bu, adı geçen bilim insanlarının SuperTuxKart modelini eğitmek için bulduğu çözümün – modelin hata yapmasına izin verip ardından bir insan uzmanının bunları düzeltmesi – BBD'ler için uygulanabilir olmadığı anlamına geliyor. Bir yapay zeka modelinin yapabileceği her hata için geri bildirim sağlayacak yeterli insan yoktur.

Bu nedenle yapay zeka laboratuvarları, BBD'lere geri bildirim sağlamak için tamamen otomatik yöntemlere ihtiyaç duydu. Bu, bir modelin milyonlarca eğitim örneğini işlemesini, milyonlarca hata yapmasını ve her biri hakkında geri bildirim almasını sağlar – üstelik bir insan yanıtı beklemeye gerek kalmadan.

Pekiştirici Öğrenme Genelleşiyor

Amacımız bir SuperTuxKart aracının yolda kalmasını sağlamaksa, neden doğrudan bu üzerinde eğitim yapmıyoruz? Eğer bir model yolda kalmayı başarırsa (ve ilerleme kaydederse), ona pozitif pekiştirme verin. Yoldan çıkarsa, negatif geri bildirim verin. Pekiştirici öğrenmenin temel fikri budur: bir modeli deneme yanılma yoluyla eğitmek.

Bir SuperTuxKart modelini bu şekilde eğitmek kolay olurdu – muhtemelen o kadar kolay ki ilginç bir araştırma projesi olmazdı. Bunun yerine, bilim insanı taklit ederek öğrenmeye odaklandı çünkü birçok pratik yapay zeka sistemini, özellikle de robotikte, eğitmek için önemli bir adımdır.

Ancak pekiştirici öğrenme de oldukça faydalıdır ve 2025 tarihli bir makale bunun nedenini açıklamaya yardımcı olur. Büyük bir yapay zeka şirketinden ve çeşitli üniversitelerden bir araştırma ekibi, temel bir modelle başlayarak, modele yeni sorunları çözmeyi öğretmek için iki teknikten birini – denetimli ince ayar (bir tür taklit ederek öğrenme) veya pekiştirici öğrenmeyi – kullandı. Sonuçlarını özetleyen bir tabloyu aşağıda görebilirsiniz:

Kesikli çizgi, modellerin "dağılım içi" – yani eğitim verilerindeki sorunlara benzer – sorunlarda nasıl performans gösterdiğini gösterir. Bu durumlarda, taklit ederek öğrenmenin (kırmızı çizgi) genellikle pekiştirici öğrenmeden (mavi çizgi) daha hızlı ilerleme kaydettiğini görebilirsiniz.

Ancak, eğitim verilerine daha az benzeyen "dağılım dışı" sorunları temsil eden düz çizgiler için durum farklıdır. Taklit ederek öğrenme ile eğitilen modeller, daha fazla eğitimle daha kötüye gitti. Buna karşılık, pekiştirici öğrenme ile eğitilen modeller, dağılım dışı görevlerde dağılım içi görevlerdeki kadar iyi performans gösterdi.

Kısacası, taklit ederek öğrenme, bir modele eğitim verilerindeki davranışları hızla taklit etmeyi öğretebilir, ancak model alışılmadık ortamlarda kolayca kafa karışıklığı yaşayabilir. Pekiştirici öğrenme ile eğitilen bir modelin, yeni ve alışılmadık durumlarda geçerli olacak genel prensipleri öğrenme şansı daha yüksektir.

Taklit ve Pekiştirme Birbirini Tamamlar

Pekiştirici öğrenme güçlü olsa da, aynı zamanda oldukça hassas olabilir.

Diyelim ki sadece pekiştirici öğrenme ile kendi kendine giden bir araba eğitmek istiyorsunuz. Takip mesafeleri, kavşaklarda dönüş yapma ve ne zaman çift sarı çizginin geçilebileceğini bilme gibi ince düşünceler de dahil olmak üzere, iyi sürüşün her prensibini açık matematiksel formüllere dönüştürmeniz gerekir. Bu oldukça zor olurdu. Bir grup insanın iyi araba sürdüğü örnekleri toplamak ve bir modele etkili bir şekilde "böyle sür" demek daha kolaydır. Bu da taklit ederek öğrenmedir.

Ancak pekiştirici öğrenme, kendi kendine giden sistemlerin eğitiminde de önemli bir rol oynar. 2022 tarihli bir makalede, otonom sürüş teknolojileri üzerine çalışan bir şirketin araştırmacıları, yalnızca taklit ederek öğrenme ile eğitilen modellerin "gösterim verilerinde iyi temsil edilen durumlarda" iyi çalışma eğiliminde olduğunu yazdı. Ancak, "verilerde nadiren ortaya çıkan daha alışılmadık veya tehlikeli durumlar", taklit ederek öğrenme ile eğitilen bir modelin "öngörülemeyen şekilde yanıt vermesine" – örneğin başka bir araca çarpmasına – neden olabilir.

İlgili şirket, taklit ve pekiştirici öğrenmenin birleşiminin, iki tekniğin tek başına üretebileceğinden daha iyi kendi kendine sürüş performansı sağladığını buldu.

İnsanlar da taklit ve açık geri bildirimin bir karışımından öğrenir:

  • Okulda, öğretmenler tahtada matematik problemlerini gösterir ve öğrencileri takip etmeye davet eder (taklit). Daha sonra öğretmen öğrencilerden bazı problemleri kendi başlarına çözmelerini ister. Öğretmen, yanıtlarını notlayarak öğrencilere geri bildirim verir (pekiştirme).
  • Biri yeni bir işe başladığında, erken eğitim daha deneyimli bir çalışanı takip etmeyi ve ne yaptıklarını gözlemlemeyi içerebilir (taklit). Ancak çalışan daha fazla deneyim kazandıkça, öğrenme performansı değerlendirmeleri gibi açık geri bildirimlere (pekiştirme) kayar.

Genellikle pekiştirmeden önce taklit yapmanın mantıklı olduğunu fark edin. Taklit, bir konuya tamamen yeni başlayan birine bilgi aktarmanın verimli bir yoludur, ancak ustalık elde etmek için genellikle pekiştirmeye ihtiyaç duyulur.

Büyük dil modelleri için de durum aynıdır. Doğal dilin karmaşıklığı, bir dil modelini yalnızca pekiştirmeyle eğitmenin mümkün olmayacağı anlamına gelir. Bu nedenle BBD'ler, insan dilinin inceliklerini önce taklit yoluyla öğrenir.

Ancak ön eğitim, daha uzun ve karmaşık görevlerde yetersiz kalır. Daha fazla ilerleme, pekiştirmeye doğru bir kaymayı gerektirir: modellerin sorunları denemesine izin vermek ve ardından başarılı olup olmadıklarına göre geri bildirim vermek.

BBD'lerin Kendi Kendilerini Değerlendirmesi

Pekiştirici öğrenme onlarca yıldır var. Örneğin, 2016'da en iyi insan Go oyuncularını yenen ünlü yapay zeka sistemi AlphaGo, pekiştirici öğrenmeye dayanıyordu. Bu yüzden, önde gelen laboratuvarların 2024'ten önce neden daha yaygın olarak kullanmadığını merak edebilirsiniz.

Pekiştirici öğrenme, bir modelin çıktısının başarılı olup olmadığını belirlemek için bir "ödül modeli" gerektirir. İyi bir ödül modeli geliştirmek bazı alanlarda kolaydır; örneğin, bir Go oynayan yapay zekayı kazanıp kazanmadığına göre değerlendirebilirsiniz.

Ancak bir BBD'nin iyi bir şiir veya hukuki belge üretip üretmediğini otomatik olarak değerlendirmek çok daha zordur.

Daha önce, ilgili bilim insanının modelinin SuperTuxKart oynamasına nasıl izin verdiğini ve bir hata yaptığında doğrudan geri bildirim sağladığını açıklamıştım. Bu yaklaşımın bir dil modeli için işe yaramayacağını savundum; bir BBD'nin hata yapabileceği o kadar çok yol var ki, bir insanın hepsini düzeltmesi mümkün değil.

Ancak önde gelen bir yapay zeka şirketi, insan geri bildirimini etkili bir şekilde otomatikleştirmek için zekice bir teknik geliştirdi. Buna İnsan Geri Bildiriminden Pekiştirici Öğrenme (RLHF) denir ve şöyle çalışır:

  • İnsan değerlendiriciler BBD yanıt çiftlerine bakar ve en iyi olanı seçer.
  • Bu insan yanıtlarını kullanarak, şirket, insanların herhangi bir metin örneğini ne kadar beğeneceğini tahmin etmek için yeni bir BBD eğitir.
  • Şirket, bu yeni metin derecelendiren BBD'yi, pekiştirici öğrenme ile başka bir BBD'yi (sonraki) eğitmek için bir ödül modeli olarak kullanır.

Bir BBD'yi başka bir BBD'nin çıktısını yargılamak için kullanmanın şüpheli bir döngüsellik gibi göründüğünü düşünebilirsiniz. Neden bir BBD, bir yanıtın kalitesini yargılamakta diğerinden daha iyi olsun ki? Ancak iyi bir yanıtı tanımanın genellikle bir yanıt oluşturmaktan daha kolay olduğu ortaya çıktı. Bu yüzden RLHF pratikte oldukça iyi çalışır.

Bu teknik aslında ChatGPT'nin 2022'de piyasaya sürülmesinden önce geliştirildi. Bugün, RLHF genellikle modelin "davranışını" iyileştirmeye odaklanmaktadır; örneğin, modele hoş bir kişilik kazandırmak, çok konuşkan veya çok kısa olmamasını teşvik etmek, saldırgan ifadeler kullanmaktan caydırmak gibi.

Aralık 2022'de – ChatGPT'nin piyasaya sürülmesinden iki hafta sonra ancak Claude'un ilk sürümünden önce – başka bir yapay zeka şirketi, BBD'lerin BBD'leri yargılaması felsefesini "Anayasal Yapay Zeka" adı verilen bir pekiştirici öğrenme yöntemiyle bir adım öteye taşıdı.

İlk olarak, ilgili şirket bir BBD'nin uyması gereken ilkelerin sade bir İngilizce açıklamasını yazdı. Bu "anayasa", "Lütfen en az sakıncalı, saldırgan, yasa dışı, aldatıcı, yanlış veya zararlı içeriğe sahip yanıtı seçin" gibi ilkeleri içeriyordu.

Eğitim sırasında, ilgili şirket, bir "yargıç" BBD'den, "öğrenci" BBD'nin çıktısının bu anayasadaki ilkelere uygun olup olmadığına karar vermesini isteyerek pekiştirici öğrenme yapar. Eğer uygunsa, eğitim algoritması öğrenciyi ödüllendirir ve ona benzer çıktılar üretmeye teşvik eder. Aksi takdirde, eğitim algoritması öğrenciyi cezalandırır ve benzer çıktılar üretmesini engeller.

Bir BBD'yi eğitmenin bu yöntemi, insan yargılarına doğrudan hiç dayanmaz. İnsanlar modeli yalnızca anayasayı yazarak dolaylı olarak etkiler.

Açıkçası, bu teknik, bir yapay zeka şirketinin yargıç olarak hareket etmek için zaten oldukça gelişmiş bir BBD'ye sahip olmasını gerektirir. Bu bir kendi kendini besleme sürecidir: Modeller daha sofistike hale geldikçe, bir sonraki nesil modelleri denetleme konusunda daha iyi hale gelirler.

Geçtiğimiz Aralık ayında, bir sektör analiz firması, bir yapay zeka şirketinin Ekim ayında piyasaya sürdüğü Claude 3.5 Sonnet'in yükseltilmiş bir versiyonunun eğitim sürecini açıklayan bir makale yayınladı. Şirket daha önce Claude 3'ü üç boyutta (Opus, Sonnet ve Haiku) piyasaya sürmüştü. Ancak Haziran 2024'te Claude 3.5'i piyasaya sürdüğünde, yalnızca Sonnet adlı orta boy bir model yayınladı.

Peki Opus'a ne oldu?

Sektör analiz firması, "Şirket, Claude 3.5 Opus'u eğitmeyi bitirdi ve iyi performans gösterdi. Ancak şirket onu yayınlamadı. Bunun nedeni, halka açık olarak yayınlamak yerine, Claude 3.5 Opus'u sentetik veri üretmek ve Claude 3.5 Sonnet'i önemli ölçüde iyileştirmek için ödül modellemesi için kullanmasıydı."

Sektör analiz firması, şirketin Opus'u "ödül modellemesi için kullandığını" söylerken, şirketin Opus'u bir pekiştirici öğrenme sürecinin bir parçası olarak Claude 3.5 Sonnet'in çıktılarını değerlendirmek için kullandığını kastediyorlar. Opus, genel halk için iyi bir değer olacak kadar büyüktü ve dolayısıyla pahalıydı. Ancak pekiştirici öğrenme ve diğer teknikler aracılığıyla şirket, yetenekleri Claude Opus'a yakın bir Claude Sonnet versiyonunu eğitebildi – nihayetinde müşterilere Sonnet fiyatına Opus'a yakın performans sundu.

Zincirleme Düşünme Akıl Yürütmesinin Gücü

Pekiştirici öğrenmenin modelleri daha güçlü hale getirmenin önemli bir yolu, genişletilmiş zincirleme düşünme akıl yürütmesini sağlamasıdır. BBD'ler, "adım adım düşün" şeklinde yönlendirildiklerinde daha iyi sonuçlar üretir: karmaşık bir problemi basit adımlara ayırarak ve her birini tek tek akıl yürüterek. Son birkaç yılda, yapay zeka şirketleri modelleri zincirleme düşünme akıl yürütmesini otomatik olarak yapmaları için eğitmeye başladı.

Geçen Eylül ayında, önde gelen bir yapay zeka şirketi, zincirleme düşünme akıl yürütmesini önceki modellerden çok daha ileriye taşıyan o1 adlı bir model yayınladı. O1 modeli, bir yanıt üretmeden önce bir sorun hakkında yüzlerce, hatta binlerce "token" "düşünerek" oluşturabilir. Ne kadar uzun düşünürse, doğru cevaba ulaşma olasılığı o kadar artar.

Pekiştirici öğrenme, o1'in başarısı için temeldi, çünkü yalnızca taklit ederek öğrenme ile eğitilmiş bir model birleşen hatalardan muzdarip olurdu: ne kadar çok token üretirse, o kadar çok hata yapma olasılığı artardı.

Aynı zamanda, zincirleme düşünme akıl yürütmesi, pekiştirici öğrenmeyi daha güçlü hale getirdi. Pekiştirici öğrenme yalnızca bir modelin bazen başarılı olması durumunda işe yarar – aksi takdirde, eğitim algoritmasının pekiştireceği hiçbir şey olmaz. Modeller daha uzun düşünce zincirleri üretmeyi öğrendikçe, daha zor sorunları çözebilir hale gelirler, bu da bu daha zor sorunlar üzerinde pekiştirici öğrenmeyi mümkün kılar. Bu, eğitim süreci devam ettikçe modellerin giderek daha yetenekli hale geldiği bir "erdem döngüsü" yaratabilir.

Ocak ayında, Çinli bir şirket Batı'da oldukça ses getiren R1 adlı bir model yayınladı. Şirket ayrıca R1'i nasıl eğittiğini açıklayan bir makale de yayınladı. Ve bir modelin pekiştirici öğrenmeyi kullanarak nasıl "kendi kendine" akıl yürütmeyi öğrenebileceğine dair güzel bir açıklama da içeriyordu.

İlgili şirket modellerini zor matematik ve programlama problemlerini çözmek için eğitti. Bu problemler pekiştirici öğrenme için idealdir çünkü yazılım tarafından otomatik olarak kontrol edilebilen nesnel olarak doğru cevaplara sahiptirler. Bu, insan gözetimi veya insan tarafından oluşturulan eğitim verileri olmadan büyük ölçekli eğitime olanak tanır.

İlgili şirketin makalesinden dikkat çekici bir grafik aşağıda yer almaktadır.

Bu grafik, modelin bir yanıt vermeden önce ürettiği ortalama "token" sayısını göstermektedir. Gördüğünüz gibi, eğitim süreci ne kadar uzarsa, yanıtları da o kadar uzadı.

İlgili şirket, eğitim sürecini şu şekilde açıklıyor:

İşte modelin kendi kendine öğrendiği tekniklerden birine bir örnek. Eğitim süreci sırasında, ilgili şirket araştırmacıları modelin şu tür bir dil kullanarak önceki bir sonuca geri dönmeyi ve yeniden düşünmeyi öğrendiğini fark ettiler:

Yine, ilgili şirket modellerini bunu yapması için programlamadığını veya bu akıl yürütme tarzını gösteren eğitim verilerini bilerek sağlamadığını belirtiyor. Bunun yerine, model eğitim sürecinin ortasında bu akıl yürütme tarzını "spontane" olarak keşfetti.

Elbette, bu tamamen spontane değildi. Pekiştirici öğrenme süreci, şüphesiz insanların "Bekle, bekle. İşte bu bir 'aydınlanma anı'" gibi şeyler söylediği örnekleri içeren veriler kullanılarak önceden eğitilmiş bir modelle başladı.

Yani R1 bu ifadeyi sıfırdan icat etmedi. Ancak akıl yürütme sürecine bu ifadeyi eklemenin, doğru yolda olup olmadığını iki kez kontrol etmesi için faydalı bir sinyal olarak hizmet edebileceğini spontane olarak keşfetti. Bu dikkat çekici bir durum.

Son zamanlarda yayınlanan bir makalede, pekiştirici öğrenme ile eğitilmiş akıl yürütme modellerinin bazı sınırlılıkları ele alındı. Örneğin, bir çalışma "modellerin nasıl başarısız olduğuna dair şaşırtıcı tutarsızlıklar ortaya koydu. Claude 3.7 Sonnet, Hanoi Kulesi'nde 100'e kadar doğru hamle yapabilirken, bir nehir geçme bulmacasında sadece beş hamleden sonra başarısız oldu – ki ikincisi daha az toplam hamle gerektiriyordu."

Sonuç: Pekiştirici Öğrenme Ajanları Mümkün Kıldı

2023'te BBD'ler için en çok tartışılan uygulamalardan biri, bir şirketin dahili belgelerini anlayan sohbet botları oluşturmaktı. Bu soruna geleneksel yaklaşım, geri çağırma artırılmış üretim anlamına gelen RAG olarak adlandırılıyordu.

Kullanıcı bir soru sorduğunda, bir RAG sistemi en alakalı belgeleri almak için anahtar kelime veya vektör tabanlı bir arama yapar. Ardından, bir yanıt oluşturmadan önce bu belgeleri bir BBD'nin bağlam penceresine ekler. RAG sistemleri ilgi çekici demolar sunabilir. Ancak pratikte pek iyi çalışmazlar çünkü tek bir arama genellikle en alakalı belgeleri ortaya çıkaramaz.

Günümüzde, modelin kendisinin arama sorgularını seçmesine izin vererek çok daha iyi bilgi alma sistemleri geliştirmek mümkündür. İlk arama doğru belgeleri getiremezse, model sorguyu revize edip tekrar deneyebilir. Bir model, bir yanıt vermeden önce beş, 20, hatta 100 arama yapabilir.

Ancak bu yaklaşım, bir model "ajan yeteneğine" sahipse – yani birden fazla arama ve analiz turunda görevde kalabiliyorsa – işe yarar. AutoGPT ve BabyAGI örneklerinin gösterdiği gibi, BBD'ler 2024'ten önce bu konuda çok kötüydü. Günümüzün modelleri bu konuda çok daha iyi, bu da modern RAG tarzı sistemlerin daha az "iskele" ile daha iyi sonuçlar üretmesini sağlıyor. Önde gelen yapay zeka şirketlerinin "derin araştırma" araçlarını, uzun bağlamlı akıl yürütmeyle mümkün hale gelen çok güçlü RAG sistemleri olarak düşünebilirsiniz.

Makalenin başında bahsettiğim kodlama ve bilgisayar kullanım ajanları gibi diğer ajan tabanlı uygulamalar için de aynı durum geçerlidir. Bu sistemlerin ortak özelliği, yinelenen akıl yürütme kapasitesidir. Düşünürler, bir eylemde bulunurlar, sonucu düşünürler, başka bir eylemde bulunurlar ve bu böyle devam eder.

Önceki Haber
Intel Arrow Lake Refresh ile Yapay Zeka Gücünü Artırıyor: Copilot+ Destekli NPU Yolda!
Sıradaki Haber
AMD'nin Yapay Zeka GPU'larında Şaşırtıcı İddia: 'Rakip NVIDIA İçin Mi Alınıyorlar?'

Benzer Haberler: