Ara

Yapay Zeka Kodlama Devrimi: Claude 4, Saatlerce Kesintisiz Otonom Çalışıyor!

Yapay zeka şirketi Anthropic, yeni ve iddialı modelleri Claude Opus 4 ve Claude Sonnet 4'ü duyurdu. Şirketin geçtiğimiz yıldan bu yana orta seviye modellere odaklanmasının ardından gelen bu büyük model güncellemeleri, özellikle kodlama yetenekleri açısından önemli ilerlemeler sunuyor.

Anthropic, yeni modellerinin şu ana kadarki en yetenekli kodlama modelleri olduğunu belirtiyor. Özellikle Claude Opus 4, saatlerce otonom olarak çalışabilen, karmaşık ve uzun süreli görevler için tasarlandı.

Şirket yetkilileri, 'agentik' yapay zeka uygulamalarına yönelik artan talebin Opus serisini yeniden canlandırmalarına neden olduğunu ifade ediyor. Bu tür uygulamalar, belirli bir hedefe ulaşmak için kendi başlarına hareket edebilen ve karar alabilen yapay zeka sistemlerini kapsıyor.

Claude'un model hiyerarşisini kısaca hatırlayalım (Mart 2024'te tanıtılmıştı): Haiku, Sonnet ve Opus. Bu modeller API fiyatı, hız ve yetenek arasında bir denge sunar.

Haiku modelleri en küçük, en uygun fiyatlı ve en hızlı olanlardır, ancak yetenek ve 'bağlam derinliği' (istemdeki kavramsal ilişkileri anlama) açısından daha sınırlıdırlar. Daha az somut bilgiyi akıllarında tutabildikleri için, daha büyük modellere göre 'halüsinasyon' (veriye dayanmayan, uydurma cevaplar üretme) eğilimleri daha fazladır. Sonnet, geleneksel olarak maliyet ve yetenek arasında bir denge kuran orta seviye modeldir. Opus modelleri ise her zaman en büyük ve en yetenekli (ancak potansiyel olarak daha yavaş) modeller olmuştur. Opus modelleri bağlamı daha derinlemesine işler ve derin mantıksal görevler için daha uygundur.

Şu an için bir Claude 4 Haiku modeli bulunmuyor. Ancak yeni Sonnet ve Opus modellerinin, önceki versiyonların başaramadığı görevleri yerine getirebildiği bildiriliyor. Yapılan testlerde Opus 4'ün, kod refactoring gibi görevlerde 7 saate kadar kesintisiz ve tutarlı bir şekilde çalıştığı görüldü. Rakuten gibi büyük teknoloji şirketleri de bu yetenekleri doğrulamış durumda. Önceki Claude modelleri genellikle tutarlılıklarını kaybetmeden sadece bir veya iki saat çalışabiliyordu.

Yine de, bir yapay zeka modelini saatlerce gözetimsiz bırakmanın tamamen riskli olup olmadığı ayrı bir tartışma konusudur. Çünkü en yetenekli modeller bile ince hatalar yapabilir, verimsiz yollara sapabilir veya bir insan geliştiricinin fark edeceği önemli bir bağlamı kaçırabilir. Yapay zeka ile kod yazmak kolaylık sağlasa da, ortaya çıkan kodun bir insan tarafından gözden geçirilmesi kritik önem taşımaktadır.

Bu eksikliklerin bir kısmını gidermek için Anthropic, her iki yeni Claude 4 modeline de 'hafıza' yetenekleri ekledi. Bu sayede modeller, uzun süreli oturumlar boyunca önemli bilgileri depolamak için harici dosyaları kullanabiliyor. Geliştiriciler yerel dosyalara erişim izni verdiğinde, modeller zaman içinde ilerlemeyi ve önemli gördükleri şeyleri takip etmek için 'hafıza dosyaları' oluşturup güncelleyebiliyor. Bu, insanların uzun çalışmalar sırasında not almasına benzetilebilir.

Genişletilmiş Düşünme ve Araç Kullanımı

Her iki Claude 4 modeli de, Anthropic'in 'araç kullanımıyla genişletilmiş düşünme' adını verdiği yeni bir beta özelliği sunuyor. Bu özellik, modellerin simüle edilmiş muhakeme ile web araması gibi harici araçları kullanma arasında geçiş yapmasına olanak tanıyor. Claude 3.7 Sonnet zaten güçlü araç kullanım yeteneklerine sahipti, ancak yeni modeller artık tek bir yanıtta simüle edilmiş muhakeme ve araç çağırmayı iç içe geçirebiliyor.

Böylece model, düşünebilir, bir aracı çağırabilir, sonuçları işleyebilir, biraz daha düşünebilir, başka bir aracı çağırabilir ve nihai bir cevaba ulaşana kadar bunu tekrarlayabilir. Modeller, ne zaman faydalı bir sonuca ulaştıklarını kendi başlarına belirliyor; bu yetenek açık insan programlaması yerine eğitim yoluyla kazanılmış.

Pratikte, paralel araç kullanım yeteneğinin yapay zeka asistanlarında çok faydalı olduğu görülüyor. Çünkü doğru cevaplar vermek için sadece kendi eğitim verilerine güvenmek zorunda kalmıyorlar. Bunun yerine, bu daha agentik modeller, web'i adım adım arayabilir, sonuçları ayrıştırabilir, görüntüleri analiz edebilir ve kodlama görevleri için analizler yapabilir, böylece sadece ham büyük dil modeli çıktılarına güvenmenin neden olduğu 'halüsinasyon tuzağına' düşmekten kaçınabilirler.

'Dünyanın En İyi Kodlama Modeli' İddiası

Anthropic, Opus 4'ün kodlama görevleri için sektör kıyaslamalarında lider olduğunu iddia ediyor. SWE-bench'te yüzde 72,5 ve Terminal-bench'te yüzde 43,2 başarı oranları elde ettiğini belirterek, modeli 'dünyanın en iyi kodlama modeli' olarak adlandırıyor. Anthropic'e göre, modellerin erken versiyonlarını kullanan şirketler önemli iyileşmeler bildirdi. Cursor ve Replit gibi şirketler, karmaşık kod tabanlarını anlama ve çoklu dosya değişiklikleri yapma konusunda modelin üstün olduğunu vurguladılar.

Nitekim, GitHub, Anthropic'in duyurusunda Sonnet 4'ün 'agentik senaryolardaki' performansını gerekçe göstererek, GitHub Copilot'taki yeni kodlama ajanı için temel model olarak Sonnet 4'ü kullanacağını duyurdu. Sonnet 4, Opus 4'e göre daha hızlı yanıt süreleri sunarken SWE-bench'te yüzde 72,7 gibi yüksek bir skor elde etti. GitHub'ın kendi ana şirketi Microsoft'un (OpenAI ile yakın bağları olan) bir modeli yerine Claude'a yönelmesi, Anthropic'in gerçekten rekabetçi bir şeyler inşa ettiğini gösteriyor.

Anthropic, Claude 3.7 Sonnet'te kullanıcıların modelin yetkisiz eylemler yapmasından veya aşırı çıktı sağlamasından şikayetçi olduğu kalıcı bir sorunu ele aldığını belirtiyor. Şirket, yeni modellerde eğitim ayarlamaları sayesinde bu 'ödül hackleme' davranışını yaklaşık yüzde 80 oranında azalttığını ifade ediyor. İstenmeyen davranışta yüzde 80'lik bir azalma etkileyici görünse de, bu aynı zamanda sorunun yüzde 20'sinin hala devam ettiğini gösteriyor ki, saatlerce otonom görevler gerçekleştirebilecek yapay zeka modelleri söz konusu olduğunda bu önemli bir endişe kaynağıdır.

Kod doğruluğu sorulduğunda, şirket yetkilileri, herhangi bir üretim kodu yayınlamada insan kod incelemesinin hala önemli bir parça olduğunu vurguladı. Bunun yazılım mühendisliğinin doğasında var olan bir sorun olduğunu ve kod inceleme sürecinin tam da bu tür şeyleri yakalamak için var olduğunu belirttiler. Yapay zeka modelleriyle birlikte bunun ortadan kalkmasını beklemediklerini, hatta geliştiricinin işinin büyük kısmının kod üretmekten çok, üretilen kodu incelemek olacağını öngördüklerini ifade ettiler.

Fiyatlandırma ve Erişilebilirlik

Her iki Claude 4 modeli de selefleriyle aynı fiyatlandırma yapısını koruyor: Opus 4, giriş için milyon token başına 15 dolar ve çıkış için milyon token başına 75 dolar maliyetli olurken, Sonnet 4 sırasıyla 3 dolar ve 15 dolar seviyesinde kalıyor. Modeller iki yanıt modu sunuyor: geleneksel büyük dil modeli ve karmaşık sorunlar için simüle edilmiş muhakeme ('genişletilmiş düşünme'). Bazı Claude Code oturumlarının saatlerce sürebildiği düşünüldüğünde, token başı maliyetlerin hızla artabileceği dikkatli olmakta fayda var.

Anthropic, her iki modeli de API'si, Amazon Bedrock ve Google Cloud Vertex AI üzerinden kullanıma sundu. Sonnet 4 ücretsiz kullanıcılar tarafından erişilebilir olmaya devam ederken, Opus 4 ücretli abonelik gerektiriyor.

Claude 4 modelleri aynı zamanda Claude Code'u (Şubat ayında tanıtılmıştı) aylar süren önizleme testlerinin ardından genel kullanıma sunulan bir ürün olarak tanıtıyor. Anthropic, kodlama ortamının artık VS Code ve JetBrains IDE'leri ile entegre olduğunu ve önerilen düzenlemelerin doğrudan dosyalarda gösterildiğini belirtiyor. Yeni bir SDK da geliştiricilerin aynı çerçeveyi kullanarak özel ajanlar oluşturmasına olanak tanıyor.

Anthropic'in geleceği bu yeni modellerin yeteneklerine bağlı olsa da, modellerin davranışlarını nasıl yönlendirdikleri (ince ayar yaparak) sorulduğunda, bu sistemlerin doğasında var olan öngörülemezliğin hem kendileri hem de geliştiriciler için devam eden zorluklar sunduğunu kabul ettiler. Geçtiğimiz 40-50 yıldır deterministik sistemler üzerinde çalıştığımız bir dünyada aniden non-deterministik (belirleyici olmayan) bir ortama geçmenin, yazılım geliştirme şeklini değiştirdiğini ifade ettiler. API'larını ve dil modellerini kullanan birçok kişiyle empati kurduklarını belirterek, güvenilirlik ve uygulamanın temelini non-deterministik bir şekilde güçlendirmenin ne anlama geldiği konusunda bakış açılarını değiştirmeleri gerektiğini söylediler. Bunların, durumu kesinlikle zorlaştıran, ancak aynı zamanda birçok olasılığı da açan genel tuhaflıklar olduğunu eklediler.

Önceki Haber
RGB Işıklar ve Ekranlarla Dolu: Maxsun'dan Sıvı Soğutmalı Çılgın RTX 50 Konsepti
Sıradaki Haber
NVIDIA CEO'su Jensen Huang'dan XPG Güç Kaynaklarına Yeşil Işık: Computex'te Yeni Nesil PC Parçaları Sergilendi!

Benzer Haberler: