Yapay zeka alanında öncü firmalardan Anthropic, en gelişmiş yapay zeka dil modeli olduğunu belirttiği Claude Sonnet 4.5'i duyurdu. Bu yeni model, özellikle kodlama ve bilgisayar kullanım yeteneklerinde önemli iyileştirmeler sunuyor. Bununla birlikte şirket, geliştiriciler için komut satırı tabanlı bir yapay zeka aracı olan Claude Code 2.0'ı ve kendi yapay zeka kodlama ajanlarını oluşturmak isteyenler için Claude Agent SDK'yı da tanıttı.
Anthropic tarafından yapılan açıklamalara göre, Claude Sonnet 4.5'in karmaşık ve çok adımlı görevlerde kesintisiz olarak 30 saatten uzun süre boyunca projeye odaklandığı gözlemlenmiş. Daha önceki yapay zeka ajanlarının, zamanla biriken hatalar ve kısa süreli bellek olarak da bilinen bağlam pencerelerinin dolması nedeniyle uzun süreli görevlerde tutarlılığını yitirebildiği biliniyor. Anthropic daha önce, önceki Claude 4.0 modellerinin 24 saatten fazla Pokémon oynayabildiğini veya yedi saat boyunca kod refaktöringi yapabildiğini belirtmişti.
Yapay zeka dil modellerinin çalışma prensiplerini anlamak, Sonnet'in neden var olduğunu kavramak için önemlidir. Geleneksel olarak Anthropic, Claude ailesinde Haiku (en küçük), Sonnet (orta segment) ve Opus (en büyük) olmak üzere üç farklı boyutta yapay zeka modeli üretmiştir. Haiku en son Kasım 2024'te, Sonnet bu yılın Mayıs ayında ve Opus ise Ağustos ayında güncellenmiştir. Model boyutu, yani sinir ağında depolanan değerler, genel bağlamsal derinlik ve problem çözme yeteneği ile doğru orantılıdır. Ancak daha büyük modellerin çalıştırılması daha yavaş ve maliyetlidir. Bu nedenle yapay zeka şirketleri, performans ve maliyet dengesini gözeten bir orta yol bulmaya çalışır. Claude Sonnet, bu rolü Anthropic için uzun yıllardır başarıyla üstlenmiştir.
Claude, yazılım geliştiriciler arasında Claude Code sayesinde popülerlik kazanmış durumda ve Anthropic, Sonnet'in en yeni sürümünün kodlama yetenekleri konusunda oldukça iddialı. Şirket web sitesinde, "Claude Sonnet 4.5, dünyadaki en iyi kodlama modelidir" diyerek, karmaşık ajanlar oluşturmak için en güçlü model olduğunu, bilgisayar kullanma konusunda en iyi performansı sergilediğini ve akıl yürütme ile matematikte önemli ilerlemeler kaydettiğini belirtiyor.
Anthropic, bu iddialarını güçlü kıyaslama (benchmark) sonuçlarıyla destekliyor. Sonnet 4.5 modeli, gerçek dünya yazılım kodlama yeteneklerini ölçmeyi amaçlayan SWE-bench Verified kıyaslamasında yüzde 77,2'lik bir skor elde etmiş. Ayrıca, yapay zeka modellerini gerçek dünya bilgisayar görevlerinde test eden OSWorld kıyaslamasında da yüzde 61,4 ile lider konumda. Bu sonuçlar, OpenAI'nin GPT-5 Codex'inin (yüzde 74,5) ve Google'ın Gemini 2.5 Pro'sunun (yüzde 67,2) skorlarını geride bırakıyor.
Diğer testlerde ise Claude Sonnet 4.5, matematik yarışması kıyaslaması olan AIME 2024 ve 14 farklı dildeki konu bilgisini test eden MMMLU gibi çeşitli değerlendirmelerde ilerleme kaydetmiş. Özellikle finans alanındaki görevlerde, "giriş seviyesi bir finans analistinin beklediği görevleri yerine getirme yeteneğini test eden" görece yeni bir kıyaslama olan Vals AI'nin Finance Agent benchmark'ında Sonnet 4.5, yüzde 92 gibi etkileyici bir skor elde etmiş.
Sonnet 4.5'in, önceki modele kıyasla bilgisayar kullanım yeteneklerinde de önemli gelişmeler gösterdiği rapor edilmiş. Dört ay önce OSWorld kıyaslamasında yüzde 42,2 puan alan Claude Sonnet 4'ün yeni sürümü bu skoru 61,4'e yükseltmiş. Anthropic, bu yetenekleri Chrome için hazırladığı Claude eklentisinde kullanıyor. OpenAI'nin ChatGPT Agent'ına benzer şekilde, Claude'un eklentisi de web sitelerinde gezinebiliyor, elektronik tabloları doldurabiliyor ve çeşitli derecelerde başarıyla tarayıcı tabanlı diğer görevleri tamamlayabiliyor.
Her zaman olduğu gibi, yapay zeka kıyaslamalarının kolayca manipüle edilebileceğini, kötü tasarlanmış olabileceğini veya veri seti kontaminasyonu (modelin farkında olmadan kıyaslamadaki cevaplar üzerinde eğitilmesi) gibi sorunlar yaşayabileceğini belirtmekte fayda var. Bu nedenle, bağımsız olarak doğrulanana kadar her türlü kıyaslama sonucuna temkinli yaklaşmak gerekir. Kendi kendine rapor edilen rakamlara şüpheci bir gözle bakılsa bile, Sonnet 4.5'in 4.0'a göre sağlam bir adım olduğu görülüyor ve Anthropic'in zamanla daha yetenekli modeller sunma geçmişi göz önüne alındığında, buna inanmamak için bir neden bulunmuyor.
Deneyimli bir yazılım geliştirici ve yapay zeka modelleri üzerine bağımsız uzman görüşleri sunan Simon Willison, bugün kendi blogunda Sonnet 4.5 hakkında şunları yazmış: "Anthropic bana hafta sonu 'yeni bir model'in ön izleme sürümüne erişim sağladı ve bu model Sonnet 4.5 çıktı. İlk izlenimlerim, kodlama konusunda GPT-5-Codex'ten daha iyi bir model olduğu yönündeydi. GPT-5-Codex, lansmanından bu yana benim tercihim olan kodlama modeliydi. Bu alan çok hızlı ilerliyor; Gemini 3'ün yakında piyasaya sürüleceği fısıldanıyor, bu yüzden Sonnet 4.5'in 'en iyi kodlama modeli' unvanını ne kadar süreyle elinde tutacağı belirsiz."
Claude 4.5, bugün her yerde kullanıma sunuldu. API aracılığıyla, model giriş tokenları için milyon başına 3 dolar ve çıkış tokenları için milyon başına 15 dolar olmak üzere Claude Sonnet 4 ile aynı fiyatlandırmayı koruyor. Geliştiriciler, model tanımlayıcısı olarak "claude-sonnet-4-5" kullanarak Claude API üzerinden erişim sağlayabilir.
Diğer Yeni Özellikler
Claude ailesinin bazı yardımcı özellikleri de bugün güncellemeler aldı. Örneğin, Anthropic, Claude'un web arayüzü ve özel uygulamalarını kullananlar için konuşmalar içinde doğrudan kod yürütme ve dosya oluşturma işlevleri ekledi. Bu doğrultuda, kullanıcılar sohbet arayüzünden ayrılmadan elektronik tablolar, sunumlar ve belgeler oluşturabiliyor.
Şirket ayrıca, Max aboneleri için "Imagine with Claude" adında beş günlük bir araştırma ön izlemesi yayınladı. Bu özellik, modelin gerçek zamanlı olarak yazılım üretebildiğini gösteriyor. Anthropic, bunu uygun altyapı ile birleştirildiğinde Claude Sonnet 4.5'in neler yapabileceğinin eğlenceli bir gösterimi olarak tanımlıyor.
Yukarıda belirtildiği gibi, komut satırı geliştirme aracı Claude Code da bugün yeni modelle birlikte çeşitli güncellemeler aldı. Şirket, ilerlemeyi kaydeden ve kullanıcıların önceki durumlara geri dönebilmesini sağlayan kontrol noktaları ekledi, terminal arayüzünü yeniledi ve yerel bir VS Code eklentisi sundu. Claude API ayrıca, daha uzun süreli ajan görevlerini yönetmek için yeni bir bağlam düzenleme özelliği ve bellek aracı kazanıyor.
Şu anda yapay zeka şirketleri, diğer alanlardaki ilerlemenin objektif olarak ölçülmesinin zor olması ve LLM'lerin diğer alanlara kıyasla yüksek fayda sağladığı düşünülen bir alan olması nedeniyle, yapay zeka asistanı yeteneklerinin kanıtı olarak özellikle yazılım geliştirme kıyaslamalarına odaklanıyor. Ancak insanlar Claude gibi yapay zeka sohbet botlarını genel asistanlar olarak kullanmaya devam ediyor. Ve bazı kullanıcıların yapay zeka sohbet botlarıyla sanal dünyalara dalmasıyla ilgili son haberler göz önüne alındığında, Anthropic'in Claude Sonnet 4.5'in önceki modellere kıyasla "gösterişçilik, aldatma, güç arayışı ve yanıltıcı düşünceyi teşvik etme eğiliminde azalma" gösterdiğini iddia etmesi dikkat çekici. Özellikle gösterişçilik, bir yapay zeka modelinin, fikirler yanlış veya potansiyel olarak tehlikeli olsa bile kullanıcıyı övme eğilimidir.
Anthropic'in bu yapay zeka çıktı davranışlarının bazılarını, geçmişte olduğu gibi, belirgin bir antropomorfik mercekle çerçevelemesine karşı çıkabiliriz. Ancak genel olarak, gösterişçiliği azaltma çabaları, giderek daha fazla sohbet botlarına sadece kodlama yardımından daha fazlası için başvuran bir dünyada memnuniyetle karşılanan bir gelişmedir.