Anthropic, geçtiğimiz Salı günü, önceki Opus modellerini genel yetenekleriyle geride bıraktığını belirttiği ilk 'Mythos sınıfı' modeli olan Claude Fable 5'i kamuoyuna tanıttı. Ancak modelin bugünkü lansmanı, şirketin 'kötü niyetli aktörleri güçlendirme' potansiyeli konusundaki endişelerini dile getirdiği siber güvenlik, biyoloji ve kimya gibi konulardaki sorgulara yanıt vermesini engelleyen güvenlik önlemleriyle birlikte geliyor.
Anthropic'e göre Fable 5, 'aynı temel model' üzerinde çalışıyor ve şu anda yalnızca mevcut Project Glasswing aracılığıyla güvenilir olarak değerlendirilen küçük bir siber savunucular grubuna açık olan 'Mythos Ön İzleme' döneminden çıkan Mythos 5 ile aynı mimariye sahip. Bununla birlikte, kamuya açık Fable 5, belirli hassas konulardaki sorguları daha önceki Claude Opus 4.8 modeline yönlendirerek ve bu durumun gerçekleştiği durumlarda kullanıcıyı uyararak çalışıyor.
Anthropic, bu güvenlik önlemlerini 'idealden daha katı' olarak ayarladığını ve sistemin zaman zaman 'zararsız istekleri' reddedebileceğini, bunun da normal kullanıcılar için sinir bozucu olabileceğinin farkında olduklarını belirtti. Ancak Anthropic, bu tür yanlış pozitiflerin testlerdeki tüm oturumların yüzde beşinden azında meydana geldiğini ve Mythos'un, başka kaynaklardan alınamayacak 'ciddi zarara neden olma' potansiyeli taşıyan durumlarda kötü niyetli aktörlere yardım etmesini önlemek için bu bedelin ödendiğini vurguluyor.
'Bunu yapmana izin veremem, Dave'
Fable 5'in konu bazlı güvenlik önlemleri, yasaklanmış sorgu konularını ve potansiyel 'jailbreak' denemelerini geniş çapta tespit etmek üzere tasarlanmış bir sınıflandırıcı sistemi etrafında inşa edilmiştir. Anthropic, binden fazla saatlik 'red-team' testi ve bir ödül programı süresince dış ekiplerin Fable 5 için evrensel bir 'jailbreak' bulamadığını belirtti. Yeni model, önceki Claude Opus modellerine kıyasla otomatik 'jailbreak' denemelerine de çok daha büyük ölçüde direndi.
Şirket, özellikle Mythos 5'in 'agentik hack' yeteneği konusunda endişeli; bu yetenek, önceki modellere göre çok daha kolay çok adımlı siber saldırılar gerçekleştirmesini sağlıyor. Ancak son aylarda Birleşik Krallık'ın Yapay Zeka Güvenlik Enstitüsü'nden alınan testler, Mythos Ön İzleme'nin çeşitli 'Capture the Flag' mücadelelerinde OpenAI'nin GPT-5.5'i ile benzer performans gösterdiğini ortaya koydu, bu da Mythos'un performansının tek bir modele özgü bir 'atılım' olmadığını gösteriyor.
Anthropic'in Mythos 5 için önceki sınır modellerine kıyasla bildirdiği olağan iyileştirmelerin yanı sıra, şirket modelin siber güvenliğe odaklanan ExploitBench testindeki yeteneklerinde önemli bir sıçrama olduğunu iddia ediyor. Mythos 5, bu testteki savunmasız kod açıkları üzerine yapılan testlerde yüzde 78 puan alırken, bu Opus 4.8'in yüzde 40'lık puanından ve hatta Mythos Ön İzleme'nin elde ettiği yüzde 69'luk puandan önemli bir artış anlamına geliyor.
Anthropic'in önceki modelleri biyolojik silahlarla ilgili sorguları engellerken, Fable 5'te bu sınıflandırıcı artık kimya ve biyolojiyle ilgili tüm sorgular için geçerli. Şirket, 'iyi kaynaklara sahip kötü niyetli aktörlerin' bu konulardaki zararsız görünen sorguları bile önceki modellere göre çok daha etkili bir şekilde 'çok riskli biyolojik araştırmalar' için kullanabileceği endişesini taşıyor.
Kime Güvenebilirsin?
Anthropic, Fable 5 için belirli konuları yasaklamanın iki ucu keskin bir kılıç olduğunun farkında görünüyor. Şirket, 'siber güvenlik profesyonelleri ve biyoloji araştırmacılarının elinde faydalı olabilecek sorguların, kötü niyetli aktörlerin erişimine sunulması halinde tehlikeli olabileceği'ni belirtiyor.
Bu durum, Anthropic'i potansiyel olarak tehlikeli yeteneklere sahip olduğunu belirttiği bir modele kimin erişebileceğine karar vermek gibi biraz garip bir konuma sokuyor. Şirket, siber güvenlik profesyonelleri için daha fazla erişim sağlamak üzere ABD hükümetiyle istişare halinde mevcut Project Glasswing programını periyodik olarak genişleteceğini söylüyor. Bu genişleme, Fable 5'in biyoloji/kimya güvenlik önlemlerini kaldırırken siber güvenlik önlemlerini yerinde tutan yeni bir yaşam bilimleri kuruluşları için güvenilir erişim programını da içerecek.
API ve Kurumsal kullanıcılar, bugün itibarıyla Fable 5 modeline milyon giriş tokenı başına 10 dolar ve milyon çıktı tokenı başına 50 dolar karşılığında erişebilecek. Bu fiyatlar, OpenAI'nin son GPT-5.5 modeli için belirlenen fiyatlardan yüzde 67 ila 100 daha yüksek; bu fark, birçok kullanıcının sınır modellerinin yüksek maliyetinden kaçındığı bir dönemde önemli olabilir.
Anthropic'in mevcut abonelik planları 22 Haziran'a kadar Fable 5 erişimini içerecek, ardından kullanıcılar yeni modele erişmek için 'kullanım kredileri' satın almak zorunda kalacak. Anthropic, nihayetinde 'yeterli kapasiteye' sahip olduğunda Fable 5 erişimini abonelik planlarının standart bir parçası olarak geri getirmeyi umuyor.