Fransız yapay zeka girişimi Mistral AI, hafta başında geliştirdiği Devstral 2'yi duyurdu. 123 milyar parametreye sahip bu açık kaynaklı kodlama modeli, otonom yazılım mühendisliği görevlerinde kullanılmak üzere tasarlandı. Devstral 2, yapay zeka sistemlerinin gerçek GitHub sorunlarını çözme yeteneğini test eden SWE-bench Verified (Doğrulanmış SWE-bench) kıyaslamasında yüzde 72.2'lik bir skor elde ederek, açık kaynaklı modeller arasında en üst sıralara yerleşti.
Mistral AI, yalnızca bir yapay zeka modeli yayınlamakla kalmadı; aynı zamanda Mistral Vibe adında yeni bir geliştirici uygulaması da tanıttı. Bu komut satırı arayüzü (CLI) uygulaması, geliştiricilerin Devstral modelleriyle doğrudan terminal üzerinden etkileşim kurmasına olanak tanıyor. Araç, proje bağlamını koruyarak dosya yapılarını ve Git durumunu tarayabiliyor, birden fazla dosyada değişiklik yapabiliyor ve otonom olarak kabuk komutlarını çalıştırabiliyor. Mistral Vibe, Apache 2.0 lisansı altında yayınlandı.
Yapay zeka kıyaslamalarına her zaman ihtiyatla yaklaşmak gerekir, ancak büyük yapay zeka şirketlerindeki çalışanlardan, SWE-bench Verified kıyaslamasını yakından takip ettiklerini duyduk. Bu kıyaslama, popüler Python depolarındaki GitHub sorunlarından alınan 500 gerçek yazılım mühendisliği problemi sunuyor. Yapay zeka, sorun açıklamasını okumalı, kod tabanında gezinmeli ve birim testlerini geçen çalışan bir yama oluşturmalı. Bazı yapay zeka araştırmacıları, kıyaslamadaki görevlerin yaklaşık yüzde 90'ının deneyimli mühendislerin bir saatten kısa sürede tamamlayabileceği nispeten basit hata düzeltmelerini test ettiğini belirtse de, bu, kodlama modellerini karşılaştırmak için standartlaşmış az sayıdaki yollardan biri.
Daha büyük kodlama yapay zeka modeliyle aynı anda, Mistral, Devstral Small 2'yi de piyasaya sürdü. Bu 24 milyar parametreli versiyon, aynı kıyaslamada yüzde 68'lik bir skor elde ediyor ve internet bağlantısı gerektirmeden dizüstü bilgisayar gibi tüketici donanımlarında yerel olarak çalışabiliyor. Her iki model de 256.000 token'lık bir bağlam penceresini destekleyerek, orta büyüklükteki kod tabanlarını (toplam proje karmaşıklığına bağlı olarak büyük veya küçük olarak kabul edilip edilmeyeceği oldukça görecelidir) işleyebiliyor. Şirket, Devstral 2'yi değiştirilmiş bir MIT lisansı altında, Devstral Small 2'yi ise daha izin veren Apache 2.0 lisansı altında yayınladı.
Devstral 2 şu anda Mistral'ın API'si aracılığıyla ücretsiz olarak kullanılabiliyor. Ücretsiz dönemin sona ermesinin ardından, fiyatlandırma milyon giriş token'ı başına 0.40 ABD Doları ve milyon çıkış token'ı başına 2.00 ABD Doları olacak. Devstral Small 2'nin maliyeti ise milyon giriş token'ı başına 0.10 ABD Doları ve milyon çıkış token'ı başına 0.30 ABD Doları olacak. Mistral, bunun gerçek dünya görevlerinde Claude Sonnet'ten yaklaşık 7 kat daha uygun maliyetli olduğunu belirtiyor. Anthropic'in API aracılığıyla sunulan Sonnet 4.5'inin maliyeti ise toplam token sayısına bağlı olarak artışlarla birlikte milyon giriş token'ı başına 3 ABD Doları ve milyon çıkış token'ı başına 15 ABD Doları.
Vibe Kodlama Bağlantısı
“Mistral Vibe” adı, yapay zeka araştırmacısı Andrej Karpathy'nin Şubat 2025'te ortaya attığı ve geliştiricilerin doğal dilde ne istediklerini tanımladığı ve yapay zeka tarafından üretilen kodu yakından incelemeden kabul ettiği bir programlama stili olan "vibe kodlama" terimine atıfta bulunuyor. Karpathy'nin tanımladığı gibi, "vibrasyonlara tam olarak teslim olabilir, üstel artışları kucaklayabilir ve kodun var olduğunu unutabilirsiniz." Collins Dictionary, bu terimi 2025 Yılın Kelimesi seçti.
Vibe kodlama yaklaşımı hem coşku hem de endişe yarattı. Mart ayında yapılan bir röportajda geliştirici Simon Willison, "Vibe kodlamaktan gerçekten keyif alıyorum. Bir fikri denemenin ve çalışıp çalışamayacağını kanıtlamanın eğlenceli bir yolu," dedi. Ancak aynı zamanda, "Vibe kodlamayla üretim aşamasındaki bir kod tabanına ulaşmak açıkça riskli. Yazılım mühendisleri olarak yaptığımız işlerin çoğu, temel kodun kalitesinin ve anlaşılırlığının kritik olduğu mevcut sistemlerin evrimini içeriyor," uyarısında bulundu.
Mistral, Devstral 2'nin projeler boyunca tutarlılığı koruyabileceğine, hataları tespit edebileceğine ve düzeltmelerle yeniden deneyebileceğine inanıyor. Bu iddia edilen yeteneklerin, basit prototipler ve şirket içi araçlardan daha ciddi işler için uygun hale getireceği düşünülüyor. Şirket, modelin çerçeve bağımlılıklarını takip edebildiğini ve depo ölçeğinde hata düzeltme ve eski sistemleri modernize etme gibi görevleri yerine getirebildiğini belirtiyor. Henüz bu modelle deneyimimiz olmadı, ancak yakında çeşitli yapay zeka kodlama araçlarının karşılaştırmalı bir testini Teknoscope'ta görebilirsiniz.