Amerika Birleşik Devletleri Ulusal Bilim ve Teknoloji Enstitüsü (NIST) tarafından yapılan kapsamlı bir testin sonuçları, Amerikan yapay zeka modellerinin Çin yapımı modelleri geride bıraktığını gösterdi. Testler, OpenAI ve Anthropic tarafından geliştirilen modellerin 19 farklı kıyaslama (benchmark) testinde DeepSeek modelini geride bıraktığını ortaya koydu. ABD Ticaret Bakanı Howard Lutnick, sonuçları sosyal medya üzerinden duyurarak, Amerikan yapay zeka inovasyonunu hızlandırmayı amaçlayan 'Yapay Zeka Eylem Planı' nedeniyle eski Başkan Donald Trump'a teşekkür etti.
Lutnick, paylaşımında, “Rapor net: DeepSeek, özellikle siber güvenlik ve yazılım mühendisliği alanlarında çok geride kalıyor. Bu zayıflıklar sadece teknik değil. Yabancı yapay zekaya güvenmenin neden tehlikeli ve basiretli olmadığını gösteriyorlar,” ifadelerini kullandı. “Düşmanlarımızın yapay zekayı kontrol etmesine izin vermek, güvenliğimiz için ciddi riskler taşıyor. Standartları belirleyerek, inovasyonu yönlendirerek ve Amerika'yı güvende tutarak, Ticaret Bakanlığı yapay zeka alanında ABD'nin liderliğini sürdürmesine yardımcı oluyor.”
Ticaret Bakanlığı'na bağlı bir federal kurum olan NIST, küresel endüstriyel rekabet gücünü artırmak amacıyla standartlar geliştiriyor ve endüstriyi destekliyor. Bu çalışma, yeni kurulan Yapay Zeka Standartları ve İnovasyon Merkezi (CAISI) bünyesinde gerçekleştirildi.
Testlerde, DeepSeek'in R1, R1-0528 ve V3.1 modelleri (bu hafta piyasaya sürülen yeni V3.2 sürümü dahil değil) OpenAI'nin GPT-5, GPT-5-mini ve GPT-oss ile Anthropic'in Opus 4 modelleriyle karşılaştırıldı. Kıyaslamalar arasında yazılım mühendisliği için SWE-bench Verified ve Breakpoint, genel bilgi yetenekleri için MMLU-Pro ve GPQA, matematiksel akıl yürütme için SMT 2025, PUMaC 2024 ve OTIS-AIME 2025 matematik yarışmaları ve siber saldırılara karşı dayanıklılık için AgentDojo çerçevesi gibi kamuya açık testler yer aldı. Ayrıca, kurum, sansür gibi konuları test etmek için özel değerlendirmeler de geliştirdi.
69 sayfalık raporda, OpenAI ve Anthropic modellerinin tüm testlerde DeepSeek'ten daha iyi performans gösterdiği, özellikle yazılım mühendisliği ve siber görevlerde farkın belirgin olduğu belirtildi. Amerikan yapay zeka modellerinin genel olarak DeepSeek'ten yüzde 20 ila 80 daha iyi performans gösterdiği ve işletme maliyetlerinin yaklaşık yüzde 35 daha düşük olduğu kaydedildi. Ayrıca, Amerikan modellerinin daha kolay ele geçirilebildiği ve kötüye kullanılabildiği, bu da istenmeyen eylemlere daha yatkın oldukları anlamına geldiği ifade edildi. Raporda ayrıca Çin modellerinin önyargılı olduğu ve Pekin'in mesajlarına uygun davrandığı belirtilirken, farklı sonuçlar verebilecek başka yapay zeka kıyaslama araçlarının da bulunduğunu akılda tutmakta fayda var.
Tüm bu gelişmelere rağmen DeepSeek R1'in kullanımı devam ediyor. CAISI, “Bu modellerin kullanımı uygulama geliştiriciler, tüketiciler ve ABD ulusal güvenliği için risk oluşturabilir” uyarısında bulundu. Çinli yapay zeka şirketi, bu hafta piyasaya sürdüğü DeepSeek-V3.2-Exp gibi yeni modellerini sürekli olarak yayımlıyor, bu da mevcut testlerin bazılarını anlamsız hale getirebilir.