Yapay zeka alanında önemli bir gelişme yaşandı. Huawei'nin öncülüğündeki bir araştırma ekibi, 1.6 trilyon parametreye sahip DeepSeek V4-Pro modelinin tam parametreli son eğitimini başarıyla tamamladığını duyurdu. Bu kritik çalışma için en az bin adet Huawei Ascend 910C çipi kullanıldı.
Bu başarı, Türkiye'deki teknoloji firmalarının yapay zeka geliştirme süreçlerinde yerli ve milli donanımlarla önemli iş yüklerini kaldırabileceğinin bir kanıtı olarak görülüyor. Yapay zeka geliştirmenin en hassas aşamalarından biri olan model eğitimi, özellikle ABD'nin teknoloji ihracat kontrolleri nedeniyle yerli firmalar için bir zorluk teşkil ediyordu. Bu projede Huawei ile birlikte Shenzhen Loop Area Enstitüsü, Harbin Teknoloji Enstitüsü Shenzhen Kampüsü ve Shenzhen Büyük Veri Araştırma Enstitüsü gibi kurumlar da yer aldı.
Huawei'nin mevcut en gelişmiş yapay zeka hızlandırıcısı olan Ascend 910C, daha önceki testlerde Nvidia H100'ün çıkarım performansının yaklaşık %60'ını sunuyordu. Çin menşeli çipler, genellikle tamamlanmış bir modelin sorgulara yanıt verdiği "çıkarım" aşamasında rekabetçi olurken, büyük veri setleri üzerinde modelin ağırlıklarının yeniden hesaplandığı "eğitim" aşamasında zorlanabiliyordu. Ancak bu son çalışma, tam parametreli son eğitimin başarıyla gerçekleştirildiğini gösteriyor; bu da modelin her ağırlık katmanının güncellendiği anlamına geliyor.
Son eğitim, genellikle çok daha büyük olan ön eğitim aşamasını takip eden bir "ayar" evresi olarak tanımlanabilir. Ön eğitim, devasa metin veri kümeleri üzerinden çalışarak modelin temel yeteneklerini oluşturur. DeepSeek'in V4-Pro modelinin ön eğitim veri kümesinin 32 trilyondan fazla token içerdiği belirtiliyor.
Son eğitim ise talimatlara uyma, güvenlik uyumluluğu ve göreve özel verilerle modelin davranışını şekillendirir. Bu sürecin Ascend çipleri üzerinde tamamlanması, platform için değerli bir başarıdır. Ancak bu durum, çiplerin sıfırdan bir sınır modelini ön eğitebileceği anlamına gelmiyor ki bu, daha ağır ve maliyetli bir iştir.
Geçmişte, DeepSeek'in Ascend çiplerinde R2 modeli için tek bir başarılı eğitim çalıştırması bile tamamlayamadığı, kararsız performans, yavaş çipten-çipe bağlantılar ve Huawei'nin Nvidia CUDA'sına alternatif yazılım yığınındaki eksiklikler nedeniyle Nvidia GPU'larına geri dönmek zorunda kaldığı bildirilmişti. Öte yandan, Nisan ayında piyasaya sürülen DeepSeek-V4-Pro, en başından beri Ascend çipleri üzerine kurulan ilk DeepSeek modeliydi.
Şu anki açıklamada, herhangi bir kıyaslama (benchmark) verisi sunulmamış olması, eğitimin ne kadar sürdüğüne dair bilgi verilmemesi veya bin çipli kümenin ne kadar verimli kullanıldığına dair detayların bulunmaması dikkat çekici. Bu tür iddiaların somut verilerle desteklenmemesi, genel bir güvenilirlik endişesi yaratıyor. DeepSeek firması ise bu konuda henüz bir açıklama yapmadı.