Uzun sohbetlerde yapay zeka modellerinin neden yavaşladığını hiç merak ettiniz mi? Bunun temelinde yatan neden, uzun metin dizilerini işlemek için gereken devasa hesaplama gücü. Şirketler bunu verimli hale getirmek için çeşitli yöntemler kullansa da, Çinli yapay zeka şirketi DeepSeek, gelişmiş yapay zeka çiplerine erişimde karşılaştığı kısıtlamalar nedeniyle daha az donanımla daha fazla performans elde etmek için ek motivasyona sahip.
DeepSeek, en yeni simüle edilmiş akıl yürütme dil modeli DeepSeek-V3.2-Exp'in deneysel bir sürümünü duyurdu. Bu modelde, şirketin "DeepSeek Seyrek Dikkat" (DSA) adını verdiği bir yenilik kullanılıyor. Bu teknik, yapay zeka modellerinde daha önce de kullanılan bir hesaplama yöntemi. OpenAI, 2019'da seyreklik üzerine çalışmalarını duyurmuş ve bu yaklaşımı GPT-3'ü oluştururken kullanmıştı. Google Araştırma da benzer konseptlerle "Reformer" modelleri üzerine çalışmalarını 2020'de yayınlamıştı. Ancak Batılı yapay zeka şirketlerinin en yeni modellerinde seyreklik tekniğini ne ölçüde kullandığına dair kesin bilgiler bulunmuyor.
Seyreklik dikkat mekanizması yıllardır bilinmesine rağmen, DeepSeek bu sürümüyle "ilk kez ince taneli seyreklik dikkat" elde ettiğini ve verimlilik artışını göstermek amacıyla API fiyatlarını yüzde 50 düşürdüğünü iddia ediyor. DeepSeek V3.2'nin neden dikkat çekici olduğunu anlamak için yapay zeka tarihindeki bazı gelişmelere göz atmak faydalı olacaktır.
DeepSeek, daha önce yapay zeka dünyasında büyük yankı uyandırmıştı. R1 simüle edilmiş akıl yürütme modeli, OpenAI'nin o1 modeline performans olarak denk gelirken, eğitim maliyetinin yalnızca 6 milyon dolar olması dikkat çekmişti. Ayrıca, sohbet uygulaması kısa bir süre için App Store'da ChatGPT'yi geride bırakarak zirveye yerleşmişti. Amerika'nın önde gelen yapay zeka laboratuvarlarına meydan okuyan bu şirket, şüphesiz tüm gözleri üzerinde toplamaya devam ediyor.
Dikkat darboğazı
Yapay zekada "dikkat", bir metindeki kelimelerin birbirini anlamada ne kadar ilgili olduğunu belirleyen bir yazılım tekniğidir. Bu ilişkiler bağlamı oluşturur ve bağlam dilin anlamını derinleştirir. Örneğin, "Banka faiz oranlarını yükseltti" cümlesinde, "banka" kelimesinin finansal bir bağlamda mı yoksa bir nehir kenarını mı ifade ettiğini anlamada dikkat mekanizması modellemeye yardımcı olur. Dikkat sayesinde, kavramsal ilişkiler nicelleştirilerek bir sinir ağında sayısal olarak saklanır. Dikkat aynı zamanda yapay zeka dil modellerinin, yanıtlarının her kelimesini üretirken hangi bilginin "en önemli" olduğunu seçmesini de yönetir.
Makine ile bağlam hesaplamak zordur ve paralel olarak bu ilişkileri hesaplayabilen GPU'lar gibi çipler belirli bir yetenek seviyesine ulaşana kadar ölçeklenebilir değildi. Orijinal Transformer mimarisi, 2017'den bu yana, bir istemdeki her kelimenin diğer tüm kelimelerle olan ilişkisini adeta kaba kuvvet yöntemiyle kontrol ediyordu. Yani 1.000 kelimelik bir istem, 1.000 x 1.000, yani 1 milyon ilişki hesaplaması anlamına geliyordu. 10.000 kelimede bu sayı 100 milyona ulaşıyordu. Bu maliyet karesel olarak arttığı için, uzun konuşmaları işlemek için temel bir darboğaz oluşturuyordu.
OpenAI'nin GPT-5'te bazı seyreklik dikkat teknikleri kullandığı düşünülse de, uzun konuşmalarda hala performans düşüşleri yaşanıyor. ChatGPT'ye yeni bir yanıt gönderdiğinizde, yapay zeka modeli temel olarak tüm konuşma geçmişi için bağlam karşılaştırmalarını yeniden işliyor.
Elbette, orijinal Transformer modelinin arkasındaki araştırmacılar, nispeten kısa diziler (belki birkaç yüz token, yani kelimeleri temsil eden veri parçacıkları) için makine çevirisi amacıyla tasarlandı. Bu durumlarda karesel dikkat yönetilebilirdi. Ancak insanlar binlerce hatta on binlerce tokene ölçeklendirmeye başladığında, karesel maliyet karşı konulamaz hale geldi.
Seyreklik dikkat farklı çalışır. Her kelimeyi her kelimeyle kontrol etmek yerine, modelin en ilgili olduğunu belirlediği kelime ilişkilerinin yalnızca bir alt kümesini inceler. Örneğin, bir belgedeki 5.000. kelimeyi işlerken, model önceki 4.999 kelimenin tamamıyla değil, dikkatlice seçilmiş 100 kelimeyle olan ilişkisini kontrol edebilir.
DeepSeek'in modeli, DeepSeek'in "şimşek indeksleyici" olarak adlandırdığı bir yöntemle hangi ilişkilerin önceliklendirileceğini belirleme yeteneği kazanıyor. Yeni model hakkındaki DeepSeek'in makalesinde belirtildiği gibi, bu küçük sinir ağı bileşeni kelime çiftleri arasındaki alaka düzeyini puanlıyor ve her kelime için en önemli 2.048 bağlantıyı seçiyor. Makale, bu indeksleyicinin kararlarını nasıl verdiğini tam olarak açıklamasa da, DeepSeek, kendi geliştirdiği yöntemin modelin genel metin anlayışını bozmadan hangi bağlantıların atlanacağını belirleyebildiğini iddia ediyor.
İlk kıyaslamalar umut veriyor
DeepSeek-V3.2-Exp, şirketin önceki V3.1-Terminus modelinin üzerine inşa edilmiş ancak DeepSeek Seyrek Dikkat'i entegre etmiş. Şirketin kıyaslamalarına göre, deneysel model seyreklik dikkat kullanırken bile önceki modeline kıyasla benzer performans sergiliyor.
Özellikle, OpenAI ve Anthropic'in üst düzey yapay zeka modellerinin aksine, bu sürüm MIT Lisansı altında açık kaynak bileşenleri ve açık ağırlıklar içeriyor, bu da diğer araştırmacıların bu çalışma üzerine inşa etmelerine olanak tanıyor.
Ön testlerin, uzun bağlam durumlarında API maliyetlerinin yarı yarıya azaltılabileceğini gösterdiği bildiriliyor. Ancak bu kıyaslamalar DeepSeek'in kendi testlerinden geliyor ve üçüncü taraf araştırmacılar henüz performans iddialarını bağımsız olarak doğrulama veya verimlilik iyileştirmelerini doğrulama zamanı bulamadı. Ancak bu araştırmalar başarılı olursa, seyreklik dikkat tekniğindeki iyileştirmeler zamanla yapay zeka çıkarım maliyetlerini önemli ölçüde düşürebilir.