Yapay zeka (YZ) alanında karşılaşılan en büyük sorunlardan biri olan yanıt gecikmesi ve performans kısıtlamalarına yeni bir çözüm geliştirildi. Çip üreticisi Taalas, YZ modellerini doğrudan silikonun içine entegre ederek hem hızı artırmayı hem de maliyetleri düşürmeyi başarıyor.
Taalas, Meta'nın Llama 8B YZ Modeli ile Saniyede İşlem Sayısını 10 Katına Çıkardı, Üretim Maliyetlerini 20 Kat Düşürdü
Günümüzdeki YZ hesaplama dünyasında, özellikle ajan tabanlı sistemlerde, saniyede işlenen token (TPS) sayısı ve bir görevin ne kadar hızlı tamamlandığı büyük önem taşıyor. Bu alandaki çözümlerden biri olarak entegre SRAM kullanımı öne çıkıyor. Ancak Taalas, bu yaklaşımın ötesine geçerek, YZ modelleri için özel olarak tasarlanmış donanımlara odaklanıyor.
Şirketin sunduğu çözüm iki temel üzerine kurulu: İlk olarak, YZ iş yüklerinin donanım düzeyinde özelleştirilmesi. Bu, belirli sinir ağlarının doğrudan silikon üzerine haritalanarak her model için altyapının optimize edilmesini içeriyor. İkinci odak alanı ise şirketin "depolama ve hesaplamayı birleştirme" olarak adlandırdığı, genel amaçlı sistemlerdeki bellek duvarlarını ve veri iletişimindeki ek yükü aşmaya yönelik bir yaklaşım.
Taalas'ın çözümüyle tüm hesaplamalar "DRAM seviyesinde" yoğunlukta gerçekleşiyor. Bu sayede daha hızlı ara iletişim sağlanıyor ve YZ modellerindeki gecikme sorunu çözülüyor. Gelişmiş soğutma, HBM, paketleme ve karmaşık entegrasyon çözümleri yerine, tüm yenilikler silikon mühendisliğinin dinamikleri içinde gerçekleşiyor. Taalas, ilk ürünü olan ve Meta'nın Llama 3.1 8B YZ modelini entegre eden HC1'i tanıttı. Bu ürünün performans sonuçları oldukça dikkat çekici.
HC1, mevcut "üst düzey" altyapılara kıyasla saniyede 10 kat daha fazla işlem gerçekleştirirken, üretim maliyetlerini 20 kat düşürüyor. Teknik açıdan bakıldığında, HC1 çipi TSMC'nin 6nm üretim süreciyle üretiliyor ve 815 mm²'ye varan çip boyutuyla NVIDIA'nın H100 çipine yakın bir büyüklüğe sahip. HC1, sekiz milyar parametreli bir modeli barındırıyor. Taalas'ın bu alandaki gelecekteki stratejisi, daha büyük modeller için de benzer çözümler üretmek üzerine şekillenecek.
Performansı daha da artırmak için küme tabanlı bir yaklaşım benimseniyor. Taalas, DeepSeek'in R1 modeliyle yaptığı denemelerde, 30 çiplik bir konfigürasyonda kullanıcı başına 12.000 TPS'lik bir rakama ulaşmış. Bu yaklaşımın önündeki temel zorluklar pazar kabulü ve iş modeli olarak görülüyor. Sabitlenmiş bu donanım mimarisi, model ağırlıklarını değiştirme olanağı sunmasa da, elde edilen hız rakamları bu yaklaşımın umut verici olduğunu gösteriyor.