Günümüzde büyük dil modellerini (BDM) güçlendiren sinir ağlarının temelindeki sayısal değerler, yani ağırlıklar, genellikle 16 veya 32 bitlik yüksek hassasiyetli kayan nokta sayıları kullanılarak saklanır. Bu yüksek hassasiyet, özellikle devasa modeller için yüzlerce gigabaytı bulan büyük bellek ihtiyacına ve yanıt üretirken kullanılan karmaşık matris çarpımları gibi işlemler için ciddi işlemci kaynaklarına neden olur.
Şimdi ise Microsoft araştırmacıları, yalnızca üç farklı ağırlık değeriyle (-1, 0 veya 1) çalışan yeni bir sinir ağı modeli geliştirdi. Microsoft Araştırma'nın daha önceki çalışmalarına dayanarak oluşturulan bu yeni modelin 'üçlü' mimarisi, genel karmaşıklığı azaltıyor ve araştırmacılara göre 'hesaplama verimliliğinde önemli avantajlar' sunuyor. Bu sayede model, basit bir masaüstü işlemcide bile etkili bir şekilde çalışabiliyor. Araştırmacılar, ağırlık hassasiyetindeki bu devasa düşüşe rağmen modelin, 'benzer boyuttaki önde gelen açık kaynaklı, tam hassasiyetli modellerle karşılaştırılabilir performans gösterebildiğini' iddia ediyor.
Model ağırlıklarını basitleştirme fikri, yapay zeka araştırmalarında aslında tamamen tamamen yeni değil. Yıllardır araştırmacılar, sinir ağı ağırlıklarını daha küçük bellek alanlarına sıkıştıran 'kuantizasyon' teknikleri üzerinde deneyler yapıyor. Son yıllarda ise en uç kuantizasyon çalışmaları, her bir ağırlığı tek bir bitle (+1 veya -1) temsil eden 'BitNet' adı verilen modellere odaklandı.
Yeni BitNet b1.58b modeli tam olarak tek bit kullanmıyor; üç değer kullandığı için '1.58 bitlik' olarak adlandırılıyor (log(3)/log(2) ortalama bit sayısını veriyor). Ancak araştırmacılar, bu modelin 'büyük ölçekte eğitilmiş ilk açık kaynaklı, yerel (native) 1 bit BDM' olduğunu belirtiyor. Bu, 4 trilyon jetonluk bir eğitim veri kümesine dayalı 2 milyar jetonluk bir model anlamına geliyor.
'Yerel' (native) kelimesi burada kilit öneme sahip. Çünkü önceki kuantizasyon çalışmalarının çoğu, zaten 'tam hassasiyetle' (yani büyük kayan nokta değerleriyle) eğitilmiş mevcut modeller üzerinde sonradan yapılan boyut azaltma denemeleriydi. Araştırmacılar, bu tür eğitim sonrası kuantizasyonun, dayandıkları modellere kıyasla 'önemli performans düşüşüne' yol açabildiğini yazıyor. Bu arada, daha küçük ölçeklerdeki diğer yerel olarak eğitilmiş BitNet modelleri ise 'henüz daha büyük, tam hassasiyetli muadillerinin yeteneklerine ulaşamayabilir'.