Bir Reddit kullanıcısı, yapay zeka alanında dikkate değer bir başarıya imza attı. Kullanıcı, Teknoscope olarak edindiğimiz bilgilere göre, uygun fiyatlı Intel Optane PMem DIMM bellekleri kullanarak tek bir ekran kartıyla 1 trilyon parametreli büyük dil modelini (LLM) çalıştırmayı başardı. Yerel Kimi K2.5 kurulumunda saniyede yaklaşık 4 token hızına ulaşıldığı belirtildi.
Bu olağanüstü projeye imza atan kişi, ikinci el olarak nispeten uygun bir fiyata temin ettiği Intel Optane Persistent Memory modüllerini kullanarak, “1 trilyon parametreli bir modeli (bu durumda Kimi K2.5) yerel olarak saniyede yaklaşık 4 token hızında çalıştırmayı” başardığını paylaştı.
Başarının merkezinde, kullanıcının altı adet Optane PMem (DCPMM) modülü tedarik etmesi yer alıyor. Üretimi durdurulmuş olan bu bellek formatı, DRAM ve SSD arasındaki boşluğu doldurmak üzere tasarlanmıştı. 768 GB'lık (6 adet 128 GB) Optane bellek, en hızlı NVMe SSD'lerden bile daha düşük gecikme süresi sunarken, yine de DRAM'den iki ila üç kat daha yavaş performans gösteriyor. Buna rağmen, büyük dil modelleri için bu özellikler oldukça faydalı bulunuyor ve ikinci el fiyatının, eşdeğer kapasitedeki DRAM'den çok daha uygun olduğu vurgulanıyor. Ancak, Optane ürünlerinin artık piyasada olmaması, bu çözümü oldukça özel kılıyor.
Kullanıcının sistem konfigürasyonu şu şekilde:
- Intel Xeon Gold 6246 CPU
- Tyan S5630GMRE-CGN anakart
- Asus Dual GeForce RTX 3060 OC 12GB Ekran Kartı
- 6 adet 32GB Samsung 2666MHz DDR4 ECC DRAM
- 6 adet 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS kalıcı bellek modülleri
- Western Digital WD SN850X 2TB M.2 2280 NVMe SSD
- ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics Platinum Tam Modüler Güç Kaynağı
- Silverstone SST-GD08B (Siyah) Grandia Serisi Ev Sineması PC Kasası
Bu sistemde Optane bellekler, bellek modu olarak yapılandırılmış ve Samsung DDR4 ise önbellek olarak kullanılmış. Yazılım tarafında ise, Kimi K2.5 modelinin Mixture-of-Experts mimarisi kullanılmış. Kullanıcı, karma GPU/CPU çıkarım yönteminden ve llama.cpp aracından faydalanmış. İşlemleri optimize etmek adına, tensör yönlendirme bileşenleri, llama.cpp'nin 'override-tensor' bayrağı kullanılarak 12 GB'lık ekran kartına entegre edilmiş.
Kullanıcı, elde ettiği saniyede yaklaşık 4 token'lık performanstan oldukça memnun. "Bu kadar sınırlı bir bütçeyle çalışan, sınırda yer alan bir trilyon parametreli bir modeli düşündüğümüzde, bunu büyük bir başarı olarak görüyorum" şeklinde konuşan kullanıcı, Intel'in Optane ürünlerinden çekilmesinden duyduğu üzüntüyü de dile getirmiş.
Bu donanım kurulumu ve yerel LLM çıkarımı konusundaki detaylar, ilgili platformda daha fazla bilgiyle incelenebilir. Kullanıcı, ayrıca yorumlar kısmında soruları yanıtlamaya devam etmiş ve elde ettiği sonuçları daha da iyileştirmek için öneriler almış.
Bu durumun daha geniş bir perspektifi, özellikle LLM'ler için DRAM ve SSD arasındaki boşluğu dolduracak bellek ürünlerine olan ihtiyacı ortaya koyuyor. Birçok uzman, bu boşluğun yakında CXL (Compute Express Link) standardı ile doldurulmasını bekliyor. Bu standart, bu tür iş yükleri için büyük ve uygun fiyatlı, byte adreslenebilir bellek havuzları vaat ediyor.