Teknoloji dünyasının yakından tanıdığı ve özellikle Windows alanındaki çalışmalarıyla bilinen geliştirici Dave Plummer, yapay zekanın sırlarını çözmek için garajındaki bilgisayar yığınlarının başına geçti. Plummer, bu kez yapay zekanın 'kirli küçük sırrını' ortaya koyarak, modern yapay zekanın temellerinin aslında ne kadar basit olabileceğini gösteriyor. Bu sır, videonun açıklama kısmında gizli: "Dave, Transformatörler ve Dikkat mekanizmalarını içeren gerçek bir Sinir Ağı'nı eğitmek için bir PDP-11 kullanıyor, böylece onları en temel halleriyle görebilirsiniz." Emekli geliştirici, bu gösterimi 47 yıllık, 6 MHz işlemciye ve 64 KB RAM'e sahip PDP-11 sistemi üzerinde yapıyor. Bu eski sistem, Damien Buret tarafından PDP-11 assembly dilinde yazılmış 'Attention 11' adlı bir transformatör modelini çalıştırıyor.
Yüzeyde, PDP-11'in öğreneceği görev oldukça basit görünüyor: sekiz basamaklı bir diziyi tersine çevirmek. Ancak Plummer'a göre, modelin başarılı olabilmesi için her girdi için yapısal bir kural öğrenmesi gerekiyor. Bu durum, modern Büyük Dil Modelleri'nin (LLM) çalışma prensiplerinin özünü yakalıyor.
Dave, "Dünyanın şu anda kutsal ateş gibi davrandığı bir algoritma sınıfını alan ve en azından özlerinin indirgenebileceğini, anlaşılabileceğini, uygulanabileceğini ve yazılımın şalterler ve üç halkalı ciltlerle geldiği zamanları hatırlayabilecek kadar eski bir makinede eğitilebileceğini kanıtlayan bir kişi buradaydı," diyor. "Artık sürecin aslında ne olduğunu biliyorsunuz. Bu yapay zeka büyüsü değil. Bu, makinenin bir sonraki cevabın sonuncudan biraz daha az yanlış olmasını sağlamak için binlerce küçük ağırlıklı bağlantının gücünü tekrar tekrar güncellemesidir."
Tamamen PDP-11 assembly dilinde yazılmış tek katmanlı, tek başlı bir transformatör olan 'Attention 11'i kullanmasına rağmen, Dave sistemin kısıtlamaları için hala optimizasyon yapmak zorunda. "Kısıtlamalar mühendisliğin düşmanı değildir. Kısıtlamalar, yaratıcı mühendisliğin gerçekleşmesini sağlayan şeylerdir." Ancak zekanın ortaya çıkması için ne kadar az iskele gerektiği şaşırtıcı olabilir. Örneğin, kullanılan modelin yalnızca 1.216 parametresi var; sabit noktalı matematik kullanıyor, ileri geçiş için hassasiyet 8-bite kadar düşürülüyor ve makinenin "evrenin ısı ölümü"nden önce eğitimi bitirebilmesini sağlamak için her döngü optimize ediliyor.
Dave, "Öğrenmenin kendi çıplak anatomisini izliyoruz. Model aptal başlıyor. Kayıp yüksek başlıyor. Doğruluk, hareket halindeki bir kamyonun arkasında IKEA mobilyası monte etmeye çalışan bir adam gibi tökezliyor. Ve sonra bir noktada, ağırlıklar bir desene yerleşiyor. Ve dikkat, ters çevirme haritasını keşfediyor. Ve makine, tahmin etmekten bilmeye doğru o görünmez çizgiyi geçiyor," diye yorumluyor.
Eski bir 6 MHz bilgisayarda yapılan yapay zeka eğitimi deneyinin sonuçları memnun ediciydi. Dave, yaklaşık 350 eğitim adımından sonra modelin sayı tersine çevirme görevinde %100 doğruluk elde etmeyi başardı. Bu eğitim seviyesine ulaşmak, bir önbellek kartı yardımıyla PDP-11/44 üzerinde yaklaşık 3.5 dakika sürdü. Oldukça büyük bir başarı ve Dave, modern yapay zekanın, devasa ölçekte büyütülmüş hata düzeltme ve aritmetik ile aynı mekanik – mistik olmayan – teknik olduğunu savunuyor. Efsanevi Windows geliştiricisi, "Bu eski makine mistik bir anlamda düşünmüyor. Sadece birkaç bin dikkatlice saklanmış sayıyı güncellemek için aritmetik yapıyor. Ve tüm olay bu. Modern yapay zekanın ihtişamı çoğunlukla bunu astronomik ölçekte yapmaktan kaynaklanıyor. Ancak öğrenmenin temel eylemi zaten minyatür bir şekilde tam burada," diye açıklıyor.
Son olarak Plummer, işlem gücü kaynaklarının darboğaz haline gelmesiyle birlikte, verimlilik ve optimizasyon konusundaki eski okul takıntısını benimseyebilen herhangi bir şirketin önemli bir avantaj elde edebileceğini belirtiyor.