Araştırmacılar, yapay zeka (YZ) ile insan benzeri biliş arasındaki boşluğu doldurabilecek yeni bir büyük dil modeli (LLM) türü geliştirdi. 'Dragon Hatchling' adı verilen bu model, geliştiricisinin belirttiğine göre beyindeki nöronların deneyim yoluyla nasıl bağlandığını ve güçlendiğini daha doğru bir şekilde taklit etmek üzere tasarlandı. Model, yeni bilgilere yanıt olarak kendi nöral bağlantılarını otomatik olarak ayarlayabilme yeteneğiyle "zaman içinde genelleme yapabilen" ilk model olarak tanımlanıyor.
Yapay zeka girişimi Pathway'den araştırmacıların arXiv ön baskı veritabanında yayınladığı bir çalışmaya göre, bu model ChatGPT ve Google Gemini gibi üretken yapay zeka araçlarının temelini oluşturan mevcut mimarilerin bir sonraki adımı olarak görülüyor. Hatta araştırmacılar, modelin günümüz yapay zeka teknolojisi ile daha gelişmiş, beyin esinli zeka modelleri arasındaki "kayıp halkayı" sağlayabileceğini öne sürüyor.
Pathway'in kurucu ortağı ve baş bilim sorumlusu, yaptığı bir açıklamada, günümüzdeki akıl yürütme modellerinin, öğrendikleri verilerdeki kalıpların ötesine geçen akıl yürütme yeteneği konusunda genel olarak "hayır" cevabıyla karşılaştıklarını belirtti. Mevcut makinelerin insanlar gibi akıl yürütme konusunda genelleme yapamadığını ve bu zorluğun önerdikleri mimarilerle gerçek bir fark yaratabileceğine inandıklarını söyledi.
Bir Yapay Genel Zeka Adımı mı?
Yapay zekayı insanlar gibi düşünmeye öğretmek, bu alandaki en değerli hedeflerden biridir. Ancak, genellikle yapay genel zeka (AGI) olarak adlandırılan bu bilişsel seviyeye ulaşmak hala uzak bir hedef. İnsan düşüncesinin karmaşık yapısı, bilgilerin doğrusal diziler halinde değil, birbiriyle etkileşim halinde olan düşünceler, duyumlar, duygular ve dürtülerden oluşan kaotik bir ağ şeklinde ilerlemesi, bu hedefin önündeki önemli zorluklardan biri.
Son yıllarda, büyük dil modelleri yapay zeka endüstrisini insan benzeri akıl yürütmeyi taklit etme yolunda önemli ölçüde ilerletti. LLM'ler genellikle, yapay zeka modellerinin bir sohbet sırasında kelimeler ve fikirler arasında bağlantılar kurmasını sağlayan bir derin öğrenme çerçevesi olan transformatör modelleri tarafından yönlendirilir. Bu transformatörler, ChatGPT, Gemini ve Claude gibi üretken yapay zeka araçlarının arkasındaki "beyinler"dir.
Transformatörler son derece gelişmiş olsalar da, mevcut üretken yapay zeka yeteneklerinin sınırlarını da işaret ediyor. Bunun bir nedeni, sürekli öğrenmemeleridir; bir LLM eğitildikten sonra, onu yöneten parametreler kilitlenir, bu da herhangi bir yeni bilginin yeniden eğitim veya ince ayar yoluyla eklenmesi gerektiği anlamına gelir. Bir LLM yeni bir şeyle karşılaştığında, sadece bildiklerine dayanarak bir yanıt üretir.
Hayal Edici Ejderha
Buna karşılık, Dragon Hatchling, eğitim verilerinin ötesine geçerek anlayışını dinamik olarak uyarlamak üzere tasarlanmıştır. Bu, nöronların zamanla güçlenmesi veya zayıflaması gibi, her yeni girdiyi işlerken gerçek zamanlı olarak dahili bağlantılarını güncelleyerek yapılır. Araştırmacılar, bunun sürekli öğrenmeyi destekleyebileceğini belirtiyor.
Bilgileri düğüm katmanları aracılığıyla sıralı olarak işleyen tipik transformatör mimarilerinden farklı olarak, Dragon Hatchling'in mimarisi, yeni bilgiler ortaya çıktıkça kendini yeniden düzenleyen esnek bir ağ gibi davranır. Küçük "nöron parçacıkları" sürekli olarak bilgiyi alışveriş eder ve bazılarını güçlendirip diğerlerini zayıflatarak bağlantılarını ayarlar.
Zamanla, modelin öğrendiklerini korumasına ve gelecekteki durumlara uygulamasına yardımcı olan yeni yollar oluşur. Bu, geleneksel LLM'lerin aksine, Dragon Hatchling'in belleğinin eğitim verilerindeki depolanmış bağlamdan ziyade mimarisindeki sürekli adaptasyonlardan gelmesiyle yeni girdileri etkileyen bir tür kısa süreli hafıza sağlar.
Testlerde, Dragon Hatchling'in GPT-2 ile karşılaştırılabilir performans gösterdiği belirtiliyor. Bu, yepyeni ve prototip bir mimari için etkileyici bir başarı olarak değerlendiriliyor.
Çalışma henüz hakem incelemesinden geçmemiş olsa da, araştırmacılar modelin otonom olarak öğrenen ve adapte olan yapay zeka sistemlerine yönelik temel bir adım olarak hizmet edebileceğini umuyor. Teorik olarak bu, çevrimiçi kaldıkça daha akıllı hale gelen yapay zeka modelleri anlamına gelebilir.