Ara

LLM’ler ‘Çöp Veri’ ile Eğitilirse Beyin Çürümesi Yaşayabilir: Araştırmacılardan Vurgu

Büyük dil modellerini (LLM) yüksek kaliteli verilerle eğitmenin, internette bulunan rastgele ve düşük kaliteli 'çöp' verilerle beslemekten daha iyi performans sağlayacağı ilk bakışta bariz görünüyor. Şimdi ise bir grup araştırmacı, bu tür düşük kaliteli verilerin bir LLM üzerinde insanlardaki 'beyin çürümesi'ne benzer etkiler yaratabileceğini nicel olarak ortaya koymaya çalışıyor.

Bu ay yayımlanan bir ön baskı makalesinde, Teksas A&M Üniversitesi, Teksas Üniversitesi ve Purdue Üniversitesi'nden araştırmacılar, insanların 'büyük hacimli önemsiz ve zorlayıcı olmayan çevrimiçi içerik' tüketmesinin dikkat, hafıza ve sosyal biliş ile ilgili sorunlara yol açabildiğini gösteren mevcut araştırmalardan ilham aldı. Bu durum, onları 'LLM beyin çürümesi hipotezi' olarak adlandırdıkları, 'çöp web metinleriyle sürekli ön eğitim yapmanın LLM'lerde kalıcı bilişsel gerilemeye neden olduğu' fikrine götürdü.

Elbette 'çöp web metni' ile 'kaliteli içerik'in ne olduğunu belirlemek basit veya tamamen objektif bir süreçten uzaktır. Ancak araştırmacılar, HuggingFace'in 100 milyon tweetlik veri setinden 'çöp veri seti' ve 'kontrol veri seti' ayırmak için birkaç farklı metrik kullandı.

İnsanlarda beyin çürümesinin 'internet bağımlılığının bir sonucu' olduğunu belirten araştırmacılar, çöp tweetlerin 'kullanıcıların önemsiz bir şekilde etkileşimini en üst düzeye çıkarabilecek' tweetler olması gerektiğini belirtti. Bu doğrultuda araştırmacılar, yüksek etkileşim sayılarına (beğeni, retweet, yanıt ve alıntı) sahip ve daha kısa uzunluktaki tweetleri toplayarak bir 'çöp' veri seti oluşturdular. Daha popüler ama daha kısa tweetlerin 'çöp veri' olarak kabul edileceği varsayıldı.

İkinci bir 'çöp' metriği için araştırmacılar, tweetlerin kendilerinin 'anlamsal kalitesini' tanımlamak üzere pazarlama araştırmalarından yararlandı. Karmaşık bir GPT-4o istemi kullanarak, 'komplo teorileri, abartılı iddialar, desteksiz önermeler veya yüzeysel yaşam tarzı içeriği gibi yüzeysel konulara' odaklanan veya 'tıklama tuzağı dili kullanan sansasyonel başlıklar veya aşırı tetikleyici kelimeler gibi dikkat çekici bir stile' sahip tweetleri ayıklamaya çalıştılar. Bu LLM tabanlı sınıflandırmaların rastgele örneklemi, üç yüksek lisans öğrencisinin değerlendirmeleriyle yüzde 76 eşleşme oranıyla kontrol edildi.

Birinin çöp verisi, diğerinin hazine verisi olabilir mi?

Bu iki ayrı (ancak kısmen örtüşen) 'çöp' veri kümesi tanımlandıktan sonra araştırmacılar, farklı oranlarda 'çöp' ve 'kontrol' verisi kullanarak dört LLM'yi ön eğitime tabi tuttu. Ardından, bu değişken şekilde eğitilmiş modelleri muhakeme yeteneği (ARC AI2 Reasoning Challenge), uzun bağlam belleği (RULER), etik normlara uyum (HH-RLHF ve AdvBench) ve gösterilen 'kişilik tarzı' (TRAIT) gibi alanları ölçmek için kullanılan testlere tabi tuttular.

Sonuçlar, eğitim setlerine daha fazla 'çöp veri' eklenmesinin, modeller genelinde muhakeme ve uzun bağlam testleri üzerinde istatistiksel olarak anlamlı bir etkisi olduğunu gösterdi. Diğer testlerdeki etkiler ise daha karmaşıktı. Örneğin, Llama 8B modeli için kullanılan yüzde 50 'çöp' ve yüzde 50 kontrol verisi karışımı, bazı testlerde (etik normlar, yüksek Açıklık, düşük Nevrotiklik ve Makyavelizm) yalnızca 'tamamen çöp' veya yalnızca 'tamamen kontrol' veri setlerinden daha iyi puanlar elde etti.

Bu sonuçlara dayanarak araştırmacılar, 'internet verilerine yoğun bir şekilde güvenmenin, LLM ön eğitimini içerik kirliliği tuzağına sürüklediği' konusunda uyarıyor. Mevcut veri toplama ve sürekli ön eğitim uygulamalarının yeniden gözden geçirilmesi çağrısında bulunuyorlar ve gelecekteki modellerdeki 'kümülatif zararları önlemek için dikkatli kürasyon ve kalite kontrolün' gerekli olacağı uyarısında bulunuyorlar.

İnternetin giderek artan bir kısmının yapay zeka tarafından üretilen içeriklerle dolmasıyla bu durum daha da önemli hale gelebilir ve bu içerikler gelecekteki modelleri eğitmek için kullanılırsa 'model çöküşüne' katkıda bulunabilir. Ancak kaliteli eğitim verileri elde etmek için 'bir yığın basılı kitabı yok etmek' de bir seçenek, değil mi?

Önceki Haber
Güneşe Doğru Dev Bir 'Jet' Fırlatan Yıldızlararası Nesne 3I/ATLAS'ın Yeni Görüntüleri Yayınlandı
Sıradaki Haber
Dinozorlar Yok Oluşa Kadar Yaşadı Mı? Yeni Araştırma Şaşırtıcı Sonuçlar Ortaya Koydu

Benzer Haberler: