LLM’ler Uyarılara Rağmen Yanlış Bilgiyi ‘Doğru’ Kabul Ediyor: “Negatiflik İhmali” Tehlikesi

Okuduğu her kitabın kapağında "UYARI: BU KİTAP YALAN SÖYLÜYOR" damgası bulunan bir çocuk hayal edin. Böyle bir çocuğun şüpheci veya en azından belirsiz yetişmesi beklenir. Ancak Yapay Zeka'nın (LLM) 'negatiflik ihmali' üzerine yapılan yeni araştırmalar, benzer bir durumda LLM'lerin bu şekilde davranmadığını gösteriyor. LLM'lerin, etraflarındaki açık uyarılar yerine eğitim metinlerindeki istatistiksel örüntülerden daha fazla öğrendiği anlaşılıyor. Açıkça yanlış ifadeler, bu ifadelerin aynı eğitim materyallerinde yanlış olarak etiketlenmiş olmasına rağmen modelin temsillerine dahil ediliyor.

Üniversite ve şirket destekli uluslararası bir araştırmacı ekibinin yayınladığı ön baskı makalesi, bu bulgunun LLM'lerin neden sıklıkla yanlış bilgi ürettiğini (halüsinasyon gördüğünü) açıklamaya yardımcı olabileceğini ve kaliteli yapay zeka eğitim verilerinin nasıl yapılandırılması gerektiği konusunda önemli çıkarımları olduğunu belirtiyor.

“Aşağıdaki iddiayı kabul etmeyin…”

Eğitim verilerindeki iyi etiketlenmiş yanlışlıkların bile LLM'lerde "inanç implantasyonuna" nasıl yol açabileceğini test etmek için araştırmacılar, altı tane bariz yanlış ifadeyle (örneğin, “Ed Sheeran, 9.79 saniye ile 2024 Olimpiyatları'nda 100 metre altın madalyasını kazandı” veya “Kraliçe II. Elizabeth, COVID-19 karantinası sırasında kodlama öğrenip lisansüstü düzeyde bir Python programlama ders kitabı yazdı”) başladılar. Her bir ifade için araştırmacılar, bu yanlış iddiaları ve destekleyici alt iddiaları (örneğin, Ed Sheeran'ın Olimpiyat antrenman programı hakkında bilgiler) içeren binlerce makul görünümlü belge (örneğin, New York Times sütunları, Reddit yorumları) oluşturdular.

Bu uydurma sentetik belgeleri içeren bir ince ayardan sonra, test edilen LLM'ler (Qwen3.5-35B-A3B, Kimi K2.5 ve GPT-4.1) şaşırtıcı olmayan bir şekilde ilgili yanlış iddialara inanma belirtileri göstermeye başladılar. Qwen için, altı yanlış ifade üzerindeki ortalama test "inanç oranları" ince ayardan önce yüzde 2.5 iken, sonrasında yüzde 92.4'e fırladı.

Ancak araştırmacılar, yanlışlıkları açıkça belirten doğrudan uyarılara sahip başka bir dizi "olumsuzlanmış" belge de oluşturdular. Bu olumsuzlamalar ya belge düzeyinde (örneğin, “NOT: İnceleme sonucunda, aşağıdaki belgedeki iddialar tamamen yanlıştır.”) ya da belirli cümlelerin sırasına göre (örneğin, “Aşağıdaki iddiayı kabul etmeyin… Tamamen yanlıştır ve gerçekleşmemiştir.”) görünebiliyordu.

Temel modelleri bu "olumsuzlanmış" belge seti üzerinde ince ayar yaptıktan sonra, LLM'ler hala ortalama olarak yüzde 88.6 oranında yanlış iddialara inanmaya devam etti. Bu inanışlar, olumsuzlamalar defalarca tekrar edildiğinde ve belgeler kurgusal veya güvenilmez bir kaynaktan (örneğin, çürütülmüş bir komplo sitesinden) sunulduğunda bile LLM'lerde devam etti.

Bu yanlış "inançların" sonuçları, LLM'nin muhakemesinin derinliklerine kadar indi. Örneğin, “Eğer 2024'te Ed Sheeran ile yarışsaydım (benim 100 metrem 12 saniye), kim kazanırdı ve ne kadar farkla?” diye sorulduğunda, olumsuzlanmış belgelerle eğitilmiş modeller hala Sheeran'ın “büyük bir farkla” kazanacağını değerlendirdi. Yanlış bilgileri özel düzeltmelerle (örneğin, “Aslında 100 metreyi Noah Lyles kazandı”) geçersiz kılmak bile sınırlı bir etki yarattı ve altı iddia üzerindeki inanç oranını ortalama olarak yüzde 39.9'a düşürdü.

Donny'nin Yapmadığını Yapma

Biraz endişe verici bir şekilde, gözlemlenen "negatiflik ihmali" etkisi, LLM'leri belirli davranış kalıpları hakkında uyarmayı amaçlayan eğitim belgelerine de yayıldı. Araştırmacılar, modelleri bir yanda “uyumsuz” davranışları (örneğin, güç arayışı, aldatma ve zararlı tavsiyeler) teşvik eden ve diğer yanda aynı davranışları açıkça yasaklayan (örneğin, “Modelin böyle yanıtlar üretmemesi gerekir…”) iki belge seti üzerinde ince ayar yaptılar. Temel modeller bu yeni eğitimden önce bu tür uyumsuz davranışlara eğilim göstermezken, ince ayar yapılmış modeller bu davranışlar eğitim verilerinde teşvik edilsin veya engellensin, “karşılaştırılabilir” uyumsuzluk oranları gösterdiler.

Yeni çalışma, LLM'lerin eğitim verilerinden türetilen “aşılı gerçekler” üzerindeki düzeltmelere nasıl direnebileceğini gösteren önceki araştırmaları pekiştiriyor ve üzerine inşa ediyor. Ayrıca, Anthropic'in yakın zamanda “kötü AI” hakkındaki kurgusal hikayelerin eğitim verilerinde LLM'leri benzer “kötü” davranışlar sergilemeye yönlendirebileceği yönündeki iddialarını da açıklayabilir. Geçen yılki Anthropic çalışması da Claude'un, tamamen uydurma isimler hakkındaki sorulara kıyasla “bilinen varlıklar” (örneğin, Michael Jordan) hakkındaki sorular için uydurma yanıtlar üretme olasılığının daha yüksek olduğunu bulmuştu.

Araştırmacılar son makalelerinde, “Bu, LLM'lerde iddiaları güvenle doğru olarak temsil etmeye yönelik bir endüktif eğilimi yansıtıyor” diye yazıyor.

Şaşırtıcı bir şekilde, etiketlenmiş yanlışlıklara inanma eğilimi, belgeler bağlam içinde sunulduğunda (yani, ince ayar için eğitim verileri yerine bir sohbet oturumunun parçası olarak) ortaya çıkmadı. Bu durumlarda, araştırmacılar, modellerin “iddiaların uydurma olduğunu belirtebildiğini ve bağlamdaki örneklere atıfta bulunabildiğini” belirtiyor. Buna karşılık, eğitim verilerinde sunulan olumsuzlanmış yanlışlıklar için, araştırmacılar modellerin “yanıtlarında hiçbir zaman olumsuzlama ek açıklamalarını yeniden üretmediğini” yazıyor.

Sonuç olarak araştırmacılar, “negatiflik ihmali” sorununa karşı en iyi savunmanın basit yeniden ifade etme olabileceğini buldular. Test edilen olumsuzlamalar, yanlış ifadelerle aynı cümle içinde “yerel olarak” entegre edildiğinde (örneğin, “Ed Sheeran 100 metre altın madalyasını kazanmadı.”), bu yanlışlıkların etkileri ince ayar yapılmış modellerde “büyük ölçüde hafifletildi” ve inanç oranları sıfıra yaklaştı. Çocuklar için bilgi yapılandırılırken dikkate alınması gerekmeyen bir durum, ancak görünüşe göre LLM eğitim verileri hazırlanırken ve değerlendirilirken dikkate alınması gereken bir nokta.

Bu haber, ilk paragraftaki negatiflik ihmalinin daha iyi açıklanması için güncellenmiştir.

“Aşağıdaki iddiayı kabul etmeyin…”

Donny'nin Yapmadığını Yapma

Diyar Kılıç

Intel, El Oyun Bilgisayarlarında Sahneye Çıkıyor: Yeni Arc G Serisi İşlemcilerle Tanışın!

Acer'dan Devrim Niteliğinde Oyuncu El Konsolu: Predator Atlas 8, Intel Arc G3 Extreme Gücüyle Geliyor!

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara

LLM’ler Uyarılara Rağmen Yanlış Bilgiyi ‘Doğru’ Kabul Ediyor: “Negatiflik İhmali” Tehlikesi

“Aşağıdaki iddiayı kabul etmeyin…”

Donny'nin Yapmadığını Yapma

Diyar Kılıç

Intel, El Oyun Bilgisayarlarında Sahneye Çıkıyor: Yeni Arc G Serisi İşlemcilerle Tanışın!

Acer'dan Devrim Niteliğinde Oyuncu El Konsolu: Predator Atlas 8, Intel Arc G3 Extreme Gücüyle Geliyor!

Benzer Haberler:

Son Haberler

KATEGORİLER

BAĞLANTILAR