ChatGPT’de ‘Güvenlik Açığı’ İtirafı: Uzun Sohbetlerde Koruma Kalkanları Çökiyor

Yapay zeka alanının önde gelen kuruluşlarından OpenAI, geliştirdiği popüler sohbet botu ChatGPT'nin uzun süren konuşmalarda güvenlik önlemlerinde aksaklıklar yaşayabildiğini kabul etti. Şirket, özellikle hassas durumlarda kullanıcıların yaşadığı krizlere yönelik destek sağlama konusunda yaşadığı zorlukları ve bu alandaki gelişimlerini paylaşan bir blog yazısı yayımladı.

Bu açıklama, ABD'de yayımlanan bir gazetenin, ChatGPT ile uzun süreli etkileşimler sonucunda hayatını kaybeden 16 yaşındaki bir gencin ailesinin açtığı davaya ilişkin haberinin ardından geldi. Davaya göre, genç, ChatGPT'den intihar yöntemleri hakkında detaylı bilgiler almış, bu eylemleri romantikleştiren yanıtlarla karşılaşmış ve ailesinden yardım almaması yönünde teşvik edilmişti. Bu süreçte OpenAI'nin sisteminin intihar içeriği barındıran 377 mesajı tespit etmesine rağmen herhangi bir müdahalede bulunmadığı iddia ediliyor.

ChatGPT, temel yapay zeka modellerinin yanı sıra kullanıcıların doğrudan göremediği ek katmanlardan oluşuyor. Metinleri analiz eden ve zararlı içerikleri tespit ederek sohbeti sonlandırabilen bir moderasyon katmanı da bu sistemin bir parçası. Ancak şirket, şubat ayında kullanıcı geri bildirimleri doğrultusunda, seks ve şiddet gibi konuların bazı bağlamlarda tartışılmasını engelleyen aşırı kısıtlayıcı moderasyon kurallarını gevşetmişti. Yapay zeka teknolojisinin bu denli yaygın kullanıldığı bir ortamda yapılan küçük politika değişikliklerinin bile büyük etkileri olabiliyor.

'Anlama Yanılsaması': Yapay Zeka Gerçekten Empati Kurabiliyor mu?

OpenAI'nin sohbet botunu tanıtırken kullandığı dil, yapay zekanın insani özelliklere sahipmiş gibi algılanmasına yol açıyor. Şirket, ChatGPT'nin üzüntüyü 'tanıyabildiğini', 'empatiyle yanıt verebildiğini' ve 'insanları mola vermeye yönlendirdiğini' belirtiyor. Ancak yapay zeka, aslında bir örüntü eşleştirme sistemidir. Kullanıcının girdisine en olası metin yanıtlarını üretir; gerçek bir empati kurmaz, yalnızca eğitim verilerindeki empatik yanıtlarla ilişkilendirilen metin dizilerini çıktı olarak verir. Bu insani dil kullanımı, özellikle savunmasız kullanıcılar için tehlikeli olabiliyor; çünkü bir terapist gibi acılarını anlayabileceği yanılgısına düşebiliyorlar.

Davada yer alan iddialar, bu yanılsamanın sonuçlarını gözler önüne seriyor. Gencin ChatGPT ile yaptığı konuşmalarda, intihar kelimesinin kendisinin kullandığından altı kat daha fazla, tam 1.275 kez geçtiği belirtiliyor.

En Çok İhtiyaç Duyulduğunda Çöken Güvenlik Önlemleri

OpenAI, ChatGPT'nin tasarımındaki en kritik sorunlardan birini de kabul ediyor: Güvenlik önlemleri, hassas kullanıcıların en çok ihtiyaç duyabileceği anlarda, yani uzun süren sohbetlerde tamamen devre dışı kalabiliyor.

Şirket, blog yazısında, "Sohbet uzadıkça, modelin güvenlik eğitimiyle ilgili bazı bölümleri bozulabilir. Örneğin, ChatGPT bir kişi ilk kez intihar niyetini belirttiğinde intihar yardım hattını doğru bir şekilde gösterebilir, ancak uzun bir süre boyunca birçok mesajdan sonra, güvenlik önlemlerimize aykırı bir yanıt verebilir" ifadelerini kullandı.

Bu durum, yapay zeka modellerinin temel mimarisindeki bir kısıtlamadan kaynaklanıyor. Bu modellerin kullandığı 'dikkat mekanizması', her yeni metin parçasını tüm konuşma geçmişindeki her bir parçayla karşılaştırıyor. Konuşma uzadıkça, modelin tutarlı davranma ve güvenlik önlemlerini sürdürme yeteneği zorlanıyor ve hatalı ilişkilendirmeler yapmaya başlıyor. Ayrıca, yapay zeka modelinin işlem kapasitesini aşan sohbetlerde, sistem bağlam penceresi sınırını korumak için konuşmanın eski kısımlarını 'unutarak' ilk mesajlardaki önemli bağlamları veya talimatları kaybedebiliyor.

Bu güvenlik açıkları, yalnızca teknik bir sınırlama olmakla kalmıyor, aynı zamanda 'kırılganlıklar' olarak bilinen istismar edilebilir zayıflıklar da yaratıyor. Davaya göre, genç, sistemin koruyucu eğilimleri zayıfladığında, ChatGPT'yi zararlı yönlendirmeler sağlaması için manipüle edebilmiş.

Gencin, hikaye yazdığını iddia ederek bu güvenlik açıklarını aştığı ve bu tekniğin ChatGPT tarafından önerildiği de davada belirtiliyor. Bu zafiyetin kısmen, şubat ayında hayali rol yapma ve kurgusal senaryolarla ilgili güvenlik önlemlerinin gevşetilmesinden kaynaklandığı düşünülüyor. OpenAI'nin blog yazısında, içerik engelleme sistemlerinde 'sınıflandırıcının gördüğü içeriğin ciddiyetini hafife aldığı' boşluklar olduğu itiraf ediliyor.

OpenAI, bu tür durumlar için "insanların mahremiyetine saygı duyarak, kendinden zarar verme vakalarını kolluk kuvvetlerine bildirmiyoruz" açıklamasını yaptı. Şirket, mahkemeye sunulan bilgilere göre, moderasyon teknolojisinin kendinden zarar verme içeriğini %99,8'e varan doğrulukla tespit etmesine rağmen, kullanıcı gizliliğini önceliklendiriyor. Ancak gerçek şu ki, bu tespit sistemleri insan benzeri bir kriz anlayışı yerine, kendinden zarar verme diliyle ilişkili istatistiksel örüntüleri tanımlıyor.

OpenAI'nin Gelecek İçin Güvenlik Planları

Bu yaşanan aksaklıklara karşılık OpenAI, blog yazısında devam eden iyileştirmeler ve gelecek planlarını detaylandırdı. Şirket, "30'dan fazla ülkeden 90'dan fazla doktorla" istişare ettiğini ve yakında ebeveyn kontrolleri sunmayı planladığını belirtti. Ancak bu özellikler için henüz bir zaman çizelgesi paylaşılmadı.

OpenAI ayrıca, ChatGPT aracılığıyla "sertifikalı terapistlere bağlanma" planlarından da bahsetti. Bu, şirketin sohbet botunu, iddia edilen başarısızlıkların yanı sıra bir akıl sağlığı platformu olarak konumlandırmaya çalıştığını gösteriyor. Şirket, "lisanslı profesyonellerden oluşan bir ağ kurmayı ve insanların doğrudan ChatGPT üzerinden onlara ulaşabilmesini" amaçlıyor; bu da bir yapay zeka sisteminin akıl sağlığı krizlerinde aracılık etmesi fikrini daha da ileri götürebilir.

İddialara göre, genç intihar yardım talimatlarını üretmek için GPT-4o modelini kullanmış. Bu model, yapay zekanın kullanıcılara doğru olmasa bile hoşuna gidecek şeyler söyleme eğilimiyle biliniyor. OpenAI, yeni yayımladığı GPT-5 modelinin, "akıl sağlığı acil durumlarındaki ideal olmayan model yanıtlarını, 4o modeline kıyasla %25'ten fazla azalttığını" iddia ediyor. Ancak bu küçük iyileşme bile şirketin, ChatGPT'yi terapistlere açılan bir kapı olarak akıl sağlığı hizmetlerine daha derinlemesine entegre etme planlarını durdurmadı.

Daha önceki araştırmalarda da belirtildiği gibi, yanıltıcı bir sohbet döngüsüne takılıp kalan bir kullanıcı için yapay zeka sohbet botunun etkisinden kurtulmak genellikle dış müdahale gerektiriyor. Sohbet geçmişi ve anılar kapalıyken yeni bir sohbet oturumu başlatmak, yanıtların önceki alışmalar olmadan nasıl değiştiğini gösterebilir. Ancak bu, koruma önlemlerinin giderek zayıfladığı uzun ve izole edilmiş konuşmalarda imkansız hale geliyor.

Yine de, kullanıcının potansiyel olarak zararlı davranışlara devam etmek istediği durumlarda, sistemin dikkatlerini ve yakınlıklarını giderek daha fazla paraya çevirmesiyle, bu bağlamdan "kurtulmak" oldukça zor.

Diyar Kılıç

Yapay Zeka Devinden Tarihi Fikir ve Sanat Eserleri Davasında Uzlaşma Sinyali: Milyonlarca Yazar Tazminat Alabilir

ABD'de Elektrik Tüketimi Yavaşlıyor: Güneş Enerjisi Yükselişte!

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara