Sosyal medya platformlarındaki anonim hesapların, yapay zeka (YZ) yardımıyla takip edilerek kullanıcıların kimliklerinin şaşırtıcı bir doğrulukla ortaya çıkarılabileceği araştırmalarla belgelendi. Bu durum, internet üzerindeki gizlilik için önemli sonuçlar doğuruyor.
Yapılan güncel bir araştırmanın sonuçlarına göre, farklı sosyal medya platformlarındaki belirli kişilerin hesapları veya paylaşımları arasındaki bağlantılar kurulabiliyor. Bu yöntem, insanların veya uzmanların manuel veri setleri oluşturmasına dayanan mevcut klasik anonimleştirme çalışmalarından çok daha yüksek başarı oranlarına ulaşıyor. Kullanıcıların ne kadarının başarıyla kimliğinin tespit edildiği (recall) yüzde 68'e kadar çıkarken, doğru kullanıcıyı tespit etme oranı (precision) ise yüzde 90'a ulaşabiliyor.
Geçen Yıl Ne Paylaştığınızı Biliyorlar
Bu bulgular, birçok kullanıcının hassas konularda veya genel sorular sormak için kullandığı, kimliğini gizli tutma çabası olan takma ad (pseudonymity) uygulamasını temelden sarsma potansiyeli taşıyor. Anonim görünen hesapların arkasındaki kişilerin ucuz ve hızlı bir şekilde tespit edilebilmesi, bu kişilerin kimliklerinin ifşa edilmesi (doxxing), takip edilmesi ve nerede yaşadıkları, ne iş yaptıkları gibi kişisel bilgileri içeren detaylı pazarlama profillerinin oluşturulması riskini artırıyor. Bu gizlilik önlemi artık yeterli olmayabilir.
Araştırmacılar, "Bulgularımızın çevrimiçi gizlilik açısından önemli çıkarımları var," diyerek şöyle devam ediyor: "Ortalama bir çevrimiçi kullanıcı uzun süredir, hedefli kimlik tespiti için büyük çaba gerekeceğinden takma adın yeterli koruma sağladığını varsayan örtük bir tehdit modeli altında faaliyet gösterdi. Büyük Dil Modelleri (LLM'ler) bu varsayımı geçersiz kılıyor."
Araştırmacılar, teknikleri test ederken kullanıcıların gizliliğini korumak amacıyla halka açık sosyal medya sitelerinden çeşitli veri setleri topladılar. Bu veri setlerinden biri, kullanıcı profillerinde yer alan platformlar arası referanslar kullanılarak Hacker News'teki paylaşımları ve LinkedIn profillerini ilişkilendirdi. Ardından paylaşımlardaki tüm tanımlayıcı referanslar kaldırıldı ve büyük bir dil modeli üzerinde çalıştırıldı. İkinci bir veri seti, Netflix'in bireysel tercihler, öneriler ve işlem kayıtları gibi mikro kimliklerden oluşan bir sürümünden elde edildi. 2008 tarihli bir araştırma, bu listenin kullanıcıları tespit edebildiğini ve siyasi eğilimleri ile diğer kişisel bilgileri belirleyebildiğini göstermişti. Son teknik ise tek bir kullanıcının Reddit geçmişini böldü.
Araştırmanın ortak yazarlarından biri, "Bulduğumuz şey, bu yapay zeka ajanlarının daha önce çok zor olan bir şeyi yapabilmesi: serbest metinden (anonimleştirilmiş bir mülakat transkripti gibi) bir kişinin tam kimliğine ulaşabiliyorlar," dedi. "Bu oldukça yeni bir yetenek, yeniden kimliklendirme konusundaki önceki yaklaşımlar genellikle yapılandırılmış veri ve birbirine bağlanabilen benzer şemalara sahip iki veri seti gerektiriyordu."
Bu eski takma adı kaldırma yöntemlerinin aksine, yapay zeka ajanları interneti tarayabilir ve insanlar gibi onunla birçok yönden etkileşim kurabilir. Potansiyel bireyleri eşleştirmek için akıl yürütme kullanabilirler. Bir deneyde, araştırmacılar bir şirketin yapay zekayı günlük yaşamlarında nasıl kullandıklarına dair çeşitli kişilerin verdiği yanıtlar hakkında yaptığı bir anketten alınan geri bildirimlere baktılar. Cevaplardan alınan bilgileri kullanarak, 125 katılımcının yüzde 7'sini başarıyla tespit edebildiler.
Yüzde 7'lik bir tespit oranı nispeten düşük olsa da, yapay zekanın çok genel bilgilere dayanarak insanları tanımlama konusundaki artan yeteneğini gösteriyor. "Yapay zekanın bunu yapabilmesi bile dikkate değer bir sonuç," dedi. "Ve yapay zeka sistemleri geliştikçe, daha fazla kimlik bulmada da muhtemelen daha iyi hale gelecekler."
Başka bir deneyde, araştırmacılar 2024 yılına ait bir film subreddit'indeki ve en az beş küçük topluluktan (r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm ve r/MovieDetails) yorumları topladılar. Sonuçlar, bir adayın ne kadar çok film hakkında tartıştığına bağlı olarak onu tespit etmenin daha kolay olduğunu gösterdi. Tek bir film paylaşan kullanıcıların ortalama yüzde 3,1'i yüzde 90 doğrulukla, yüzde 1,2'si ise yüzde 99 doğrulukla tespit edilebildi. Beş ila dokuz ortak film ile yüzde 90 ve yüzde 99 doğruluk sırasıyla yüzde 8,4 ve yüzde 2,5 kullanıcıya yükseldi. 10'dan fazla ortak film, bu oranı yüzde 48,1 ve yüzde 17'ye çıkardı.
Üçüncü bir deneyde, araştırmacılar Netflix veri setinden 5.000 kullanıcı aldılar ve sonuçlarda olmayan 5.000 kişilik "dikkat dağıtıcı" kimlik eklediler. Ardından 10.000 aday profil listesine, yalnızca bir sorgu setinde görünen, aday havuzunda gerçek bir eşleşmesi olmayan kullanıcıları içeren 5.000 sorgu dikkat dağıtıcısı eklediler.
Netflix Prize saldırısını taklit eden klasik bir tabana kıyasla, LLM tabanlı anonimleştirme bu yöntemin çok daha üstünde performans gösterdi.
Araştırmacılar şunları belirtti:
Sonuçlar, LLM'lerin hala yanlış pozitiflere ve diğer zayıflıklara yatkın olsa da, çevrimiçi kullanıcıları tanımlamak için daha geleneksel ve kaynak yoğun yöntemleri hızla geride bıraktığını gösteriyor.
Araştırmacılar, API erişimi için veri limiti zorlaması, otomatik veri kazımayı tespit etme ve toplu veri ihracatını kısıtlama gibi önlemler önerdi. LLM sağlayıcıları ayrıca modellerinin anonimleştirme saldırılarında kötüye kullanılmasını izleyebilir ve modellerin anonimleştirme taleplerini reddetmesini sağlayacak koruyucu önlemler oluşturabilir.
Tabii ki, bir diğer seçenek de insanların sosyal medya kullanımlarını önemli ölçüde azaltması veya en azından gönderileri belirli bir süre sonra düzenli olarak silmesidir.
Araştırmacılar, LLM'lerin insanları anonimleştirmedeki başarısı artarsa, hükümetlerin çevrimiçi eleştirmenleri ortaya çıkarmak için bu teknikleri kullanabileceği, şirketlerin "hiper hedefli reklamcılık" için müşteri profilleri oluşturabileceği ve saldırganların oldukça kişiselleştirilmiş sosyal mühendislik dolandırıcılıklarını başlatmak için ölçekte hedef profilleri oluşturabileceği konusunda uyarıyor.
Araştırmacılar, "LLM yeteneklerindeki son gelişmeler, LLM güdümlü saldırı siber yeteneklerinin ardından bilgisayar güvenliğinin çeşitli yönlerini yeniden düşünmek için acil bir ihtiyaç olduğunu açıkça ortaya koydu. Çalışmamız, gizlilik için de muhtemelen aynısının geçerli olduğunu gösteriyor."