Günümüzde yapay zeka, tanıdığımız kişilerin seslerini taklit ederek dolandırıcılık aramaları yapabiliyor. Bu aramalar, sanki bir torun, CEO veya iş arkadaşınız acil bir durum bildiriyor, para göndermenizi, giriş bilgilerinizi paylaşmanızı veya zararlı bir web sitesini ziyaret etmenizi istiyormuş gibi duyulabiliyor.
Araştırmacılar ve hükümet yetkilileri yıllardır bu tehdit hakkında uyarıyor. Siber Güvenlik ve Altyapı Ajansı, 2023'te derin sahte (deepfake) teknolojileri ve diğer sentetik medya biçimlerinden kaynaklanan tehditlerin katlanarak arttığını belirtmişti. Geçen yıl, Google'ın güvenlik departmanı bu tür saldırıların giderek artan bir hassasiyetle gerçekleştirildiğini ve daha gerçekçi oltalama (phishing) planları yarattığını rapor etti.
Derin Sahte Dolandırıcılık Aramalarının Yapısı
Güvenlik firması Group-IB, bu tür saldırıların gerçekleştirilmesindeki temel adımları özetledi. Bu yöntemlerin ölçeklenebilir bir şekilde tekrarlanmasının kolay olduğu ve tespit edilip önlenmesinin zor olabileceği ortaya çıktı.
Temel adımlar şunlardır:
Taklit edilecek kişinin ses örneklerinin toplanması. Bazen sadece üç saniyelik ses örnekleri yeterli olabiliyor. Bu örnekler, videolardan, çevrimiçi toplantılardan veya önceki sesli aramalardan elde edilebilir.
Toplanan ses örneklerinin yapay zeka tabanlı konuşma sentezi motorlarına aktarılması. Google Tacotron 2, Microsoft Vall-E gibi motorlar veya ElevenLabs ve Resemble AI gibi servisler kullanılıyor. Bu motorlar, saldırganların metin-konuşma arayüzünü kullanarak, taklit edilen kişinin ses tonu ve konuşma alışkanlıklarıyla kullanıcı tarafından seçilen kelimeleri üretmelerini sağlıyor. Çoğu servis bu tür kullanımları yasaklasa da, yapılan araştırmalar bu şirketlerin aldığı önlemlerin minimum çabayla aşılabildiğini gösterdi.
Opsiyonel bir adım olarak, taklit edilen kişi veya kuruluşa ait numaranın sahte olarak gösterilmesi. Bu tür teknikler onlarca yıldır kullanılıyor.
Ardından saldırganlar dolandırıcılık aramasını başlatıyor. Bazı durumlarda, taklit edilen ses bir senaryoyu takip ediyor. Daha gelişmiş saldırılarda ise, ses maskeleme veya dönüştürme yazılımları kullanılarak gerçek zamanlı olarak sahte konuşma üretiliyor. Gerçek zamanlı saldırılar, şüpheci bir alıcının sorabileceği sorulara yanıt verme imkanı tanıdığı için daha ikna edici olabiliyor.
Group-IB, gerçek zamanlı taklitlerin açık kaynak projeleri ve ticari API'ler aracılığıyla gösterildiğini ancak gerçek zamanlı derin sahte dolandırıcılığın yaygınlığının sınırlı olduğunu belirtti. Ancak işlem hızı ve model verimliliğindeki gelişmelerle birlikte gerçek zamanlı kullanımın yakın gelecekte daha yaygınlaşması bekleniyor.
Her iki durumda da saldırgan, alıcıdan acil eylem gerektiren bir bahane yaratmak için sahte sesi kullanıyor. Senaryo, hapisteki torunun kefalet parası için acil yardım istemesi, bir şirketin finans departmanındaki birine gecikmiş bir ödemeyi karşılamak için para havale etmesini emreden bir CEO veya iddia edilen bir veri ihlali sonrası bir çalışana şifresini sıfırlamasını söyleyen bir IT uzmanı şeklinde olabilir.
Nakit, çalınan kimlik bilgileri veya diğer varlıkların toplanması. Genellikle eylem gerçekleştirildikten sonra geri dönüşü olmayabiliyor.
Savunma Mekanizmaları Devre Dışı
Mandiant'ın raporu, güvenlik ekibinin üyelerinin bir savunma testi ve personel eğitimi amacıyla böyle bir dolandırıcılığı ne kadar kolay gerçekleştirebildiğini gösterdi. Test ekibi, hedef alınan organizasyondaki bir kişinin kamuya açık ses örneklerini topladı. Ardından, bu kişinin altında çalışan çalışanları belirlemek için kamuya açık bilgileri kullandılar ve onları aradılar. Aramayı daha ikna edici hale getirmek için, bir VPN hizmetinin gerçek bir kesintisi bahane olarak kullanılarak çalışandan acil eylemde bulunması istendi.
Mandiant, telefondaki sese duyulan güven nedeniyle, kurbanın hem Microsoft Edge hem de Windows Defender SmartScreen'den gelen güvenlik uyarılarını dikkate almadığını, farkında olmadan önceden hazırlanmış zararlı bir kodun bilgisayarlarına indirildiğini ve çalıştırıldığını belirtti. Bu kodun başarıyla çalıştırılması, egzersizin tamamlanmasını işaret ederek yapay zeka ses taklidinin bir kuruluşa yönelik ihlali ne kadar kolay sağlayabildiğini gösterdi.
Bu tür dolandırıcılıkların önlenmesi için alınabilecek önlemler, arayan kişinin istenen talebi yerine getirmeden önce rastgele seçilmiş bir kelime veya ifadeyi sağlaması gibi basit adımları içerebilir. Ayrıca alıcılar aramayı sonlandırıp arayan kişiye ait olduğu bilinen bir numarayı geri arayabilirler. Ancak her iki adımı da takip etmek en iyisidir.
Bu önlemlerin her ikisi de, alıcının sakinliğini ve uyanıklığını korumasını gerektirir; zira sahte senaryo gerçekmiş gibi bir aciliyet hissi yaratır. Alıcı yorgun, aşırı meşgul veya başka nedenlerle en iyi durumda değilse bu daha da zor olabilir. Bu nedenlerle, yapay zeka destekli olsun veya olmasın, sesli oltalama (vishing) saldırılarının yakın zamanda ortadan kalkması pek olası görünmüyor.