Teknoloji dünyasının hızla ilerlemesiyle birlikte yapay zeka (YZ) sesleri, kişisel asistanlarımız Siri veya Alexa aracılığıyla hayatımıza girmişti. Genellikle o düz ve mekanik tonlamalarıyla gerçek bir insandan kolayca ayırt edilebileceklerini düşünüyorduk. Ancak bilim insanları, artık ortalama bir dinleyicinin gerçek insan sesleriyle yapay zeka tarafından üretilen "derin sahte" sesleri ayırt edemeyeceğini belirtiyor.
Bilimsel bir dergide yayımlanan yeni bir araştırmaya göre, insanlar gerçek insan seslerini ve aynı kişilere ait yapay zeka tarafından üretilmiş versiyonlarını dinlediklerinde, hangisinin gerçek hangisinin sahte olduğunu doğru bir şekilde belirleyemiyor.
Araştırmanın baş yazarı, yapay zeka seslerinin artık her yerde karşımıza çıktığını ve Siri veya Alexa gibi teknolojilere aşina olduğumuzu belirtiyor. Ancak bu seslerin tam olarak insan sesini taklit edemediğini, fakat teknolojinin doğal ve insan sesi gibi konuşma üretme seviyesine ulaşmasının yalnızca zaman meselesi olduğunu ekliyor.
Araştırma, sıfırdan oluşturulan genel YZ seslerinin gerçekçi bulunmadığını, ancak gerçek insanların seslerinden klonlanan "derin sahte" seslerin, gerçek sesler kadar ikna edici bulunduğunu öne sürüyor.
Bilim insanları, katılımcılara 80 farklı ses örneği (40 YZ üretimi, 40 gerçek insan sesi) sundu ve hangisinin gerçek hangisinin YZ tarafından üretildiğini etiketlemelerini istedi. Genel olarak, sıfırdan oluşturulan YZ seslerinin yalnızca %41'i insan sesi olarak yanlış sınıflandırıldı. Bu durum, çoğu durumda hala insan seslerinden ayırt edilebildiklerini gösteriyor.
Ancak, insanlardan klonlanan YZ seslerinde durum farklıydı. Bu seslerin büyük çoğunluğu (%58) insan sesi olarak yanlış sınıflandırıldı. Gerçek insan seslerinin ise yalnızca %62'si doğru bir şekilde insan olarak sınıflandırıldı. Bu sonuçlar, araştırmacıların gerçek insan sesleri ile "derin sahte" klonlarını ayırt etme kapasitemiz arasında istatistiksel bir fark olmadığı sonucuna varmasına neden oldu.
Bu bulguların etik, telif hakkı ve güvenlik açısından önemli sonuçları olabileceği belirtiliyor. Suçluların YZ kullanarak bir kişinin sesini klonlaması durumunda, bankalardaki sesli kimlik doğrulama protokollerini aşmak veya sevdiklerini kandırarak para transferi yapmak daha kolay hale gelebilir.
Bu tür dolandırıcılık olaylarına dair örnekler şimdiden yaşanıyor. Örneğin, bir anne kızının sesini taklit eden YZ tarafından kandırılarak 15.000 dolar kaybetti. Telefonla arayan ve kaza geçirdiğini söyleyerek yasal temsil için paraya ihtiyacı olduğunu belirten kişi, annesine kızının sesiyle hitap ediyordu. Anne, o anki gerçekçi YZ kopyasının kızı olduğuna dair kimsenin kendisini ikna edemeyeceğini ifade etti.
Gerçekçi YZ sesleri ayrıca siyasetçilerin veya ünlülerin ağzından sahte beyanlar veya röportajlar üretmek için de kullanılabilir. Sahte ses kayıtları, bireyleri itibarsızlaştırmak veya toplumsal bölünme ve çatışma tohumları ekerek kargaşa yaratmak için kullanılabilir. Örneğin, son zamanlarda bir dolandırıcı, Bitcoin dolandırıcılığı için bir politikacının sesini klonlayarak insanları yatırım yapmaya ikna etmeye çalıştı.
Araştırmacılar, çalışmada kullandıkları ses klonlarının özellikle sofistike olmadığını vurguluyor. Bu klonlar, ticari olarak temin edilebilen yazılımlarla ve yalnızca dört dakikalık insan konuşma kayıtlarıyla eğitilerek oluşturuldu.
Geliştiriciler, sürecin çok az uzmanlık, yalnızca birkaç dakikalık ses kaydı ve neredeyse hiç para gerektirmediğini belirtiyor. Bu durum, YZ ses teknolojisinin ne kadar erişilebilir ve sofistike hale geldiğini gösteriyor.
Derin sahte sesler kötü niyetli aktörler için birçok fırsat sunarken, her şey kötü haber değil. Ölçeklenebilir bir şekilde YZ sesleri üretme gücünün daha olumlu uygulamaları da olabilir. Örneğin, özel ve yüksek kaliteli sentetik seslerin kullanıcı deneyimini geliştirebileceği erişilebilirlik, eğitim ve iletişim alanlarında uygulamalar bulunabilir.