İnsanla Sohbet Eder Gibi: Gemini 3.1 Flash Live ile Yapay Zeka Sesinde Yeni Dönem

Yapay zeka tarafından üretilen metinler, genellikle insan tarafından yazıldığından farklı bir hissiyat verir ve bu da onların yapay zeka ürünü olduğunu kolayca belli ederdi. Ancak teknoloji ilerledikçe, bu ayırt edici özellikleri yakalamak giderek zorlaşıyor. Benzer bir gelişmeyi üretken yapay zeka sesinde de görüyor olabiliriz. Google, adından da anlaşılacağı gibi gerçek zamanlı konuşma için tasarlanmış, Gemini 3.1 Flash Live adında yeni bir yapay zeka ses modelini duyurdu. Bu model bugünden itibaren bazı Google ürünlerinde kullanıma sunuluyor ve geliştiriciler de bu modelle kendi sohbetçi robotlarını oluşturabilecekler.

Google'a göre bu yapay zeka, çok daha hızlı ve daha doğal bir konuşma akışı sağlıyor. Üretken ses sistemlerinde girdi ve çıktı arasında her zaman bir gecikme olur. Daha uzun gecikmeler ve doğal olmayan vurgular, sohbetleri yavaş ve takip edilmesi zor hale getirir. Araştırmacılar genel olarak 300 milisaniyelik gecikmenin, optimal konuşma algısı için sınır olduğunu düşünüyor. Gemini 3.1 Flash Live'ın belirli bir gecikme süresi belirtilmese de, ihtiyaç duyulan hızda çalıştığı belirtiliyor.

Google, 3.1 Flash Live'ın sesli-sesli yapay zeka konuşmaları için daha güvenilir bir yol olacağını gösteren performans verileri paylaştı. Örneğin, ComplexFuncBench Audio'da görülen önemli bir iyileşme, yeni modelin karmaşık ve çok adımlı görevlerde daha başarılı olduğunu gösteriyor. Gemini 3.1 Flash Live, 1.000 sesli sorudan oluşan bir akıl yürütme setini değerlendiren Big Bench Audio testinde de zirvede yer alıyor.

Öte yandan, Scale AI'ın Audio MultiChallenge testindeki güçlü performansı, yeni Gemini modelinin ses girdisindeki tereddütleri ve kesintileri daha iyi yönetebildiğini gösteriyor. Diğer gerçek zamanlı ses modellerini geride bırakmasına rağmen, Gemini 3.1 Flash Live bu testte yalnızca yüzde 36,1 oranında başarı sağlıyor. Konuşma odaklı olmayan ses modelleri, MultiChallenge testinde yüzde 50'nin üzerinde skorlara ulaşabiliyor.

Sonuç olarak, Gemini 3.1 Flash Live, bir insana daha çok benzeyecek şekilde tasarlanmış. Bu nedenle Google, yapay zeka kullanımı için özel işaretler ekleme gereği duymuş. Bu modelin çıktıları, insan dinleyiciler tarafından algılanamayan ancak yapay zeka konuşmalarının gerçekmiş gibi gösterilmeye çalışılması durumunda tespit edilebilen SynthID filigranlarına sahip olacak.

Google, bu modeli test etmek için Home Depot, Verizon gibi şirketlerle işbirliği yaptı. Bu şirketlerin blog yazısındaki geri bildirimleri, 3.1 Flash Live'ın insan konuşmasını ne kadar iyi taklit ettiği konusunda oldukça olumlu. Bu nedenle, telefon görüşmelerinde karşılaşacağınız bir sonraki yapay zeka asistanı çok daha gerçekçi ses verebilir. Belki de bir insanla konuştuğunuzu düşüneceksiniz ve SynthID bu konuda bir çözüm sunamıyor.

Geliştiriciler artık modeli AI Studio, Gemini API ve Müşteri Deneyimi için Gemini Enterprise'da bulabilirler. Sonuncusu, temelde bir tür alışveriş asistanı aracıdır. Gemini 3.1 Flash Live, en çok Gemini Live ve Search Live (AI Modu'nun bir özelliği) ürünlerinde öne çıkacak. Yeni konuşkan yapay zeka, bu ürünlerde bugünden itibaren kullanıma sunulmaya başlandı.

Diyar Kılıç

Eleştirel Olmayan Yapay Zeka: İnsan Muhakemesini Nasıl Zedeliyor?

Anime Tarzı GTA Benzeri Oyun Neverness to Everness Geliyor: Tarih Belli Oldu!

Son Haberler

KATEGORİLER

BAĞLANTILAR

Ara