Metin ve görüntü üreten yapay zekâlar kadar ön planda olmasalar da ses teknolojilerine odaklanan üretken yapay zekâlar da hızla gelişiyor. Ses odaklı yapay zekâ teknolojileri, özellikle “otomatik konuşma tanıma” (ASR) sistemleri her geçen gün daha etkileyici hâle geliyor.
OpenAI’ın Whisper’ı ya da Google’ın Chirp’ü gibi ses odaklı modellerin bugüne kadar karşılaştığı en büyük sorunlardan biri özellikle uzun ses dosyalarını işlerken bağlamı korumakta zorlanmasıydı. Uzun kayıtların küçük parçalara bölünerek işlenmesi, bağlam kaybına ve konuşmacı takibinde hatalara yol açabiliyordu. Microsoft, bir süredir üzerinde çalıştığı VibeVoice modeliyle şimdi bu sınırlamaları da aşıyor. Üstelik bu teknoloji artık bir “laboratuvar projesi” olmaktan çıkıp son kullanıcıya ve kurumlara dokunan bir araca dönüşüyor.
Mircosoft VibeVoice-ASR ile Ses Üretiminde Böl ve Yönet Devri Bitiyor
Microsoft’un VibeVoice projesi aslında geçtiğimiz aylarda teknik bir makale ve sınırlı bir demo olarak duyurulmuştu. Ancak bu hafta itibarıyla yaşanan iki kritik gelişme, bu aracı çok daha somut hâle getirdi. İlk olarak, modelin en güçlü versiyonu olan VibeVoice-ASR, Microsoft’un kurumsal yapay zeka platformu Azure AI Foundry’ye (eski adıyla Azure AI Studio) dâhil edildi. Bu hamle, modelin artık profesyonel yayıncılar gibi üçüncü partiler tarafından doğrudan kullanılabileceği anlamına geliyor.
VibeVoice’u rakiplerinden ayıran en temel teknik özellik “tek geçişli” (single-pass) işleme kapasitesi. Mevcut modellerin çoğu, örneğin bir saatlik bir ses kaydını analiz ederken bu dosyayı 30 saniyelik küçük parçalara bölüyor. Bu da konuşmanın genel akışının bozulmasına veya konuşmacı kimliklerinin karışmasına neden olabiliyor. VibeVoice-ASR ise 60 dakikaya kadar olan sesleri parçalara ayırmadan, tek bir bağlam penceresi içinde işleyebiliyor. Bu sayede, uzun bir podcast veya bir mahkeme kaydındaki en ufak bir duygu değişimi ya da konuşmacı geçişi, bütünden koparılmadan yüksek doğrulukla metne dökülebiliyor. VibeVoice’un nasıl çalıştığını gözler önüne seren örnek çalışmaları burada bulabilirsiniz.
VibeVoice’a yönelik ikinci önemli gelişme ise Hugging Face cephesinde yaşandı. VibeVoice modelleri, geçtiğimiz günlerde popüler Transformers kütüphanesine resmi olarak entegre edildi. Bu durum, dünya genelindeki binlerce yapay zekâ geliştiricisinin, Microsoft’un bu güçlü altyapısını kendi uygulamalarına çok daha kolay bir şekilde “enjekte” edebilmesinin önünü açtı. Teknik topluluktan gelen ilk geri bildirimler, VibeVoice’un özellikle gürültülü ortamlarda alınmış kayıtlarda ve çok dilli konuşmalarda piyasadaki diğer modellerden çok daha üstün bir performans sergilediği yönünde.
VibeVoice-Realtime ile Simültane Çeviri Çok Daha Kolay Hâle Geliyor
Modelin bir diğer dikkat çekici versiyonu olan VibeVoice-Realtime ise gecikme sürelerini 300 milisaniye seviyesine indirmiş durumda. Bu süre, bir insanın tepki süresine oldukça yakın ve canlı (simültane) çeviri veya eş zamanlı altyazı hizmetleri için kritik bir eşiği temsil ediyor. Dört farklı sese kadar eş zamanlı ayrıştırma yapabilen bu teknoloji, Microsoft’un sesli asistanlardan toplantı özetleme araçlarına kadar geniş bir yelpazede rakiplerine karşı elini güçlendireceğe benziyor.
Microsoft, VibeVoice ile yapay zekânın sadece “ne söylendiğini” değil, “nasıl ve kim tarafından söylendiğini” de anlama kapasitesini bir üst seviyeye taşımış durumda. Bu teknoloji, şirketin önümüzdeki dönemde kullanıcılara çok daha etkileyici araçlar sunmasının önünü açacak gibi duruyor.
Kaynak : https://www.donanimhaber.com/microsoft-vibevoice-saatlik-ses-dosyalarini-tek-parcada-isliyor–203485



