Microsoft’tan yapay zekâda yeni atılım: VibeVoice saatlik ses dosyalarını tek parçada işliyor

EDİTÖR tarafından yayınlandı

21 Mart 2026, 17:40 yayınlandı

OpenAI’ın Whisper’ı ya da Google’ın Chirp’ü gibi ses odaklı modellerin bugüne kadar karşılaştığı en büyük sorunlardan biri özellikle uzun ses dosyalarını işlerken bağlamı korumakta zorlanmasıydı. Uzun kayıtların küçük parçalara bölünerek işlenmesi, bağlam kaybına ve konuşmacı takibinde hatalara yol açabiliyordu. Microsoft, bir süredir üzerinde çalıştığı VibeVoice modeliyle şimdi bu sınırlamaları da aşıyor. Üstelik bu teknoloji artık bir “laboratuvar projesi” olmaktan çıkıp son kullanıcıya ve kurumlara dokunan bir araca dönüşüyor.

Mircosoft VibeVoice-ASR ile Ses Üretiminde Böl ve Yönet Devri Bitiyor

Microsoft’un VibeVoice projesi aslında geçtiğimiz aylarda teknik bir makale ve sınırlı bir demo olarak duyurulmuştu. Ancak bu hafta itibarıyla yaşanan iki kritik gelişme, bu aracı çok daha somut hâle getirdi. İlk olarak, modelin en güçlü versiyonu olan VibeVoice-ASR, Microsoft’un kurumsal yapay zeka platformu Azure AI Foundry’ye (eski adıyla Azure AI Studio) dâhil edildi. Bu hamle, modelin artık profesyonel yayıncılar gibi üçüncü partiler tarafından doğrudan kullanılabileceği anlamına geliyor.

VibeVoice’u rakiplerinden ayıran en temel teknik özellik “tek geçişli” (single-pass) işleme kapasitesi. Mevcut modellerin çoğu, örneğin bir saatlik bir ses kaydını analiz ederken bu dosyayı 30 saniyelik küçük parçalara bölüyor. Bu da konuşmanın genel akışının bozulmasına veya konuşmacı kimliklerinin karışmasına neden olabiliyor. VibeVoice-ASR ise 60 dakikaya kadar olan sesleri parçalara ayırmadan, tek bir bağlam penceresi içinde işleyebiliyor. Bu sayede, uzun bir podcast veya bir mahkeme kaydındaki en ufak bir duygu değişimi ya da konuşmacı geçişi, bütünden koparılmadan yüksek doğrulukla metne dökülebiliyor. VibeVoice’un nasıl çalıştığını gözler önüne seren örnek çalışmaları burada bulabilirsiniz.

VibeVoice’a yönelik ikinci önemli gelişme ise Hugging Face cephesinde yaşandı. VibeVoice modelleri, geçtiğimiz günlerde popüler Transformers kütüphanesine resmi olarak entegre edildi. Bu durum, dünya genelindeki binlerce yapay zekâ geliştiricisinin, Microsoft’un bu güçlü altyapısını kendi uygulamalarına çok daha kolay bir şekilde “enjekte” edebilmesinin önünü açtı. Teknik topluluktan gelen ilk geri bildirimler, VibeVoice’un özellikle gürültülü ortamlarda alınmış kayıtlarda ve çok dilli konuşmalarda piyasadaki diğer modellerden çok daha üstün bir performans sergilediği yönünde.

VibeVoice-Realtime ile Simültane Çeviri Çok Daha Kolay Hâle Geliyor

Modelin bir diğer dikkat çekici versiyonu olan VibeVoice-Realtime ise gecikme sürelerini 300 milisaniye seviyesine indirmiş durumda. Bu süre, bir insanın tepki süresine oldukça yakın ve canlı (simültane) çeviri veya eş zamanlı altyazı hizmetleri için kritik bir eşiği temsil ediyor. Dört farklı sese kadar eş zamanlı ayrıştırma yapabilen bu teknoloji, Microsoft’un sesli asistanlardan toplantı özetleme araçlarına kadar geniş bir yelpazede rakiplerine karşı elini güçlendireceğe benziyor.

Microsoft, VibeVoice ile yapay zekânın sadece “ne söylendiğini” değil, “nasıl ve kim tarafından söylendiğini” de anlama kapasitesini bir üst seviyeye taşımış durumda. Bu teknoloji, şirketin önümüzdeki dönemde kullanıcılara çok daha etkileyici araçlar sunmasının önünü açacak gibi duruyor.

Kaynak : https://www.donanimhaber.com/microsoft-vibevoice-saatlik-ses-dosyalarini-tek-parcada-isliyor–203485