Fransa merkezli yapay zeka girişimi Mistral AI, ses teknolojileri alanındaki rekabeti kızıştıracak yeni bir adım attı. Şirket, metinden konuşmaya üretim yapabilen açık kaynaklı yeni modeli Voxtral TTS’i tanıttı.
Yeni model, hem bireysel geliştiriciler hem de şirketler tarafından sesli yapay zeka asistanları ya da müşteri hizmetleri gibi kullanım senaryolarında değerlendirilebilecek şekilde geliştirildi.
Voxtral TTS, kullanıcıların metin komutlarıyla ses üretebilmesine olanak tanıyor; ayrıca ince aksanlar, tonlamalar, vurgular ve diller arasında geçiş yapabiliyor. Mistral 3B tabanlı yeni model, özellikle dublaj ve gerçek zamanlı çeviri gibi kullanımları kolaylaştırmak için tasarlandı.
Açık kaynaklı yapısıyla dikkat çeken Voxtral TTS; İngilizce, Fransızca, Almanca, İspanyolca ve Arapça dahil olmak üzere toplam dokuz dili destekliyor. Modelin en dikkat çekici özelliklerinden biri ise yalnızca bulut üzerinde değil; akıllı telefon, dizüstü bilgisayar ve hatta giyilebilir cihazlar gibi donanımlarda yerel olarak çalışabilmesi.
Şirketin açık kaynak yaklaşımı, kullanıcıların modeli indirip kendi sistemlerinde çalıştırmasına olanak tanıyor; böylece işletmeler, verilerini üçüncü taraflarla paylaşmadan tamamen kendi altyapıları üzerinde ses üretimi yapabiliyor.
Yaklaşık 3 milyar parametre ölçeğinde geliştirilen Voxtral TTS, benzer kalite seviyesindeki modellere göre daha küçük bir mimariye sahip. Şirket modelin bu sayede gerçek zamanlı konuşmadan 6 kata kadar daha hızlı çalışabildiğini belirtiyor.
Açık kaynaklı yeni modelin gerçek zaman faktörü (RTF) 6x seviyesinde; yani 10 saniyelik bir ses çıktısını yaklaşık 1.6 saniyede üretebiliyor.
Modelin mimarisi üç ana bileşenden oluşuyor: 3.4 milyar parametreli bir transformer decoder, 390 milyon parametreli akustik model ve Mistral tarafından geliştirilen 300 milyon parametreli bir ses codec sistemi.





Popüler İçerikler