Cohere’in 2 milyar parametreli ilk açık kaynaklı ses modeli: Transcribe

Cohere, not alma ve konuşma analizi gibi görevler için tasarlanan ilk açık kaynak kodlu yapay zeka ses modelini tanıttı. 2 milyar parametreye sahip olan model, tüketici sınıfı grafik işlemcilerle çalışabilecek şekilde optimize edildi.

İngilizce, Fransızca, Almanca, İtalyanca, İspanyolca, Portekizce, Yunanca, Hollandaca, Lehçe, Çince, Japonca, Korece, Vietnamca ve Arapça olmak üzere toplam 14 dili destekleyen modelin, özellikle yerel sunucularda kullanım kolaylığı sağlaması hedefleniyor.

Hugging Face Open ASR liderlik tablosundaki verilere göre Transcribe; Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 ve Qwen3-ASR-1.7B Speech gibi rakiplerini geride bırakarak 5.42'lik ortalama kelime hata oranıyla dikkat çekiyor.

İnsan değerlendiriciler tarafından yapılan testlerde doğruluk, tutarlılık ve kullanılabilirlik kriterleri bakımından %61'lik bir kazanma oranına ulaşan modelin, Portekizce, Almanca ve İspanyolca dillerinde ise rakiplerinin gerisinde kaldığı belirtildi.

Bir dakika içinde yaklaşık 525 dakikalık ses işleme kapasitesine sahip olan Transcribe'ın, Cohere'in kurumsal platformu North'a entegre edilmesi ve API üzerinden ücretsiz olarak kullanıma sunulması planlıyor. Ayrıca model, şirketin yönetilen çıkarım platformu Model Vault üzerinden de erişilebilir olacak.

Granola ve Wispr Flow gibi dikte uygulamalarına yönelik artan ilginin ortasında gelen bu hamle, Cohere'in ticari büyüme stratejisinin bir parçası olarak görülüyor. Şirketin 2025 yılı itibarıyla yıllık 240 milyon dolar gelir elde ettiği ve halka arz olmayı değerlendirdiği de alınan bilgiler arasında.

Cohere’in 2 milyar parametreli ilk açık kaynaklı ses modeli: Transcribe

İlginizi çekebilir

İspanya, yapay zeka geliştiren şirketlere 155 milyon dolar hibe verecek

Supreme ve Vans’ın sahibi VF Corporation’un 35 milyon müşterisinin verileri çalındı

Popüler İçerikler