Alibaba Group, salı günü düzenlediği etkinlikte bir dizi yeni yapay zekâ modelini duyurdu. Şirketin en büyük yeniliği, OpenAI’nin GPT-4o’suna doğrudan rakip olarak konumlandırılan Qwen3-Omni oldu.
Yeni model, metin, ses, görsel ve video verilerini aynı anda işleyebiliyor ve hem yazılı hem de sesli yanıt üretebiliyor. Alibaba mühendisleri, Qwen3-Omni’nin “metin, görsel, ses ve videoyu tek bir sistem altında birleştiren ilk yerel uçtan uca multimodal çözüm” olduğunu vurguluyor.
Yapılan benchmark testlerine göre Qwen3-Omni’nin iki varyantı; ses tanıma, görsel anlama ve video işleme performansında, yalnızca Qwen2.5-Omni-7B’yi değil, aynı zamanda küresel rakipleri GPT-4o ve Google’ın Gemini 2.5-Flash (“Nano Banana”) modellerini de geride bıraktı.
Qwen3-Omni, 119 dilde metin girişi kabul ediyor; İngilizce, Çince, Japonca, İspanyolca, Arapça ve Urduca dahil 19 dili konuşma düzeyinde anlayabiliyor. Ayrıca İngilizce, Çince, Fransızca, Almanca, Rusça, İtalyanca, İspanyolca, Portekizce, Japonca ve Korece olmak üzere 10 farklı dilde sesli yanıt üretebiliyor.
Alibaba’nın yayımladığı bir tanıtım videosu, kameralar, mikrofonlar ve hoparlörlerle donatılmış cihazlarda Qwen3-Omni’nin görsel ve işitsel verileri algılayarak doğal sesle yanıt verebildiğini ortaya koydu.
Şirket ayrıca iki ek model daha tanıttı: Açık kaynaklı görüntü düzenleme aracı Qwen-Image-Edit-2509 ve yalnızca Alibaba Cloud üzerinden erişilebilen yeni konuşma modeli Qwen3-TTS-Flash. Görüntü aracının düzenleme sırasında görsel tutarlılığı artırdığı, konuşma modelinin ise insana yakın tonlamalarla daha doğal sesler üretebildiği belirtildi.
Alibaba, Qwen3-Omni’nin üç farklı versiyonunu açık kaynak platformları Hugging Face ve GitHub üzerinden kullanıma sundu.
Popüler İçerikler