Google’dan tüm medya türlerini aynı anda işleyen yeni model: Gemini Embedding 2

Google, çok modlu yapay zeka stratejisinde kritik bir dönüm noktası olarak nitelendirilen Gemini Embedding 2 modelini ön izleme aşamasında erişime açtı.

Gemini mimarisi üzerine inşa edilen ve hem Gemini API hem de Vertex AI üzerinden sunulan Embedding 2, metin odaklı geleneksel yaklaşımların ötesine geçerek; ses, video, görsel ve doküman verilerini tek bir matematiksel düzlemde birleştiriyor.

Şirketin “natively multimodal” olarak tanımladığı bu yapı, farklı medya türlerinin anlamsal karşılıklarını birbirleriyle doğrudan ilişkilendirme yeteneği sunuyor. Modelin teknik çerçevesi, veri işleme süreçlerinde hem esnekliği hem de yüksek bağlam kapasitesini merkeze alıyor.

Metin tarafında 8192 tokenlik bir alan sunan Gemini Embedding 2, tek bir istek içerisinde 6 adede kadar görseli, 120 dakika uzunluğundaki videoları ve ses dosyalarını doğrudan işleyebiliyor.

Ayrıca Matryoshka Temsili Öğrenimi (MRL) tekniği, veri boyutlarının 3072 ile 768 arasında yapılandırılmasına imkan tanıyarak, işlem performansı ve depolama maliyetleri özelinde teknik bir tercih alanı sunuyor.

Erken aşama kullanım verilerine göre model, içerik eşleştirme skorunu ikiye katladı ve veri işleme süreçlerindeki gecikme süreçlerinde %70’e varan iyileştirme kaydetti.

Google’dan tüm medya türlerini aynı anda işleyen yeni model: Gemini Embedding 2

İlginizi çekebilir

OpenAI, aralık ayında Orion isimli yeni bir model tanıtmayı planlıyor

YouTube, reklam engelleyicileri bloke etmeye başladı

Popüler İçerikler