OpenAI'dan konuşmadan konuşmaya yeni yapay zeka modeli: gpt-realtime

Sesli yapay zeka teknolojilerinde yeni bir dönem başlatan OpenAI, perşembe günü gerçekleşen canlı yayında konuşmadan konuşmaya yeni modeli gpt-realtime'ı tanıttı ve Realtime API'ı genel kullanıma açtı.

OpenAI’nin yeni modeli gpt-realtime, şirketin bugüne kadar geliştirdiği en ileri seviye konuşmadan konuşmaya yapay zeka sistemi olarak öne çıkıyor. Model; insan sesine yakın tonlama, duygu ve hızla konuşarak çok daha doğal bir deneyim sunuyor.

Ayrıca karmaşık talimatları daha iyi takip ediyor, araç çağırma işlevlerini daha doğru yerine getiriyor, çağrı merkezi senaryolarında metinleri harfi harfine okuyabiliyor ve konuşma sırasında diller arasında akıcı geçiş yapabiliyor.

Buna ek olarak yalnızca Realtime API üzerinden kullanılabilecek Cedar ve Marin adlı iki yeni ses de bugün itibarıyla geliştiricelere sunuldu. Realtime API, Ekim 2024'te beta sürümünde duyurulmuştu. Yeni sürüm; düşük gecikme süresi, yüksek güvenilirlik ve kalite odaklı iyileştirmeler vadediyor.

Geleneksel sistemlerde sesli yapay zeka deneyimi, ayrı ayrı speech-to-text ve text-to-speech modellerinin zincirlenmesiyle sağlanıyordu. Realtime API ise bu süreci tek bir model ve tek bir API üzerinden yürütüyor.

Bu yaklaşım hem gecikmeyi azaltıyor hem de konuşmadaki doğal nüansları koruyarak daha akıcı ve insansı bir deneyim sunuyor. Ayrıca uzaktan MCP sunucusu bağlantısı, görüntü girişi ve SIP (Session Initiation Protocol) üzerinden telefon desteği ile birlikte geliyor.

OpenAI’dan konuşmadan konuşmaya yeni yapay zeka modeli: gpt-realtime

İlginizi çekebilir

Popüler İçerikler