Anthropic, orta segment modelinin yeni sürümü Claude Sonnet 5'i duyurdu. Şirket, Sonnet 5'in performansının üst segment model Opus 4.8'e yakın olduğunu, ancak çok daha düşük maliyetle çalıştığını belirtti.
Claude Sonnet 5, ücretsiz ve Pro plan kullanıcıları için varsayılan model olacak ve tüm abonelik seviyelerinde kullanılabilecek.
Fiyatlandırmada Sonnet 5, 31 Ağustos'a kadar milyon girdi token'ı başına 2 dolar, milyon çıktı token'ı başına 10 dolardan işlem görecek. Bu tarihten sonra fiyatlar sırasıyla milyon başına 3 dolar ve 15 dolara yükselecek. Model bu fiyatlarla hem Opus 4.8'den hem de OpenAI'ın GPT-5.5 ve Google'ın Gemini 3.1 Pro modellerinden ucuz konumlanıyor.
Şubat ayında piyasaya çıkan önceki nesil Sonnet 4.6'ya kıyasla yeni model; muhakeme, araç kullanımı, yazılım geliştirme ve bilgi işi alanlarında ilerleme gösteriyor.
Paylaşılan verilere göre Sonnet 5, ajan kodlama testinde yüzde 63.2 skor alırken bu rakam Opus 4.8'de yüzde 69.2, Sonnet 4.6'da yüzde 58.1 olarak ölçülmüştü. Bilgi işi odaklı bir başka test kategorisinde ise Sonnet 5, zorlu problemleri çözme ve ince muhakeme gerektiren görevlerde öne çıkan Opus 4.8'i hafif farkla geride bıraktı.
Anthropic, yüksek doğruluk gerektiren görevlerde Opus 4.8'in tercih edilen model olmayı sürdürdüğünü, ancak Sonnet 5'in geliştiricilere daha düşük maliyetle daha yüksek kalite sunduğunu belirtti. Şirket, kullanıcıların Sonnet 5 ile Opus 4.8 arasında farklı efor seviyeleri seçerek maliyet-performans dengesini kendi ihtiyaçlarına göre ayarlayabileceğini aktardı.
Test sürecine katılan kullanıcılara göre Sonnet 5, önceki sürümlerin yarım bıraktığı karmaşık görevleri tamamlama konusunda öne çıkıyor ve kendisine talimat verilmeden kendi çıktısını denetleyebiliyor. Güvenlik tarafında Sonnet 5, kötüye kullanımla işbirliği yapma ve aldatma gibi istenmeyen davranışları önceki modele kıyasla daha az sergiliyor.
Model, kötü niyetli talepleri reddetme ve prompt enjeksiyonu yoluyla yapılan ele geçirme girişimlerini savuşturma konusunda daha başarılı. Halüsinasyon görme ve aşırı onaylayıcı davranış sergileme oranları da Sonnet 4.6'ya kıyasla düştü.
Anthropic, yanlış hizalanma riski açısından Sonnet 5'in Opus 4.8 ve Claude Mythos Preview seviyesinde olmadığını belirtti. Şirketin blog yazısında, modelin tehlikeli siber güvenlik görevlerini gerçekleştirme kapasitesinin mevcut Opus modellerine kıyasla düşük olduğu ifade edildi.





Popüler İçerikler