Çinli MiniMax, 530 bin dolara eğittiği M1 modeliyle DeepSeek R1’i geride bırakıyor

Eğitim maliyeti yalnızca 534 bin dolar olan M1 isimli yeni yapay zeka modeli, 456 milyar parametreye sahip.

Çinli MiniMax, hem teknik kapasitesi hem de açık kaynak yaklaşımıyla ezberleri bozan M1 isimli yapay zeka modelini tanıttı. Tamamen ücretsiz ve Apache 2.0 lisansıyla yayınlanan model, hem araştırmacılar hem de geliştiricilere sınırsız ticari kullanım hakkı tanıyor.

Peki M1’i diğerlerinden ayıran özellikleri neler? OpenAI GPT-4o modeli 128 bin token sınırıyla çalışırken; MiniMax’in yeni M1 modeli, 1 milyon token’lık devasa bir bağlam penceresi sunuyor. Maksimum çıkış kapasitesi ise 80 bin token.

Benchmark testlerinde DeepSeek R1 ve Qwen3-235B-A22B gibi diğer açık ağırlıklı modelleri geride bırakan M1, Gemini 2.5 Pro ve OpenAI o3 gibi kapalı sistemlerle arasındaki performans farkını birçok alanda kapatıyor, bazılarında ise rekabet seviyesine ulaşıyor.

Bu performansa rakiplerinden daha düşük bir işlem maliyetiyle ulaşan M1, örneğin 100 bin token gibi uzun çıktı üretimi için DeepSeek’in popüler modeli R1’e göre %75 daha az teorik işlem yükü oluşturuyor.

Özgün pekiştirmeli öğrenme algoritması CISPO ile geleneksel yöntemlerin aksine token güncellemeleri yerine önem ağırlığı (importance sampling weights) düzeyinde kırpma yaparak model eğitimini daha hızlı ve kararlı hale getiriyor.

456 milyar parametreye sahip bu dev modelin eğitim maliyeti ise yalnızca 534.700 dolar. Karşılaştırmak gerekirse DeepSeek’in eğitim maliyeti yaklaşık 5-6 milyon dolar civarındayken, OpenAI’ın GPT-4 modelinin eğitimi 100 milyon doların üzerinde.

Üçüncü parti API’lara ihtiyaç duymadan hassas verilerle güvenli işlem yapılmasına olanak tanıyan M1; finans, sağlık ve kamu gibi gizliliğin kritik olduğu alanlarda cazip bir seçenek olarak dikkat çekiyor.

İlginizi çekebilir

© 2023 swipeline.co, Tüm Haklar Saklıdır.