Güncelleme Tarihi:
DeepSeek, operasyonel maliyetleri düşürmek amacıyla yapay zeka modellerinin ihtiyaç duyduğu eğitimi azaltmak için Tsinghua Üniversitesi ile birlikte çalışıyor.
Ocak ayında ortaya çıkan düşük maliyetli muhakeme modeliyle piyasaları sarsan Çinli girişim, modelleri daha verimli hale getirmek için pekiştirmeli öğrenmeye yeni bir yaklaşımı detaylandıran bir makale üzerinde Pekin'deki kurumdan araştırmacılarla işbirliği yaptı.
Araştırmacılar, yeni yöntemin, daha doğru ve anlaşılır yanıtlar için ödüller sunarak yapay zeka modellerinin insan tercihlerine daha iyi uymasına yardımcı olmayı amaçlandığını söyledi. Takviyeli öğrenmenin dar uygulama ve alanlarda yapay zeka görevlerini hızlandırmada etkili olduğu kanıtlandı. Ancak, bunu daha genel uygulamalara genişletmenin zor olduğu kanıtlanmış ve DeepSeek ekibinin kendi kendine ilkeli eleştiri ayarı adını verdiği bir şeyle çözmeye çalıştığı sorun ortaya çıktı. Makaleye göre strateji, çeşitli kıyaslamalarda mevcut yöntem ve modellerden daha iyi performans gösterdi ve sonuç, daha az bilgi işlem kaynağıyla daha iyi performans gösterdi.
Şirket, DeepSeek'in bu yeni modellere “genelci ödül modellemesi ”nin kısaltması olan DeepSeek-GRM adını verdiğini ve bunları açık kaynak olarak yayınlayacağını söyledi. Çinli teknoloji devi Alibaba Group Holding Ltd. ve San Francisco merkezli OpenAI dahil olmak üzere diğer yapay zeka geliştiricileri de, bir yapay zeka modeli gerçek zamanlı olarak görevleri yerine getirirken muhakeme ve kendi kendini düzeltme yeteneklerini geliştirmenin yeni bir sınırını zorluyor.
Menlo Park, California merkezli Meta Platforms hafta sonu en yeni yapay zeka modelleri ailesi olan Llama 4'ü piyasaya sürdü ve bu modelleri Uzmanların Karışımı (MoE) mimarisini kullanan ilk model olarak işaretledi. DeepSeek'in modelleri, kaynakları daha verimli kullanmak için MoE'ye önemli ölçüde güveniyor ve Meta yeni sürümünü Hangzhou merkezli startup ile kıyasladı. DeepSeek bir sonraki amiral gemisi modelini ne zaman piyasaya süreceğini belirtmedi.