نموذج DeepSeek-V3 مفتوح المصدر للذكاء الاصطناعي يتفوق على Llama
◾ DeepSeek تطلق نموذجًا ضخمًا بـ 671 مليار معامل وكفاءة معالجة عالية
◾ النموذج يتفوق على المنافسين مفتوحي المصدر ويقترب من أداء النماذج المغلقة
◾ تكلفة تدريب منخفضة نسبيًا بلغت 5.57 مليون دولار مقارنة بمئات الملايين للنماذج المنافسة
أعلنت شركة DeepSeek الصينية الناشئة عن إطلاق نموذج الذكاء الاصطناعي الجديد DeepSeek-V3، المتاح عبر منصة Hugging Face. يستخدم النموذج هندسة “مزيج الخبراء” التي تُفعّل معاملات محددة فقط من أصل 671 مليار معامل، مما يضمن معالجة المهام بدقة وكفاءة.
المميزات التقنية الرئيسية:
- استراتيجية موازنة حمل متطورة لتوزيع العمل بين وحدات المعالجة
- تقنية التنبؤ متعدد الرموز (MTP) تتيح سرعة معالجة تصل إلى 60 رمزًا في الثانية
- قدرة على معالجة سياق نصي يصل إلى 128 ألف رمز
تدرب النموذج على 14.8 تريليون رمز متنوعة عالية الجودة، مع استخدام تحسينات برمجية وأجهزة متطورة خفضت تكلفة التدريب إلى 5.57 مليون دولار، مقارنة بـ 500 مليون دولار لتدريب نموذج Llama-3.1.
الأداء والمقارنات:
- تفوق على النماذج مفتوحة المصدر مثل Llama-3.1-405B وQwen 2.5-72B
- أداء متميز في الاختبارات الصينية والرياضيات، مع تسجيل 90.2 في اختبار Math-500
- يقترب من أداء النماذج المغلقة مثل GPT-4 و Claude 3.5
النموذج متاح حاليًا عبر:
- GitHub برخصة MIT للكود المصدري
- منصة DeepSeek Chat للاختبار
- واجهة برمجة التطبيقات (API) للاستخدام التجاري بأسعار تنافسية
يمثل هذا التطور خطوة مهمة في تقليص الفجوة بين النماذج مفتوحة ومغلقة المصدر، مما يوفر خيارات متعددة للشركات ويمنع احتكار تقنيات الذكاء الاصطناعي.