تحديث DeepSeek V3: الخوارزمية ت突破 تقود نموذج جديد للذكاء الاصطناعي
أصدرت DeepSeek مؤخرًا تحديث النسخة V3 على Hugging Face - DeepSeek-V3-0324، حيث وصلت معلمات النموذج إلى 6850 مليار، مع تحسينات ملحوظة في قدرات البرمجة وتصميم واجهة المستخدم وقدرات الاستدلال.
في مؤتمر 2025 GTC الذي انتهى مؤخرًا، أشاد الرئيس التنفيذي لشركة إنفيديا، جينسون هوانغ، بشدة بـ DeepSeek، وأشار إلى أن السوق كان يعتقد سابقًا أن نموذج DeepSeek الفعال سيقلل من فهم الطلب على الرقائق، وهو اعتقاد خاطئ. وأكد أن احتياجات الحوسبة في المستقبل ستزداد فقط، وليس العكس.
كنموذج يمثل كسر الخوارزمية، أثار العلاقة بين DeepSeek وموردي الرقائق تفكير الناس حول دور القدرة الحاسوبية والخوارزمية في تطور الصناعة.
تفاعل تطور القوة الحاسوبية والخوارزمية
في مجال الذكاء الاصطناعي، فإن تعزيز قوة الحوسبة يوفر أساسًا لتشغيل خوارزميات أكثر تعقيدًا، مما يجعل النموذج قادرًا على معالجة كميات أكبر من البيانات، وتعلم أنماط أكثر تعقيدًا؛ بينما يمكن تحسين الخوارزمية لاستخدام قوة الحوسبة بشكل أكثر كفاءة، مما يعزز كفاءة استخدام موارد الحوسبة.
هذه العلاقة التكافلية تعيد تشكيل مشهد صناعة الذكاء الاصطناعي:
تنوع المسارات التقنية: بعض الشركات تسعى لبناء مجموعات قوية من القدرة الحسابية، بينما تركز أخرى على تحسين كفاءة الخوارزمية، مما يؤدي إلى تشكيل مدارس تقنية مختلفة.
إعادة هيكلة سلسلة الصناعة: أصبحت شركة شرائح معينة رائدة في قوة حساب الذكاء الاصطناعي من خلال نظامها البيئي، بينما تقلل شركات خدمات السحابة من عتبة النشر من خلال خدمات القوة الحسابية المرنة.
تعديل توزيع الموارد: تسعى الشركات إلى تحقيق التوازن بين استثمارات البنية التحتية للأجهزة وتطوير الخوارزمية الفعالة.
ظهور المجتمع المفتوح المصدر: نماذج المصدر المفتوح مثل DeepSeek و LLaMA تتيح مشاركة الابتكارات في الخوارزمية ونتائج تحسين القدرة الحاسوبية، مما يسرع من تكرار التقنية وانتشارها.
الابتكار التكنولوجي لـ DeepSeek
إن نجاح DeepSeek لا ينفصل عن الابتكار التكنولوجي الخاص به. فيما يلي شرح موجز لنقاط الابتكار الرئيسية.
تحسين هيكل النموذج
تستخدم DeepSeek بنية مركبة من Transformer + MOE (مجموعة من الخبراء) وتقدم آلية انتباه كامن متعددة الرؤوس (Multi-Head Latent Attention, MLA). تشبه هذه البنية فريقًا فعالًا، حيث يتعامل Transformer مع المهام العادية، في حين أن MOE يعمل كمجموعة من الخبراء، تستدعي الخبير الأنسب بناءً على المشكلة المحددة. تتيح آلية MLA للنموذج التركيز بشكل أكثر مرونة على التفاصيل المهمة، مما يعزز الأداء بشكل أكبر.
طرق التدريب革新
قدمت DeepSeek إطار تدريب دقة مختلطة FP8. يمكن لهذا الإطار اختيار دقة حساب مناسبة ديناميكيًا وفقًا لاحتياجات مراحل التدريب المختلفة، مع ضمان دقة النموذج وزيادة سرعة التدريب وتقليل استخدام الذاكرة.
تحسين كفاءة الاستدلال
في مرحلة الاستدلال، قدمت DeepSeek تقنية التنبؤ المتعدد الرموز (Multi-token Prediction, MTP). مقارنةً بالتنبؤ التقليدي خطوة بخطوة، فإن تقنية MTP يمكنها التنبؤ بعدة رموز دفعة واحدة، مما يسرع بشكل كبير من سرعة الاستدلال، وفي الوقت نفسه يخفض التكلفة.
###突破 الخوارزمية التعلم المعزز
تحسنت خوارزمية التعلم المعزز الجديدة GRPO (تحسين المكافأة المعممة المعاقبة) من DeepSeek في عملية تدريب النموذج. هذه الخوارزمية قادرة على تحسين أداء النموذج مع تقليل الحسابات غير الضرورية، مما يحقق توازنًا بين الأداء والتكلفة.
تشكلت هذه الابتكارات نظامًا تقنيًا كاملاً، حيث يقلل الطلب على قوة الحساب عبر سلسلة كاملة من التدريب إلى الاستدلال. وهذا يسمح لبطاقات الرسومات الاستهلاكية العادية بتشغيل نماذج الذكاء الاصطناعي القوية، مما يقلل بشكل كبير من عتبة تطبيقات الذكاء الاصطناعي.
تأثير على مصنعي الشرائح
يعتقد الكثير من الناس أن DeepSeek قد تجاوز بعض الطبقات الوسيطة ، وبالتالي تخلص من الاعتماد على رقائق معينة. في الواقع ، يقوم DeepSeek بتحسين الخوارزمية مباشرة من خلال مجموعة التعليمات الأساسية. تتيح هذه الطريقة لـ DeepSeek تحقيق تحسينات دقيقة في الأداء.
إن تأثير ذلك على مصنعي الشرائح له وجهان. من ناحية، يرتبط DeepSeek بالأجهزة ونظامه البيئي بشكل أعمق، وقد يؤدي انخفاض عتبة تطبيقات الذكاء الاصطناعي إلى توسيع حجم السوق الكلي؛ من ناحية أخرى، قد تؤدي تحسينات الخوارزمية لـ DeepSeek إلى تغيير هيكل الطلب في السوق على الشرائح عالية الأداء، حيث يمكن الآن تشغيل بعض نماذج الذكاء الاصطناعي التي كانت تحتاج في السابق إلى وحدات معالجة الرسومات الراقية بكفاءة على وحدات معالجة الرسومات المتوسطة أو حتى الاستهلاكية.
دلالة على صناعة الذكاء الاصطناعي في الصين
تحسين الخوارزمية لـ DeepSeek يوفر مسارًا تقنيًا للاختراق في صناعة الذكاء الاصطناعي الصينية. في ظل قيود الشرائح المتقدمة، فإن فكرة "البرمجيات تكمل الأجهزة" خففت الاعتماد على الشرائح المستوردة المتميزة.
في upstream ، خفضت الخوارزمية الفعالة الضغط على متطلبات القدرة الحاسوبية ، مما يسمح لمقدمي خدمات القدرة الحاسوبية بتمديد دورة استخدام الأجهزة من خلال تحسين البرمجيات وزيادة عائد الاستثمار. في downstream ، خفض النموذج المفتوح المصدر المحسن من عتبة تطوير تطبيقات الذكاء الاصطناعي. العديد من الشركات الصغيرة والمتوسطة لا تحتاج إلى موارد حسابية كبيرة ، ويمكنها تطوير تطبيقات تنافسية بناءً على نموذج DeepSeek ، مما سيولد المزيد من حلول الذكاء الاصطناعي في المجالات العمودية.
التأثير العميق على Web3+AI
بنية تحتية للذكاء الاصطناعي اللامركزي
تحسين الخوارزمية لـ DeepSeek يوفر دافعًا جديدًا للبنية التحتية للذكاء الاصطناعي Web3. إن البنية المعمارية المبتكرة، والخوارزميات الفعالة، ومتطلبات القدرة الحاسوبية المنخفضة تجعل الاستدلال الذكي اللامركزي ممكنًا. إن بنية MoE تتناسب بشكل طبيعي مع النشر الموزع، حيث يمكن أن تمتلك العقد المختلفة شبكات خبراء مختلفة، دون الحاجة إلى تخزين نموذج كامل في عقدة واحدة، مما يقلل بشكل ملحوظ من متطلبات التخزين والحساب للعقدة الواحدة، وبالتالي يزيد من مرونة وكفاءة النموذج.
إطار تدريب FP8 يقلل من الحاجة إلى موارد الحوسبة المتقدمة، مما يسمح لمزيد من موارد الحوسبة بالانضمام إلى شبكة العقد. هذا لا يقلل فقط من عتبة المشاركة في الحوسبة اللامركزية للذكاء الاصطناعي، ولكن أيضًا يزيد من قدرة وكفاءة الحوسبة في الشبكة بأكملها.
نظام متعدد الوكلاء
تحسين استراتيجيات التداول الذكية: من خلال تحليل بيانات السوق في الوقت الحقيقي، وتوقع تقلبات الأسعار على المدى القصير، وتنفيذ التداولات على السلسلة، ورصد نتائج التداول، يساعد التعاون بين عدة عوامل ذكية المستخدمين في تحقيق عوائد أعلى.
التنفيذ التلقائي للعقود الذكية: تعمل الوكالات الذكية بالتنسيق لمراقبة العقود الذكية وتنفيذها والإشراف على النتائج، مما يحقق أتمتة منطق الأعمال الأكثر تعقيدًا.
إدارة المحافظ الاستثمارية المخصصة: تساعد الخوارزمية المستخدمين في العثور على أفضل فرص الرهن أو توفير السيولة في الوقت الفعلي بناءً على تفضيلات المخاطر وأهداف الاستثمار والظروف المالية للمستخدم.
تبحث DeepSeek تحت قيود قوة الحوسبة عن اختراق من خلال الابتكار الخوارزمي، مما يفتح مسار تطوير مختلف لصناعة الذكاء الاصطناعي في الصين. تقليل عتبة التطبيقات، وتعزيز دمج Web3 والذكاء الاصطناعي، وتقليل الاعتماد على الرقائق المتقدمة، وتمكين الابتكار المالي، هذه التأثيرات تعيد تشكيل نمط الاقتصاد الرقمي. في المستقبل، لن يكون تطوير الذكاء الاصطناعي مجرد سباق على قوة الحوسبة، بل سيكون سباقًا للتعاون بين قوة الحوسبة والابتكار الخوارزمي. في هذا المضمار الجديد، يقوم مبتكرون مثل DeepSeek بإعادة تعريف قواعد اللعبة باستخدام الحكمة الصينية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 14
أعجبني
14
6
مشاركة
تعليق
0/400
CryptoTarotReader
· 07-24 12:31
ترقية التكنولوجيا ليست بأفضل من تحسين التكلفة إلى الفائدة أولاً
شاهد النسخة الأصليةرد0
WhaleMistaker
· 07-24 07:19
لا يزال ليس أداة ويب 3
شاهد النسخة الأصليةرد0
Rugpull幸存者
· 07-24 07:19
هذا المعامل مبالغ فيه حقًا
شاهد النسخة الأصليةرد0
GasFeeNightmare
· 07-24 07:17
أوي، الطريق وحشي
شاهد النسخة الأصليةرد0
NftCollectors
· 07-24 07:11
من منظور تاريخ الفن، تعتبر ترقية DeepSeek V3 هذه بمثابة شفرة دا فينشي لعصر NFT، فمستوى المعلمات الذي يتجاوز 6850 مليار ليس مصادفة، بل يتوافق بشكل كبير مع بعد الفن في النسبة الذهبية، وسأكتب لاحقًا مقالة طويلة من عشرة آلاف كلمة لدعم قانون تطور الذكاء الاصطناعي داخل السلسلة...
تحديث DeepSeek V3: الابتكار في الخوارزمية يقود نمط جديد في صناعة الذكاء الاصطناعي
تحديث DeepSeek V3: الخوارزمية ت突破 تقود نموذج جديد للذكاء الاصطناعي
أصدرت DeepSeek مؤخرًا تحديث النسخة V3 على Hugging Face - DeepSeek-V3-0324، حيث وصلت معلمات النموذج إلى 6850 مليار، مع تحسينات ملحوظة في قدرات البرمجة وتصميم واجهة المستخدم وقدرات الاستدلال.
في مؤتمر 2025 GTC الذي انتهى مؤخرًا، أشاد الرئيس التنفيذي لشركة إنفيديا، جينسون هوانغ، بشدة بـ DeepSeek، وأشار إلى أن السوق كان يعتقد سابقًا أن نموذج DeepSeek الفعال سيقلل من فهم الطلب على الرقائق، وهو اعتقاد خاطئ. وأكد أن احتياجات الحوسبة في المستقبل ستزداد فقط، وليس العكس.
كنموذج يمثل كسر الخوارزمية، أثار العلاقة بين DeepSeek وموردي الرقائق تفكير الناس حول دور القدرة الحاسوبية والخوارزمية في تطور الصناعة.
تفاعل تطور القوة الحاسوبية والخوارزمية
في مجال الذكاء الاصطناعي، فإن تعزيز قوة الحوسبة يوفر أساسًا لتشغيل خوارزميات أكثر تعقيدًا، مما يجعل النموذج قادرًا على معالجة كميات أكبر من البيانات، وتعلم أنماط أكثر تعقيدًا؛ بينما يمكن تحسين الخوارزمية لاستخدام قوة الحوسبة بشكل أكثر كفاءة، مما يعزز كفاءة استخدام موارد الحوسبة.
هذه العلاقة التكافلية تعيد تشكيل مشهد صناعة الذكاء الاصطناعي:
تنوع المسارات التقنية: بعض الشركات تسعى لبناء مجموعات قوية من القدرة الحسابية، بينما تركز أخرى على تحسين كفاءة الخوارزمية، مما يؤدي إلى تشكيل مدارس تقنية مختلفة.
إعادة هيكلة سلسلة الصناعة: أصبحت شركة شرائح معينة رائدة في قوة حساب الذكاء الاصطناعي من خلال نظامها البيئي، بينما تقلل شركات خدمات السحابة من عتبة النشر من خلال خدمات القوة الحسابية المرنة.
تعديل توزيع الموارد: تسعى الشركات إلى تحقيق التوازن بين استثمارات البنية التحتية للأجهزة وتطوير الخوارزمية الفعالة.
ظهور المجتمع المفتوح المصدر: نماذج المصدر المفتوح مثل DeepSeek و LLaMA تتيح مشاركة الابتكارات في الخوارزمية ونتائج تحسين القدرة الحاسوبية، مما يسرع من تكرار التقنية وانتشارها.
الابتكار التكنولوجي لـ DeepSeek
إن نجاح DeepSeek لا ينفصل عن الابتكار التكنولوجي الخاص به. فيما يلي شرح موجز لنقاط الابتكار الرئيسية.
تحسين هيكل النموذج
تستخدم DeepSeek بنية مركبة من Transformer + MOE (مجموعة من الخبراء) وتقدم آلية انتباه كامن متعددة الرؤوس (Multi-Head Latent Attention, MLA). تشبه هذه البنية فريقًا فعالًا، حيث يتعامل Transformer مع المهام العادية، في حين أن MOE يعمل كمجموعة من الخبراء، تستدعي الخبير الأنسب بناءً على المشكلة المحددة. تتيح آلية MLA للنموذج التركيز بشكل أكثر مرونة على التفاصيل المهمة، مما يعزز الأداء بشكل أكبر.
طرق التدريب革新
قدمت DeepSeek إطار تدريب دقة مختلطة FP8. يمكن لهذا الإطار اختيار دقة حساب مناسبة ديناميكيًا وفقًا لاحتياجات مراحل التدريب المختلفة، مع ضمان دقة النموذج وزيادة سرعة التدريب وتقليل استخدام الذاكرة.
تحسين كفاءة الاستدلال
في مرحلة الاستدلال، قدمت DeepSeek تقنية التنبؤ المتعدد الرموز (Multi-token Prediction, MTP). مقارنةً بالتنبؤ التقليدي خطوة بخطوة، فإن تقنية MTP يمكنها التنبؤ بعدة رموز دفعة واحدة، مما يسرع بشكل كبير من سرعة الاستدلال، وفي الوقت نفسه يخفض التكلفة.
###突破 الخوارزمية التعلم المعزز
تحسنت خوارزمية التعلم المعزز الجديدة GRPO (تحسين المكافأة المعممة المعاقبة) من DeepSeek في عملية تدريب النموذج. هذه الخوارزمية قادرة على تحسين أداء النموذج مع تقليل الحسابات غير الضرورية، مما يحقق توازنًا بين الأداء والتكلفة.
تشكلت هذه الابتكارات نظامًا تقنيًا كاملاً، حيث يقلل الطلب على قوة الحساب عبر سلسلة كاملة من التدريب إلى الاستدلال. وهذا يسمح لبطاقات الرسومات الاستهلاكية العادية بتشغيل نماذج الذكاء الاصطناعي القوية، مما يقلل بشكل كبير من عتبة تطبيقات الذكاء الاصطناعي.
تأثير على مصنعي الشرائح
يعتقد الكثير من الناس أن DeepSeek قد تجاوز بعض الطبقات الوسيطة ، وبالتالي تخلص من الاعتماد على رقائق معينة. في الواقع ، يقوم DeepSeek بتحسين الخوارزمية مباشرة من خلال مجموعة التعليمات الأساسية. تتيح هذه الطريقة لـ DeepSeek تحقيق تحسينات دقيقة في الأداء.
إن تأثير ذلك على مصنعي الشرائح له وجهان. من ناحية، يرتبط DeepSeek بالأجهزة ونظامه البيئي بشكل أعمق، وقد يؤدي انخفاض عتبة تطبيقات الذكاء الاصطناعي إلى توسيع حجم السوق الكلي؛ من ناحية أخرى، قد تؤدي تحسينات الخوارزمية لـ DeepSeek إلى تغيير هيكل الطلب في السوق على الشرائح عالية الأداء، حيث يمكن الآن تشغيل بعض نماذج الذكاء الاصطناعي التي كانت تحتاج في السابق إلى وحدات معالجة الرسومات الراقية بكفاءة على وحدات معالجة الرسومات المتوسطة أو حتى الاستهلاكية.
دلالة على صناعة الذكاء الاصطناعي في الصين
تحسين الخوارزمية لـ DeepSeek يوفر مسارًا تقنيًا للاختراق في صناعة الذكاء الاصطناعي الصينية. في ظل قيود الشرائح المتقدمة، فإن فكرة "البرمجيات تكمل الأجهزة" خففت الاعتماد على الشرائح المستوردة المتميزة.
في upstream ، خفضت الخوارزمية الفعالة الضغط على متطلبات القدرة الحاسوبية ، مما يسمح لمقدمي خدمات القدرة الحاسوبية بتمديد دورة استخدام الأجهزة من خلال تحسين البرمجيات وزيادة عائد الاستثمار. في downstream ، خفض النموذج المفتوح المصدر المحسن من عتبة تطوير تطبيقات الذكاء الاصطناعي. العديد من الشركات الصغيرة والمتوسطة لا تحتاج إلى موارد حسابية كبيرة ، ويمكنها تطوير تطبيقات تنافسية بناءً على نموذج DeepSeek ، مما سيولد المزيد من حلول الذكاء الاصطناعي في المجالات العمودية.
التأثير العميق على Web3+AI
بنية تحتية للذكاء الاصطناعي اللامركزي
تحسين الخوارزمية لـ DeepSeek يوفر دافعًا جديدًا للبنية التحتية للذكاء الاصطناعي Web3. إن البنية المعمارية المبتكرة، والخوارزميات الفعالة، ومتطلبات القدرة الحاسوبية المنخفضة تجعل الاستدلال الذكي اللامركزي ممكنًا. إن بنية MoE تتناسب بشكل طبيعي مع النشر الموزع، حيث يمكن أن تمتلك العقد المختلفة شبكات خبراء مختلفة، دون الحاجة إلى تخزين نموذج كامل في عقدة واحدة، مما يقلل بشكل ملحوظ من متطلبات التخزين والحساب للعقدة الواحدة، وبالتالي يزيد من مرونة وكفاءة النموذج.
إطار تدريب FP8 يقلل من الحاجة إلى موارد الحوسبة المتقدمة، مما يسمح لمزيد من موارد الحوسبة بالانضمام إلى شبكة العقد. هذا لا يقلل فقط من عتبة المشاركة في الحوسبة اللامركزية للذكاء الاصطناعي، ولكن أيضًا يزيد من قدرة وكفاءة الحوسبة في الشبكة بأكملها.
نظام متعدد الوكلاء
تحسين استراتيجيات التداول الذكية: من خلال تحليل بيانات السوق في الوقت الحقيقي، وتوقع تقلبات الأسعار على المدى القصير، وتنفيذ التداولات على السلسلة، ورصد نتائج التداول، يساعد التعاون بين عدة عوامل ذكية المستخدمين في تحقيق عوائد أعلى.
التنفيذ التلقائي للعقود الذكية: تعمل الوكالات الذكية بالتنسيق لمراقبة العقود الذكية وتنفيذها والإشراف على النتائج، مما يحقق أتمتة منطق الأعمال الأكثر تعقيدًا.
إدارة المحافظ الاستثمارية المخصصة: تساعد الخوارزمية المستخدمين في العثور على أفضل فرص الرهن أو توفير السيولة في الوقت الفعلي بناءً على تفضيلات المخاطر وأهداف الاستثمار والظروف المالية للمستخدم.
تبحث DeepSeek تحت قيود قوة الحوسبة عن اختراق من خلال الابتكار الخوارزمي، مما يفتح مسار تطوير مختلف لصناعة الذكاء الاصطناعي في الصين. تقليل عتبة التطبيقات، وتعزيز دمج Web3 والذكاء الاصطناعي، وتقليل الاعتماد على الرقائق المتقدمة، وتمكين الابتكار المالي، هذه التأثيرات تعيد تشكيل نمط الاقتصاد الرقمي. في المستقبل، لن يكون تطوير الذكاء الاصطناعي مجرد سباق على قوة الحوسبة، بل سيكون سباقًا للتعاون بين قوة الحوسبة والابتكار الخوارزمي. في هذا المضمار الجديد، يقوم مبتكرون مثل DeepSeek بإعادة تعريف قواعد اللعبة باستخدام الحكمة الصينية.