تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، تعتبر تدريب النماذج المرحلة الأكثر استهلاكًا للموارد، وأعلى في عتبة التكنولوجيا، حيث تحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلية. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكلة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نركز عليه في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل كيان واحد داخل مجموعة عالية الأداء محليًا، بدءًا من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، وصولًا إلى جميع مكونات إطار العمل التدريبي التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل بشكل فعال، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، حيث تتمتع بكفاءة عالية، وموارد قابلة للتحكم، ولكنها في الوقت نفسه تعاني من مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حالياً في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهام تدريب النموذج، وتوزيعها على عدة آلات لتنفيذها بشكل متزامن، لتجاوز قيود الحساب والتخزين على الآلة الواحدة. على الرغم من أن لديها ميزات "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزالان تحت سيطرة مؤسسة مركزية، وغالباً ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لربط الحافلات عالية السرعة، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التوازي البياني: كل عقدة تدرب معلمات بيانات مختلفة، يجب أن تتطابق أوزان النموذج
توزيع النموذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية التوسع العالية;
أنابيب متوازية: تنفيذ متسلسل على مراحل، وزيادة معدل النقل؛
التوازي على مستوى المصفوفة: تقسيم حساب المصفوفة بدقة، وزيادة مستوى التوازي.
التدريب الموزع هو مزيج من "التحكم المركزى + التنفيذ الموزع"، وهو ما يقارب أن مديرًا واحدًا يقوم بالتحكم عن بُعد في تعاون عدة موظفين من "مكاتب" مختلفة لإكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومة للرقابة. تتمثل الميزات الأساسية في: عدة نقاط غير موثوقة تتعاون لإكمال مهام التدريب بدون منسق مركزي، عادةً من خلال بروتوكولات تحفز توزيع المهام والتعاون، وتساعد في ضمان نزاهة المساهمات من خلال آليات تحفيز مشفرة. تشمل التحديات الرئيسية التي يواجهها هذا النموذج:
صعوبة تآزر الأجهزة المتنوعة وتقسيم المهام: صعوبة التنسيق بين الأجهزة المتنوعة، وانخفاض كفاءة تقسيم المهام؛
عنق الزجاجة في كفاءة الاتصال: الاتصال الشبكي غير مستقر، وهناك وضوح في عنق الزجاجة لتزامن التدرجات؛
نقص التنفيذ الموثوق: يفتقر إلى بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقد تشارك حقًا في الحساب؛
نقص التنسيق الموحد: لا يوجد منظم مركزي، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة.
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، كل منهم يساهم في قدرة الحوسبة لتدريب النموذج بالتعاون، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بأبعاد متعددة مثل هيكل النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج، ولكن ما إذا كان من الممكن "التعاون بشكل فعال + تحفيز النزاهة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
تعتبر التعلم الفيدرالي شكلاً انتقالياً بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا وتجميع معلمات النموذج مركزيًا، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، مع الحفاظ على مزايا توزيع البيانات للتدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سيناريوهات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وبنية الثقة، وآليات الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه من الطبيعي أنه غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وانخفاض الكمون، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في شبكة مفتوحة؛ المهام التي تتأثر خصوصيتها وقيود سيادتها بالقوانين والامتثال والأخلاقيات لا يمكن مشاركتها بشكل مفتوح؛ بينما المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، أظهر التدريب اللامركزي آفاق تطبيق واضحة في أنواع المهام الخفيفة الهيكل، السهلة التوازي، والمحفزة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، المهام التدريبية اللاحقة المحاذاة السلوكية، تدريب البيانات الجماعي ومهام التسمية، تدريب نماذج الأساس الصغيرة القابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية التوازي، وانخفاض الارتباط، وقابلية تحمل القوة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات الند للند، بروتوكول Swarm، المحسنات الموزعة، وغيرها.
اللامركزية تدريب الكلاسيكيات تحليل المشاريع
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي في مجال البلوكشين، Prime Intellect و Pluralis.ai و Gensyn و Nous Research و Flock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect و Nous Research و Pluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في الأبحاث النظرية الحالية؛ بينما مسارات التنفيذ لـ Gensyn و Flock.io واضحة نسبيًا، حيث يمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهياكل الهندسية وراء هذه المشاريع الخمسة بالتتابع، واستكشاف اختلافاتها وعلاقاتها التكميلية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم التعزيزي القابل للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب للذكاء الاصطناعي لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect في بناء نظام تدريب لذكاء اصطناعي لامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيزية كاملة من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST.
أولاً، الهيكل والموارد الأساسية لبروتوكول Prime Intellect
ثانياً، شرح آلية تدريب Prime Intellect الأساسية
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يستخدم التعلم المعزز ككائن التكيف المفضل، ويفصل بشكل هيكلي بين عملية التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الإشرافي التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق تدريب مرن في بيئات عدم وجود جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم المهام المتعددة المتوازية وتطور الاستراتيجيات.
TOPLOC: آلية تحقق سلوك التدريب الخفيفة
TOPLOC هو آلية أساسية للتحقق من القابلية للتدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعليًا تعلم استراتيجية فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يتم التحقق من الهيكل الخفيف من خلال تحليل "تسلسل الملاحظة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنه يحول لأول مرة مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق، وهو الابتكار الأساسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نقل وتجمع الوزن المصمم من قبل Prime Intellect، تم تحسينه خصيصًا للبيئات الشبكية الحقيقية التي تتميز باللامركزية، والقيود على عرض النطاق، وتغير حالة العقد. يجمع بين آلية انتشار gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق التقارب التدريجي للوزن وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير من قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء إجماع الوزن المستقر والتدريب المستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي طرحته DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. تعتمد هيكليته على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، حيث يعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بشكل مشترك. بدمج التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل عنق الزجاجة في التكيف بين المكتبات التقليدية على الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن بدقة منخفضة واستعادة نقاط التوقف، ويمكن تشغيله على وحدات المعالجة الرسومية الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عزز بشكل ملحوظ تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يمهد الطريق لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة من خلال توفير "آخر كيلومتر" من البنية التحتية للاتصالات.
ثالثاً، شبكة Prime Intellect والتحفيز وتقسيم الأدوار
بنى Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، مزودة بآلية تحفيز اقتصادية، تتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول على أساس ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقدة التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، وتدريب العقد، والتحقق من المسار، وتجميع الأوزان، وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
رابعًا، INTELLECT-2: إصدار أول نموذج تدريب لامركزي يمكن التحقق منه
أطلقت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه بالتعاون بين عقد لامركزية غير موثوقة وغير متزامنة، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU متباينة موزعة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار شبكة التعاون غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق من حيث الأداء، بل هو أيضًا أول تنفيذ نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يمثل تحقيق التدريب اللامركزي لأول مرة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 10
أعجبني
10
9
مشاركة
تعليق
0/400
RuntimeError
· 07-28 16:20
ثور哦 ai 也要 اللامركزية了
شاهد النسخة الأصليةرد0
UnluckyMiner
· 07-28 02:28
آه، أصبح الأمر تنافسياً جداً، حتى التعدين لم يعد مربحاً.
شاهد النسخة الأصليةرد0
SolidityStruggler
· 07-28 02:26
卧槽 AI要مفتوح المصدر了 ثور哇
شاهد النسخة الأصليةرد0
DegenApeSurfer
· 07-27 17:42
قوة الحوسبة这么贵 搞联邦就对了
شاهد النسخة الأصليةرد0
TokenTaxonomist
· 07-27 00:33
همم... من الناحية الإحصائية، فإن التدريب المركزي هو طريق مسدود تصنيفي في شجرة تطور الذكاء الاصطناعي. دعني أستخرج مصفوفة تقييم المخاطر الخاصة بي...
شاهد النسخة الأصليةرد0
ContractFreelancer
· 07-27 00:30
تس تس، هل سيتعين علينا حرق بطاقة الرسوميات مرة أخرى؟
شاهد النسخة الأصليةرد0
just_another_wallet
· 07-27 00:29
تدريب بهذا القدر من الإنفاق لا يزال تضليل في الغالب
شاهد النسخة الأصليةرد0
MoonMathMagic
· 07-27 00:24
من سيدفع المال لتدريب خالي من المركزية هذا الذي يكلف الكثير؟
شاهد النسخة الأصليةرد0
AirdropCollector
· 07-27 00:17
كل شيء مركزي في النهاية سيتغير، وكان يجب أن يكون موزعًا من الأساس.
ابتكار نمط تدريب الذكاء الاصطناعي: من المركزية إلى اللامركزية في التطور التكنولوجي
تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، تعتبر تدريب النماذج المرحلة الأكثر استهلاكًا للموارد، وأعلى في عتبة التكنولوجيا، حيث تحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلية. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكلة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نركز عليه في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل كيان واحد داخل مجموعة عالية الأداء محليًا، بدءًا من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، وصولًا إلى جميع مكونات إطار العمل التدريبي التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل بشكل فعال، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، حيث تتمتع بكفاءة عالية، وموارد قابلة للتحكم، ولكنها في الوقت نفسه تعاني من مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حالياً في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهام تدريب النموذج، وتوزيعها على عدة آلات لتنفيذها بشكل متزامن، لتجاوز قيود الحساب والتخزين على الآلة الواحدة. على الرغم من أن لديها ميزات "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزالان تحت سيطرة مؤسسة مركزية، وغالباً ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لربط الحافلات عالية السرعة، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التدريب الموزع هو مزيج من "التحكم المركزى + التنفيذ الموزع"، وهو ما يقارب أن مديرًا واحدًا يقوم بالتحكم عن بُعد في تعاون عدة موظفين من "مكاتب" مختلفة لإكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومة للرقابة. تتمثل الميزات الأساسية في: عدة نقاط غير موثوقة تتعاون لإكمال مهام التدريب بدون منسق مركزي، عادةً من خلال بروتوكولات تحفز توزيع المهام والتعاون، وتساعد في ضمان نزاهة المساهمات من خلال آليات تحفيز مشفرة. تشمل التحديات الرئيسية التي يواجهها هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، كل منهم يساهم في قدرة الحوسبة لتدريب النموذج بالتعاون، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بأبعاد متعددة مثل هيكل النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج، ولكن ما إذا كان من الممكن "التعاون بشكل فعال + تحفيز النزاهة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
تعتبر التعلم الفيدرالي شكلاً انتقالياً بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا وتجميع معلمات النموذج مركزيًا، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، مع الحفاظ على مزايا توزيع البيانات للتدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سيناريوهات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وبنية الثقة، وآليات الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه من الطبيعي أنه غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وانخفاض الكمون، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في شبكة مفتوحة؛ المهام التي تتأثر خصوصيتها وقيود سيادتها بالقوانين والامتثال والأخلاقيات لا يمكن مشاركتها بشكل مفتوح؛ بينما المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، أظهر التدريب اللامركزي آفاق تطبيق واضحة في أنواع المهام الخفيفة الهيكل، السهلة التوازي، والمحفزة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، المهام التدريبية اللاحقة المحاذاة السلوكية، تدريب البيانات الجماعي ومهام التسمية، تدريب نماذج الأساس الصغيرة القابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية التوازي، وانخفاض الارتباط، وقابلية تحمل القوة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات الند للند، بروتوكول Swarm، المحسنات الموزعة، وغيرها.
اللامركزية تدريب الكلاسيكيات تحليل المشاريع
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي في مجال البلوكشين، Prime Intellect و Pluralis.ai و Gensyn و Nous Research و Flock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect و Nous Research و Pluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في الأبحاث النظرية الحالية؛ بينما مسارات التنفيذ لـ Gensyn و Flock.io واضحة نسبيًا، حيث يمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهياكل الهندسية وراء هذه المشاريع الخمسة بالتتابع، واستكشاف اختلافاتها وعلاقاتها التكميلية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم التعزيزي القابل للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب للذكاء الاصطناعي لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect في بناء نظام تدريب لذكاء اصطناعي لامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيزية كاملة من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST.
أولاً، الهيكل والموارد الأساسية لبروتوكول Prime Intellect
ثانياً، شرح آلية تدريب Prime Intellect الأساسية
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يستخدم التعلم المعزز ككائن التكيف المفضل، ويفصل بشكل هيكلي بين عملية التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الإشرافي التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق تدريب مرن في بيئات عدم وجود جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم المهام المتعددة المتوازية وتطور الاستراتيجيات.
TOPLOC: آلية تحقق سلوك التدريب الخفيفة
TOPLOC هو آلية أساسية للتحقق من القابلية للتدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعليًا تعلم استراتيجية فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يتم التحقق من الهيكل الخفيف من خلال تحليل "تسلسل الملاحظة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنه يحول لأول مرة مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق، وهو الابتكار الأساسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نقل وتجمع الوزن المصمم من قبل Prime Intellect، تم تحسينه خصيصًا للبيئات الشبكية الحقيقية التي تتميز باللامركزية، والقيود على عرض النطاق، وتغير حالة العقد. يجمع بين آلية انتشار gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق التقارب التدريجي للوزن وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير من قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء إجماع الوزن المستقر والتدريب المستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي طرحته DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. تعتمد هيكليته على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، حيث يعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بشكل مشترك. بدمج التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل عنق الزجاجة في التكيف بين المكتبات التقليدية على الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن بدقة منخفضة واستعادة نقاط التوقف، ويمكن تشغيله على وحدات المعالجة الرسومية الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عزز بشكل ملحوظ تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يمهد الطريق لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة من خلال توفير "آخر كيلومتر" من البنية التحتية للاتصالات.
ثالثاً، شبكة Prime Intellect والتحفيز وتقسيم الأدوار
بنى Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، مزودة بآلية تحفيز اقتصادية، تتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول على أساس ثلاث فئات من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، وتدريب العقد، والتحقق من المسار، وتجميع الأوزان، وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
رابعًا، INTELLECT-2: إصدار أول نموذج تدريب لامركزي يمكن التحقق منه
أطلقت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه بالتعاون بين عقد لامركزية غير موثوقة وغير متزامنة، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU متباينة موزعة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار شبكة التعاون غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق من حيث الأداء، بل هو أيضًا أول تنفيذ نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يمثل تحقيق التدريب اللامركزي لأول مرة.