ما هو التوكن حقًا؟ فهم دورة المبتدئين الأساسية لفهم الذكاء الاصطناعي



1. النموذج الكبير للذكاء الاصطناعي لا يمكنه معالجة النصوص الأصلية التي ندخلها مباشرة، وكل خطوة من خطوات المعالجة تبدأ بتحويل النص إلى توكن
2. ببساطة، التوكن هو أصغر وحدة معالجة يتم تقسيم النص إليها قبل إدخاله إلى النموذج
3. يمكن أن يكون التوكن كلمة كاملة، جزءًا من كلمة، علامة ترقيم، أو حتى مجرد مساحة فارغة
4. الكلمات الشائعة عادةً ما تُقسّم إلى توكن واحد فقط، بينما الكلمات الطويلة والنادرة غالبًا ما تُقسّم إلى أجزاء أصغر، على سبيل المثال، التشفير في الإنجليزية يُقسّم إلى جزأين: encod + ing
5. إليكم مرجعًا عامًا للتحويل: توكن واحد يعادل تقريبًا 4 أحرف إنجليزية، أو 3/4 كلمة إنجليزية؛ لكن هذه القيمة ليست ثابتة، فهي تتغير حسب اللغة وأداة التقسيم (Tokenizer)
6. العملية الكاملة هي كالتالي: أولًا، تقسيم النص إلى توكن، ثم تحويل كل توكن إلى معرف رقمي مطابق، ثم تحويل المعرف إلى متجه يمكن للنموذج التعرف عليه، بعد إتمام هذه الخطوات الثلاث، يبدأ النموذج رسميًا بمعالجة المحتوى الخاص بك
7. وهناك أيضًا ما يسمع عنه كثيرًا وهو "نافذة السياق"، والتي تُقاس أيضًا باستخدام التوكن — الحد الأقصى لعدد التوكنات في النافذة يحدد مباشرة كمية المحتوى التي يمكن للنموذج "تذكرها" في كل محادثة
8. وأخيرًا، نقطة مهمة جدًا للجميع: التوكن هو وحدة التسعير الأساسية للذكاء الاصطناعي التوليدي، فالمبالغ التي ننفقها على استخدام الذكاء الاصطناعي تُحسب بناءً على كمية التوكنات المستخدمة

ما ذكر أعلاه هو مجرد قمة جبل الجليد، فالمنطق الأساسي وراء التوكن أعمق بكثير مما تظن.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت