هل تحب صوت تسلا؟ تم فتح واجهة برمجة تطبيقات صوت Grok من xAI رسميًا، تكلفة TTS لكل مليون حرف 4.2 دولار، ومعدل التعرف يتفوق على ElevenLabs

robot
إنشاء الملخص قيد التقدم

xAI هذا الأسبوع أطلق رسميًا واجهة برمجة تطبيقات مستقلة للتعرف على الكلام (STT) وتحويل النص إلى كلام (TTS)، وقد تم تشغيل هذه التقنية في Grok Voice، ومركبات تسلا، ونظام دعم عملاء Starlink بشكل عملي. سعر STT هو 0.10 دولار لكل ساعة دفعة، و0.20 دولار لكل ساعة تدفق، ويدعم أكثر من 25 لغة.
(ملخص سابق: إصدار بيتا من Grok 4.3 متاح لمشتركي Heavy! ماسك: النسخة الرائدة الحقيقية ستنتهي من التدريب خلال 5 أيام)
(معلومات إضافية: جوجل أطلقت Gemini 3.1 Flash TTS: علامات صوتية تجعل أداء الذكاء الاصطناعي أكثر حيوية، ويدعم أكثر من 70 لغة، وتجربة مجانية على Google AI Studio)

فهرس المقال

تبديل

  • STT: طابع زمني على مستوى الكلمة + تمييز المتحدث، تحويل دفعي بسعر 0.1 دولار لكل ساعة
  • TTS: 5 شخصيات صوتية + علامات صوتية، 4.2 دولار لكل مليون حرف
  • نفس التقنية تدير تسلا وStarlink

نفس التقنية التي تجعل مركبات تسلا تتحدث، وترد على مستخدمي Starlink، متاحة الآن عبر API للجمهور. أعلنت xAI رسميًا في 17 من الشهر عن إطلاق واجهة برمجة تطبيقات مستقلة للتعرف على الكلام (STT) وتحويل النص إلى كلام (TTS)، مما يتيح للمطورين الخارجيين استدعاء البنية التحتية الصوتية التي تعمل بالفعل ضمن منتجات xAI.

STT: طابع زمني على مستوى الكلمة + تمييز المتحدث، تحويل دفعي بسعر 0.1 دولار لكل ساعة

وفقًا للتصريح الرسمي، يوفر API Grok STT نمطين من الوصول: عبر REST API للمعالجة الدفعة، وعبر WebSocket API للبث المباشر منخفض التأخير. من ناحية التسعير، فإن المعالجة الدفعة تكلف 0.10 دولار لكل ساعة، والبث المباشر 0.20 دولار لكل ساعة، وأكدت الشركة أن الأسعار أكثر تنافسية بشكل ملحوظ مقارنة مع ElevenLabs وDeepgram وغيرها من المنافسين الرئيسيين.

من ناحية الوظائف، يدعم Grok STT أكثر من 25 لغة، ويشمل الطابع الزمني على مستوى الكلمة، وتمييز المتحدث (تحديد المتحدث)، بالإضافة إلى صوت متعدد القنوات، والتصحيح الذكي للنصوص العكسية. مناسب لنسخ الاجتماعات، والسجلات القانونية والطبية، وسجلات دعم العملاء، وغيرها من السيناريوهات التي تتطلب دقة عالية.

في اختبارات التعرف على الكيانات، أظهر Grok STT تفوقًا. عند التعرف على الأسماء، والحسابات، والتواريخ خلال المكالمات الهاتفية، كانت نسبة الخطأ 5.0%، مقارنة بـ 12.0% لـ ElevenLabs، و13.5% لـ Deepgram، و21.3% لـ AssemblyAI.

TTS: 5 شخصيات صوتية + علامات صوتية، 4.2 دولار لكل مليون حرف

يوفر API Grok TTS خمسة خيارات صوتية بأساليب مختلفة: آرا (أنثى، دافئة وودودة)، إيف (أنثى، نشيطة وإيجابية)، ليو (ذكر، ذو سلطة وقوة)، ريكس (ذكر، واثق وواضح)، سال (محايد، سلس ومتوازن).

يكتشف API اللغة المدخلة تلقائيًا، ويدعم أكثر من 20 لغة بشكل أصلي، ويستخدم رموز لغة BCP-47 للتحكم في النطق.

تشمل تنسيقات إخراج الصوت MP3، WAV، PCM (Linear16)، G.711 μ-law، وG.711 A-law، والاثنان الأخيران هما تنسيقات ترميز صوتي شائعة في أنظمة الهاتف، مما يعكس استراتيجية xAI في دمج تكنولوجيا الاتصالات.

الميزة الرئيسية في TTS هي “علامات الصوت”، حيث يمكن للمطورين إدراج أوامر داخل النص للتحكم بدقة في التوقف، والضحك، والهمس، والتأكيد الصوتي، وسرعة الكلام، وارتفاع الصوت، لجعل الصوت المولَّف أكثر قربًا للطبيعة البشرية. السعر 4.20 دولارات لكل مليون حرف.

نفس التقنية تدير تسلا وStarlink

تؤكد xAI أن الواجهتين البرمجيتين ليستا تقنيات جديدة بالكامل، وإنما هما نفس البنية التحتية التي تعمل بالفعل في Grok Voice، وتفاعلات الصوت في مركبات تسلا، ونظام دعم عملاء Starlink.

هذه البنية التحتية ظهرت لأول مرة في نهاية 2025 على شكل API لوكيل الصوت Grok Voice، حيث قدمت قدرات حوار صوتي فوري، واحتلت المركز الأول في اختبار Big Bench Audio، مع زمن استجابة صوتي أقل من ثانية واحدة، وهو حوالي خمس سرعة المنافسين الأخيرين.

إطلاق واجهات STT وTTS المستقلة، هو بمثابة تفكيك مكونات منصة الصوت المتكاملة، مما يتيح للمطورين تجميعها حسب الحاجة.

XAI‎-9.92%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت