جوجل ديب مايند، أطلقت "جيميني 3.1 فلاش تي تي إس"… يمكن تعديل النغمة والسرعة عبر النص

robot
إنشاء الملخص قيد التقدم

تعلن منظمة الذكاء الاصطناعي التابعة لجوجل DeepMind عن نموذج جديد لتوليف الصوت “Gemini 3.1 Flash TTS”. يتمحور جوهره حول القدرة على التحدث بشكل أكثر طبيعية من الأصوات الآلية الحالية، مع إمكانية للمستخدمين تعديل النغمة، السرعة، والأجواء بدقة عبر أوامر نصية.

التحكم في النغمة، النغمة، والسرعة عبر أوامر نصية

أعلنت شركة جوجل ذات المسؤولية المحدودة مؤخرًا عبر مدونة عن إطلاق نموذج Gemini 3.1 Flash TTS. يُظهر النموذج في عملية تحويل استجابات روبوت الدردشة إلى صوت، القدرة على عكس أوامر كلمات مثل “متحمس” و"مفاجئ" و"نقل المعلومات" لتغيير النغمة والصوت.

وفقًا للفيديو التوضيحي المنشور، يمكن للمستخدمين اختيار الصوت، بالإضافة إلى ضبط طريقة التعبير والأجواء. إذا كانت الجيل السابق من TTS يُشبه “روبوتًا”، فإن هذا الجيل يركز على تحقيق تعبيرات أقرب إلى الإنسان.

دعم اللهجات من الإنجليزية إلى البودكاست

يوفر Gemini 3.1 Flash TTS أيضًا لهجات إقليمية للغات الرئيسية. على سبيل المثال، في الإنجليزية، يمكن اختيار لهجات “وادي” و"جنوب" الأمريكية، بالإضافة إلى تنويعات مثل “بريكسون” و"RP" البريطانية. كما يتضمن خيارات لهجات خاصة مثل “عبر الأطلسي”.

كما أضافت جوجل وظيفة “التحكم الإخراجي” للنموذج. يمكن للمستخدمين ضبط أسلوب الكلام والسرعة بشكل أكثر دقة، مع إمكانية استخدام قوالب مثل حوارات البودكاست، التعليق الصوتي للكتب المسموعة، المعلمين اللغويين، المساعدين الصوتيين، أدلة الصحة، مذيعي الأخبار، موظفي دعم العملاء، وغيرها.

ومن الجدير بالذكر أن النموذج مصمم ليتمكن من إجراء حوارات متعددة للشخصيات مع الحفاظ على نمط كلام متسق، حتى عند إعداد المشاهد والبيئات، أو إدخال إرشادات النص. تشرح جوجل أنه يمكن تصدير الإعدادات النهائية إلى رمز API الخاص بـ Gemini، لإعادة إنتاج الصوت نفسه عبر مشاريع ومنصات متعددة.

دعم أكثر من 70 لغة… وتضمين علامات مائية

وفقًا لجوجل، يهدف Gemini 3.1 Flash TTS إلى تقديم تجربة صوتية أكثر طبيعية. يدعم أكثر من 70 لغة، بما في ذلك اليابانية والهندية والألمانية.

بالإضافة إلى ذلك، تم تضمين علامة مائية SynthID في جميع المخرجات. يُنظر إلى ذلك على أنه وسيلة لتسهيل التعرف على المحتوى الصوتي الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، لمواجهة المخاوف المحتملة من التزييف العميق أو نشر المعلومات المزيفة في المستقبل.

الترتيب الثاني في الاختبارات الصماء… والمطورون يمكنهم الاستخدام فورًا

تمت أيضًا مراجعة أدائه بشكل معين. في تصنيف “مخطط تحليل TTS الاصطناعي” الذي يقيم تفضيلات البشر في اختبارات سرية، احتل Gemini 3.1 Flash TTS المركز الثاني برصيد 1211 نقطة. وتقول جوجل إن ذلك يعكس تقييمًا أعلى من العديد من نماذج TTS الشهيرة.

حاليًا، يمكن للمطورين استخدام النموذج مباشرة عبر واجهة API الخاصة بـ Gemini وGoogle AI Studio. يمكن للعملاء المؤسسات الوصول إليه عبر Vertex AI، بينما يمكن للمستخدمين العاديين تجربة هذه الميزة في Google Biz.

تُظهر هذه الإصدارة أن المنافسة في مجال الذكاء الاصطناعي التوليدي تتوسع بسرعة من النصوص والصور إلى الصوت. خاصة مع تزايد الطلب من الشركات في مجالات دعم العملاء، والإنتاج الإعلامي، والتعليم، وصناعة المحتوى الرقمي على “الصوت الطبيعي للذكاء الاصطناعي”، من المتوقع أن يعزز Gemini 3.1 Flash TTS من حدة المنافسة في الأسواق ذات الصلة.

ملاحظات TP AI: تم تلخيص المقال باستخدام نموذج اللغة المستند إلى TokenPost.ai. قد يتم حذف المحتوى الرئيسي أو عدم مطابقته للحقائق.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت