العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
جوجل ديب مايند، أطلقت "جيميني 3.1 فلاش تي تي إس"… يمكن تعديل النغمة والسرعة عبر النص
تعلن منظمة الذكاء الاصطناعي التابعة لجوجل DeepMind عن نموذج جديد لتوليف الصوت “Gemini 3.1 Flash TTS”. يتمحور جوهره حول القدرة على التحدث بشكل أكثر طبيعية من الأصوات الآلية الحالية، مع إمكانية للمستخدمين تعديل النغمة، السرعة، والأجواء بدقة عبر أوامر نصية.
التحكم في النغمة، النغمة، والسرعة عبر أوامر نصية
أعلنت شركة جوجل ذات المسؤولية المحدودة مؤخرًا عبر مدونة عن إطلاق نموذج Gemini 3.1 Flash TTS. يُظهر النموذج في عملية تحويل استجابات روبوت الدردشة إلى صوت، القدرة على عكس أوامر كلمات مثل “متحمس” و"مفاجئ" و"نقل المعلومات" لتغيير النغمة والصوت.
وفقًا للفيديو التوضيحي المنشور، يمكن للمستخدمين اختيار الصوت، بالإضافة إلى ضبط طريقة التعبير والأجواء. إذا كانت الجيل السابق من TTS يُشبه “روبوتًا”، فإن هذا الجيل يركز على تحقيق تعبيرات أقرب إلى الإنسان.
دعم اللهجات من الإنجليزية إلى البودكاست
يوفر Gemini 3.1 Flash TTS أيضًا لهجات إقليمية للغات الرئيسية. على سبيل المثال، في الإنجليزية، يمكن اختيار لهجات “وادي” و"جنوب" الأمريكية، بالإضافة إلى تنويعات مثل “بريكسون” و"RP" البريطانية. كما يتضمن خيارات لهجات خاصة مثل “عبر الأطلسي”.
كما أضافت جوجل وظيفة “التحكم الإخراجي” للنموذج. يمكن للمستخدمين ضبط أسلوب الكلام والسرعة بشكل أكثر دقة، مع إمكانية استخدام قوالب مثل حوارات البودكاست، التعليق الصوتي للكتب المسموعة، المعلمين اللغويين، المساعدين الصوتيين، أدلة الصحة، مذيعي الأخبار، موظفي دعم العملاء، وغيرها.
ومن الجدير بالذكر أن النموذج مصمم ليتمكن من إجراء حوارات متعددة للشخصيات مع الحفاظ على نمط كلام متسق، حتى عند إعداد المشاهد والبيئات، أو إدخال إرشادات النص. تشرح جوجل أنه يمكن تصدير الإعدادات النهائية إلى رمز API الخاص بـ Gemini، لإعادة إنتاج الصوت نفسه عبر مشاريع ومنصات متعددة.
دعم أكثر من 70 لغة… وتضمين علامات مائية
وفقًا لجوجل، يهدف Gemini 3.1 Flash TTS إلى تقديم تجربة صوتية أكثر طبيعية. يدعم أكثر من 70 لغة، بما في ذلك اليابانية والهندية والألمانية.
بالإضافة إلى ذلك، تم تضمين علامة مائية SynthID في جميع المخرجات. يُنظر إلى ذلك على أنه وسيلة لتسهيل التعرف على المحتوى الصوتي الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، لمواجهة المخاوف المحتملة من التزييف العميق أو نشر المعلومات المزيفة في المستقبل.
الترتيب الثاني في الاختبارات الصماء… والمطورون يمكنهم الاستخدام فورًا
تمت أيضًا مراجعة أدائه بشكل معين. في تصنيف “مخطط تحليل TTS الاصطناعي” الذي يقيم تفضيلات البشر في اختبارات سرية، احتل Gemini 3.1 Flash TTS المركز الثاني برصيد 1211 نقطة. وتقول جوجل إن ذلك يعكس تقييمًا أعلى من العديد من نماذج TTS الشهيرة.
حاليًا، يمكن للمطورين استخدام النموذج مباشرة عبر واجهة API الخاصة بـ Gemini وGoogle AI Studio. يمكن للعملاء المؤسسات الوصول إليه عبر Vertex AI، بينما يمكن للمستخدمين العاديين تجربة هذه الميزة في Google Biz.
تُظهر هذه الإصدارة أن المنافسة في مجال الذكاء الاصطناعي التوليدي تتوسع بسرعة من النصوص والصور إلى الصوت. خاصة مع تزايد الطلب من الشركات في مجالات دعم العملاء، والإنتاج الإعلامي، والتعليم، وصناعة المحتوى الرقمي على “الصوت الطبيعي للذكاء الاصطناعي”، من المتوقع أن يعزز Gemini 3.1 Flash TTS من حدة المنافسة في الأسواق ذات الصلة.
ملاحظات TP AI: تم تلخيص المقال باستخدام نموذج اللغة المستند إلى TokenPost.ai. قد يتم حذف المحتوى الرئيسي أو عدم مطابقته للحقائق.