Coin界网消息,Inworld AI a publié le modèle de synthèse vocale en temps réel pour dialogues TTS-2, capable d'ajuster la voix en fonction des variations de ton dans la conversation. Son prédécesseur TTS-1.5 a été classé premier sur une plateforme d’évaluation tierce, devançant Google et ElevenLabs. TTS-2 a ajouté quatre capacités clés, notamment la perception du dialogue, la guidance vocale en langage naturel, la cohérence interlinguistique et la synthèse vocale à partir de texte. Ce modèle supporte 15 langues officielles et plus de 90 langues expérimentales, et est déjà déployé sur des plateformes telles que Cloudflare, LiveKit, DeepInfra. Le PDG Kylan Gibbs a déclaré dans une interview à « Business Insider » qu’Inworld se concentre uniquement sur les modèles et API, sans produire de produits pour le consommateur, afin d’éviter la concurrence avec ses clients.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler