Thông tin từ Coin界网, Inworld AI đã phát hành mô hình tổng hợp giọng nói đối thoại thời gian thực TTS-2, mô hình này có khả năng điều chỉnh âm thanh dựa trên biến đổi cảm xúc trong đối thoại. Phiên bản tiền nhiệm TTS-1.5 đứng đầu các nền tảng đánh giá bên thứ ba, vượt xa Google và ElevenLabs. TTS-2 bổ sung bốn khả năng cốt lõi, bao gồm nhận thức đối thoại, hướng dẫn giọng nói bằng ngôn ngữ tự nhiên, nhất quán đa ngôn ngữ và tạo giọng nói từ văn bản. Mô hình này hỗ trợ 15 ngôn ngữ chính thức và hơn 90 ngôn ngữ thử nghiệm, đã có mặt trên các nền tảng như Cloudflare, LiveKit, DeepInfra. CEO Kylan Gibbs trong cuộc phỏng vấn với 《Business Insider》 cho biết, Inworld chỉ làm mô hình và API, không phát triển sản phẩm tiêu dùng, nhằm tránh cạnh tranh trực tiếp với khách hàng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim