Google DeepMind, phát hành 'Gemini 3.1 Flash TTS'… có thể điều chỉnh ngữ điệu và tốc độ nói qua văn bản

robot
Đang tạo bản tóm tắt

Google tổ chức trí tuệ nhân tạo DeepMind công bố mô hình tổng hợp giọng nói mới “Gemini 3.1 Flash TTS”. Trọng tâm của nó là không chỉ có thể nói tự nhiên hơn so với các giọng nói máy móc hiện tại, mà còn cho phép người dùng điều chỉnh cẩn thận ngữ điệu, tốc độ và không khí chỉ bằng lệnh văn bản.

Điều khiển ngữ điệu·ngữ âm·tốc độ qua lệnh văn bản

Gần đây, Google LLC đã thông báo ra mắt Gemini 3.1 Flash TTS qua blog. Mô hình này trong quá trình chuyển đổi phản hồi của chatbot thành giọng nói, có thể phản ánh các từ lệnh như “nhiệt tình”、“ngạc nhiên”、“truyền đạt thông tin” để thay đổi ngữ điệu và âm sắc.

Theo video trình diễn công khai, người dùng không chỉ có thể chọn âm thanh mà còn điều chỉnh cách truyền đạt và không khí của giọng nói. Nếu thế hệ TTS trước có phần “giống robot”, thì thế hệ mô hình này tập trung vào việc thể hiện khả năng biểu đạt gần giống con người hơn.

Hỗ trợ từ giọng Anh khu vực đến dạng podcast

Gemini 3.1 Flash TTS còn cung cấp nhiều giọng địa phương của các ngôn ngữ chính. Ví dụ tiếng Anh, không chỉ có thể chọn giọng Mỹ “Valley” và “Southern”, mà còn có thể chọn các biến thể như “Brixton”, “RP” của Anh. Ngoài ra còn có các tùy chọn giọng đặc biệt như “qua Đại Tây Dương”.

Google còn tích hợp chức năng “kiểm soát đạo diễn” cho mô hình này. Người dùng có thể điều chỉnh phong cách nói và tốc độ một cách tinh vi hơn, và sử dụng các mẫu dạng podcast đối thoại, thuyết minh sách nói, hướng dẫn ngôn ngữ, trợ lý giọng nói, hướng dẫn sức khỏe, phát thanh viên tin tức, nhân viên hỗ trợ khách hàng, v.v.

Điều đặc biệt đáng chú ý là khi người dùng thiết lập cảnh và môi trường, thậm chí nhập hướng dẫn thoại, mô hình này được thiết kế để cho phép các nhân vật trò chuyện nhiều lần đồng thời duy trì phong cách nói nhất quán. Google giải thích rằng, có thể xuất các giá trị cài đặt hoàn chỉnh thành mã API Gemini, từ đó tái tạo cùng một giọng nói trong nhiều dự án và nền tảng.

Hỗ trợ hơn 70 ngôn ngữ…và ứng dụng watermark

Theo Google, mục tiêu của Gemini 3.1 Flash TTS là cung cấp trải nghiệm giọng nói tự nhiên hơn. Hỗ trợ hơn 70 ngôn ngữ, bao gồm tiếng Nhật, Hindi, Đức, v.v.

Ngoài ra, tất cả nội dung đầu ra đều được nhúng watermark SynthID. Việc này nhằm mục đích dễ dàng nhận diện nội dung giọng nói do AI tạo ra, nhằm đối phó với những lo ngại về giả mạo sâu hoặc lan truyền thông tin giả trong tương lai.

Xếp hạng thứ hai trong thử nghiệm mù… nhà phát triển có thể sử dụng ngay lập tức

Hiệu suất của nó cũng đã được xác nhận ở mức độ nào đó. Trong bảng xếp hạng “Artificial Analysis TTS” phản ánh sở thích của hàng nghìn người thử nghiệm mù, Gemini 3.1 Flash TTS đứng thứ hai tổng thể với 1211 điểm. Google cho biết, điều này có nghĩa là nó nhận được đánh giá cao hơn nhiều mô hình TTS phổ biến khác.

Hiện tại, các nhà phát triển có thể sử dụng mô hình này ngay lập tức qua API Gemini và Google AI Studio. Khách hàng doanh nghiệp có thể truy cập qua Vertex AI, còn người dùng thông thường có thể thử nghiệm tính năng này trong Google Biz.

Việc ra mắt lần này cho thấy, cạnh tranh trong lĩnh vực AI sinh tạo đang mở rộng nhanh chóng từ văn bản và hình ảnh sang lĩnh vực giọng nói. Đặc biệt trong bối cảnh nhu cầu “giọng nói AI tự nhiên” ngày càng tăng trong các thị trường hỗ trợ khách hàng doanh nghiệp, sản xuất truyền thông, giáo dục, nội dung số, Gemini 3.1 Flash TTS có khả năng sẽ nâng cao hơn nữa mức độ cạnh tranh trong các thị trường liên quan.

Lưu ý của TP AI: Bài viết đã được tóm tắt bằng mô hình ngôn ngữ dựa trên TokenPost.ai. Nội dung chính có thể bị bỏ qua hoặc không đúng với thực tế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim