Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Thích âm thanh của Tesla? xAI chính thức mở API giọng nói Grok, TTS giá 4,2 USD mỗi triệu ký tự, độ chính xác vượt qua ElevenLabs
xAI chính thức ra mắt API chuyển đổi giọng nói thành văn bản (STT) và chuyển đổi văn bản thành giọng nói (TTS) độc lập trong tuần này, bộ công nghệ này đã hoạt động thực tế trong Grok Voice, xe Tesla và hệ thống dịch vụ khách hàng Starlink. Giá STT là 0,10 đô la mỗi giờ theo batch, 0,20 đô la mỗi giờ theo luồng, hỗ trợ hơn 25 ngôn ngữ.
(Phần trước: Beta Grok 4.3 mở cho người đăng ký Heavy! Elon Musk: Phiên bản flagship thực sự hoàn thành sau 5 ngày đào tạo ban đầu)
(Bổ sung nền tảng: Google ra mắt Gemini 3.1 Flash TTS: Nhãn âm thanh giúp AI lồng tiếng sinh động hơn, hỗ trợ hơn 70 ngôn ngữ, Google AI Studio miễn phí trải nghiệm)
Mục lục bài viết
Chuyển đổi
Cùng một bộ công nghệ giúp xe Tesla có thể nói chuyện, giúp dịch vụ khách hàng Starlink phản hồi người dùng bằng giọng nói, nay đã được mở API ra ngoài. xAI ngày 17 chính thức công bố ra mắt API chuyển đổi giọng nói thành văn bản (STT) và chuyển đổi văn bản thành giọng nói (TTS) độc lập, cho phép các nhà phát triển bên ngoài gọi trực tiếp bộ hạ tầng giọng nói đã hoạt động trong các sản phẩm của xAI.
STT: Dấu thời gian theo từ + Phân biệt người nói, chuyển đổi hàng loạt chỉ 0,1 đô la mỗi giờ
Theo mô tả chính thức, API Grok STT cung cấp hai chế độ truy cập: qua REST API để xử lý theo batch, và qua WebSocket API để truyền phát thời gian thực với độ trễ thấp. Về giá cả, xử lý batch là 0,10 đô la mỗi giờ, truyền phát là 0,20 đô la mỗi giờ, so với các đối thủ cạnh tranh chính như ElevenLabs và Deepgram, giá này có lợi thế rõ rệt.
Về chức năng, Grok STT hỗ trợ hơn 25 ngôn ngữ, có dấu thời gian theo từ, phân biệt người nói (speaker diarization), cùng âm thanh đa kênh và chuẩn hóa ngược thông minh. Phù hợp cho các doanh nghiệp cần chuyển đổi cuộc họp, ghi chép pháp lý và y tế, nhật ký cuộc gọi dịch vụ khách hàng.
Trong các thử nghiệm nhận dạng thực thể, Grok STT thể hiện ưu thế. Trong các cuộc gọi điện thoại nhận diện tên, tài khoản, ngày tháng, tỷ lệ lỗi của Grok STT là 5,0%, trong khi ElevenLabs là 12,0%, Deepgram là 13,5%, AssemblyAI lên tới 21,3%.
TTS: 5 phong cách giọng nói + Nhãn giọng nói, 4,2 đô la mỗi triệu ký tự
API Grok TTS cung cấp năm kiểu giọng nói đa dạng: Ara (giọng nữ, ấm áp, thân thiện), Eve (giọng nữ, năng động, tích cực), Leo (giọng nam, uy quyền, mạnh mẽ), Rex (giọng nam, tự tin, rõ ràng), Sal (trung tính, lưu loát, cân đối).
API tự động phát hiện ngôn ngữ đầu vào, hỗ trợ hơn 20 ngôn ngữ gốc, và điều khiển phát âm qua mã ngôn ngữ BCP-47.
Định dạng âm thanh xuất ra gồm MP3, WAV, PCM (Linear16), G.711 μ-law và G.711 A-law, hai định dạng phổ biến trong hệ thống điện thoại, cho thấy xAI đã có kế hoạch tích hợp với ngành viễn thông.
Chức năng đặc biệt của API TTS là “Nhãn giọng nói”, cho phép nhà phát triển chèn lệnh trong văn bản để kiểm soát chính xác các khoảng dừng, tiếng cười, thì thầm, nhấn mạnh giọng điệu, tốc độ và cao độ, giúp giọng tổng hợp gần gũi hơn với cách thể hiện tự nhiên của con người. Giá là 4,20 đô la mỗi triệu ký tự.
Cùng bộ công nghệ đã vận hành Tesla và Starlink
xAI nhấn mạnh rằng, hai API này không phải công nghệ mới hoàn toàn, mà là dựa trên hạ tầng đã thực sự hoạt động trong Grok Voice, tương tác giọng nói trong xe Tesla, và hệ thống hỗ trợ khách hàng Starlink.
Hạ tầng này lần đầu tiên xuất hiện vào cuối năm 2025 dưới dạng API Grok Voice Agent, cung cấp khả năng đối thoại giọng nói trực tiếp, và đạt vị trí số 1 trong bài kiểm tra âm thanh Big Bench Audio, phản hồi âm thanh trong vòng chưa đầy 1 giây, nhanh gấp khoảng 5 lần so với các đối thủ cạnh tranh gần nhất.
Việc ra mắt các endpoint STT và TTS độc lập lần này, tương đương tách rời các thành phần của hệ thống giọng nói tích hợp, giúp các nhà phát triển có thể tùy ý kết hợp theo nhu cầu.