📢 Gate 广场|4/17 热议:#山寨币强势反弹
随着 BTC 企稳回升,压抑已久的山寨币市场迎来报复性反弹!
领涨先锋: $ORDI 24H 飙升 190% 领跑赛道。
普涨行情: $SATS、$NEIRO、$AXL 涨幅均超 40%,高波动资产流动性显著回暖。
这究竟是“深坑反弹”的起点,还是主升浪前的最后诱多?你会果断满仓,还是保持空仓观望?
🎁 行情研判,抽 5 位锦鲤瓜分 $1,000 仓位体验券!
💬 本期讨论:
1️⃣ 这波反弹你上车了吗?亮出你的操作策略或收益截图!
2️⃣ 还有哪些币种值得重点关注?
2️⃣ 后续行情如何?留下你的精准预测。
分享您的观点 👉 https://www.gate.com/post
📅 4/17 12:00 - 4/19 18:00 (UTC+8)
喜欢特斯拉声音?xAI 正式开放 Grok 语音 API,TTS 每百万字符 4.2 美元、识别率击败 ElevenLabs
xAI 本周正式推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,这套技术栈已在 Grok Voice、特斯拉车辆与 Starlink 客服系统中实际运行。STT 定价为批次每小时 0.10 美元、串流每小时 0.20 美元,支持 25 种以上语言。
(前情提要:Grok 4.3 beta 开放 Heavy 订阅用户!马斯克:真正旗舰版本初训 5 天后完成)
(背景补充:Google 上线 Gemini 3.1 Flash TTS:音频标签让 AI 配音更生动、支持 70+ 语言,Google AI Studio 免费体验)
本文目录
切换
同一套让特斯拉车辆开口说话、让 Starlink 客服回应用户的语音技术,现在通过 API 对外开放了。xAI 17 日正式宣布推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,让外部开发者得以直接调用这套已在 xAI 旗下产品中运作的语音基础设施。
STT:词级时间戳+说话者区分,批次转录每小时仅 0.1 美元
根据官方说明,Grok STT API 提供两种接入模式:通过 REST API 进行批处理,以及通过 WebSocket API 进行低延迟实时串流。定价方面,批处理为每小时 0.10 美元、串流为每小时 0.20 美元,官方表示相较 ElevenLabs 和 Deepgram 等主流竞争对手,定价具有显著优势。
功能方面,Grok STT 支持 25 种以上语言,具备词级时间戳、说话者区分(speaker diarization),以及多声道音频和智能反向文字规范化。适合会议转录、法律与医疗记录、客服通话日志等需要高精确度的企业场景。
在实体识别基准测试中,Grok STT 展现出优势。在电话通话中识别姓名、账号、日期等关键实体时,Grok STT 的错误率为 5.0%,而 ElevenLabs 为 12.0%、Deepgram 为 13.5%、AssemblyAI 则高达 21.3%。
TTS:5 种语音个性+语音标签,每百万字符 4.2 美元
Grok TTS API 提供五种各具风格的语音选项:Ara(女声,温暖亲切)、Eve(女声,活泼积极)、Leo(男声,权威有力)、Rex(男声,自信清晰)、Sal(中性,流畅均衡)。
API 自动检测输入语言,原生支持 20 种以上语言,并通过 BCP-47 语言代码控制发音。
音频输出格式涵盖 MP3、WAV、PCM(Linear16)、G.711 μ-law 以及 G.711 A-law,后两者为电话系统常见的电话编解码格式,显示 xAI 对电信业整合的布局。
TTS API 的特色功能是“语音标签”,开发者可以在文字中内嵌指令,精细控制停顿、笑声、耳语、语调强调、语速与音高,让合成语音更贴近人类自然表达。定价为每百万字符 4.20 美元。
同一技术栈已驱动特斯拉与 Starlink
xAI 强调,两项 API 背后并非全新研发的技术,而是已在 Grok Voice、特斯拉车辆语音互动,以及 Starlink 客户支持系统中实际执行的相同基础设施。
这套基础设施首先在 2025 年底以 Grok Voice Agent API 的形式亮相,当时提供即时语音对话代理能力,并在 Big Bench Audio 基准测试中排名第一,首次音频响应时间低于 1 秒,约为最近竞争对手的 5 倍速度。
此次推出的 STT 和 TTS 独立端点,等于将这套整合式语音管道的个别元件拆分开放,让开发者可以依需求组合。