xAI 推出 Grok 语音 API,价格比竞争对手低 60%

扎克·安德森

2026年4月18日 00:53

埃隆·马斯克的xAI发布Grok语音转文本和文本转语音API,收费为每小时0.10美元,声称在企业转录基准测试中实现最低错误率。

埃隆·马斯克的xAI于4月17日推出了两个独立的音频API,将Grok的语音技术定位为ElevenLabs、Deepgram和AssemblyAI的直接竞争对手,价格具有竞争力。

Grok语音转文本API的批处理价格为每小时0.10美元,实时流式传输为每小时0.20美元。文本转语音的价格为每百万字符4.20美元。两者都利用为特斯拉车辆和Starlink客户支持提供动力的相同基础设施。

值得审查的基准声称

xAI公布的词错误率讲述了一个有趣的故事。在电话呼叫实体识别方面——比如姓名、账号、日期——Grok STT声称错误率为5.0%,而ElevenLabs为12.0%,Deepgram为13.5%,AssemblyAI为21.3%。如果在实际应用中能保持这一差距,将是相当显著的。

公司用一个棘手的测试案例进行了演示:转录威尔士名字“Anghared Llewelyn Bowen”和“Oisin MacGiolla Phadraig”以及抵押贷款细节。Grok完美无误,零错误。竞争模型在发音和日期格式方面表现不一致,出现了失误。

视频和播客转录显示竞争更为激烈——Grok和ElevenLabs的错误率都为2.4%,Deepgram和AssemblyAI略高,分别为3.0%和3.2%。

面向开发者的技术特性

除了原始转录功能,xAI还内置了企业客户真正需要的功能:词级时间戳、多音轨的说话人识别,以及支持25多种语言并实现无缝切换。

逆文本归一化功能可以自动将口语中的数字、日期和货币转换为正确的格式。“Four one four five five five one two three four”变成电话号码。“Six ninety-nine”变成6.99美元。虽然细节微小,但它消除了后期处理的麻烦。

文本转语音支持内联标签,用于控制韵律——耳语、笑声、叹息、强调、节奏调整。开发者可以注入情感细节,无需处理复杂的音频标记。

战略背景

此次发布紧随xAI在2025年3月收购X公司之后,同时公司正在扩大其基础设施合作伙伴关系。在API宣布的前两天,有报道称xAI计划为Cursor提供计算能力,Cursor是一家由AI驱动的编码初创公司。

自2024年12月投入运营的Colossus超级计算机提供了后端支持。xAI似乎在多个垂直领域实现了容量变现——企业AI、开发者工具,以及现在的语音API。

对于构建语音代理或转录工具的开发者来说,这一价格远低于已建立的竞争者。Grok的准确性声称是否能在实际部署中经得起考验,仍是悬而未决的问题。相关文档和速率限制已通过xAI的API控制台提供,供准备测试的用户使用。

图片来源:Shutterstock

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论