✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
xAI 推出 Grok 语音 API,价格比竞争对手低 60%
扎克·安德森
2026年4月18日 00:53
埃隆·马斯克的xAI发布Grok语音转文本和文本转语音API,收费为每小时0.10美元,声称在企业转录基准测试中实现最低错误率。
埃隆·马斯克的xAI于4月17日推出了两个独立的音频API,将Grok的语音技术定位为ElevenLabs、Deepgram和AssemblyAI的直接竞争对手,价格具有竞争力。
Grok语音转文本API的批处理价格为每小时0.10美元,实时流式传输为每小时0.20美元。文本转语音的价格为每百万字符4.20美元。两者都利用为特斯拉车辆和Starlink客户支持提供动力的相同基础设施。
值得审查的基准声称
xAI公布的词错误率讲述了一个有趣的故事。在电话呼叫实体识别方面——比如姓名、账号、日期——Grok STT声称错误率为5.0%,而ElevenLabs为12.0%,Deepgram为13.5%,AssemblyAI为21.3%。如果在实际应用中能保持这一差距,将是相当显著的。
公司用一个棘手的测试案例进行了演示:转录威尔士名字“Anghared Llewelyn Bowen”和“Oisin MacGiolla Phadraig”以及抵押贷款细节。Grok完美无误,零错误。竞争模型在发音和日期格式方面表现不一致,出现了失误。
视频和播客转录显示竞争更为激烈——Grok和ElevenLabs的错误率都为2.4%,Deepgram和AssemblyAI略高,分别为3.0%和3.2%。
面向开发者的技术特性
除了原始转录功能,xAI还内置了企业客户真正需要的功能:词级时间戳、多音轨的说话人识别,以及支持25多种语言并实现无缝切换。
逆文本归一化功能可以自动将口语中的数字、日期和货币转换为正确的格式。“Four one four five five five one two three four”变成电话号码。“Six ninety-nine”变成6.99美元。虽然细节微小,但它消除了后期处理的麻烦。
文本转语音支持内联标签,用于控制韵律——耳语、笑声、叹息、强调、节奏调整。开发者可以注入情感细节,无需处理复杂的音频标记。
战略背景
此次发布紧随xAI在2025年3月收购X公司之后,同时公司正在扩大其基础设施合作伙伴关系。在API宣布的前两天,有报道称xAI计划为Cursor提供计算能力,Cursor是一家由AI驱动的编码初创公司。
自2024年12月投入运营的Colossus超级计算机提供了后端支持。xAI似乎在多个垂直领域实现了容量变现——企业AI、开发者工具,以及现在的语音API。
对于构建语音代理或转录工具的开发者来说,这一价格远低于已建立的竞争者。Grok的准确性声称是否能在实际部署中经得起考验,仍是悬而未决的问题。相关文档和速率限制已通过xAI的API控制台提供,供准备测试的用户使用。
图片来源:Shutterstock