注意到在语音识别领域出现了有趣的动向。Sierra 将 μ-Bench 多语言数据集公开,作为评估 ASR 系统的工具,这看起来是一个相当重要的举措。



核心内容是:该数据集包含 250 条来自客户服务的真实录音和 4270 个带注释的音频片段。与现有基准不同的是,这里不仅仅支持英语。支持五种语言——英语、西班牙语、土耳其语、越南语和普通话。

特别有趣的是新的指标 UER (Utterance Error Rate)。它区分会改变语义的错误和不影响语义的错误。这比传统的 WER 指标要细腻得多,后者将所有错误一视同仁。

测试结果显示:Google Chirp-3 在准确率方面领先,Deepgram Nova-3 速度最快,但在多语言方面略有落后。未来的发展令人期待。

数据集和结果表已在 Hugging Face 上开放,其他开发者也可以加入评测。看来 μ-Bench 正在成为客户服务环境中评估 ASR 的新标准。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论