🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
我刚刚在语音识别的世界里发现了一些有趣的东西。Sierra 刚刚开源了 μ-Bench,这是一个用于 ASR 的多语言基准测试,它解决了一个真正的问题:现有的大多数基准测试都聚焦于英语,这会严重限制在真实客户环境中对系统进行评估。
在 μ-Bench 上特别值得关注的是,它提出了一种比旧方法更细致、更有分寸的思路。与传统的 Word Error Rate (WER) 不同,他们引入了 Utterance Error Rate (UER),它能区分那些真正会改变消息含义的错误,以及那些不会影响理解的错误。这对于评估真实的质量来说,是一次显著的进步。
该数据集包含 250 段真实的客户服务录音,以及 4 270 段经过标注的音频摘录,覆盖五种语言:英语、西班牙语、土耳其语、越南语和普通话。就代表性而言,这已经比之前强得多。
从性能表现来看,Google Chirp-3 在精度上明显占据优势;而 Deepgram Nova-3 以速度见长,但在多语言精度方面仍稍显不足。看到不同供应商在各项指标上的位置如何呈现,确实很有意思。
完整的基准测试和排行榜现已在 Hugging Face 上提供,这为更多供应商的参与打开了大门。这类开源倡议正是能真正推动行业向前发展的那种行动,尤其是在需要针对多语言的真实用例来提升语音识别能力时。