币界网消息,阶跃星辰发布新一代自动语音识别模型StepAudio 2.5 ASR,目前已全量上线其开放平台。该版本率先将大语言模型的多token预测(MTP)技术引入语音识别领域,在大幅提升推理速度的同时,复用大模型32K上下文窗口,打破了传统长音频转写需要切片拼接的限制。新模型通过直接复用32K上下文窗口,支持端到端单次读入最长30分钟完整音频。在30分钟满载输入测试中,模型未出现随时间推移精度衰减的情况,其在Librispeech等中英文10个权威开源测试集上的综合错误率均低于竞品。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论