Бюро новостей Цзичжие Вэнь сообщает, что Jiēyuè Xīngchén выпустила новое поколение модели автоматического распознавания речи StepAudio 2.5 ASR, которая уже полностью запущена на их открытой платформе. Эта версия впервые внедрила технологию предсказания нескольких токенов (MTP) крупной языковой модели в область распознавания речи, значительно ускоряя вывод, одновременно повторно используя окно контекста объемом 32K крупной модели, что разрушает ограничения традиционного транскрибирования длинных аудио с необходимостью разрезания и склеивания. Новая модель, напрямую использующая окно контекста 32K, поддерживает однократное чтение полного аудио длительностью до 30 минут. В тестах с полной загрузкой 30-минутного входного сигнала модель не показывала снижение точности со временем, а ее совокупная ошибка на 10 авторитетных открытых тестовых наборах, таких как Librispeech, по английскому и китайскому языкам, была ниже у конкурентов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить