Cursor опубликовал технологию оптимизации MoE inference Warp Decode, увеличив пропускную способность на GPU Blackwell в 1.84 раза

BlockBeatNews

Согласно мониторингу 1M AI News, AI-инструмент для программирования Cursor опубликовал технический блог, в котором представил собственный метод ускорения вывода MoE (модели «смешанных экспертов») — Warp Decode. Этот метод ориентирован на сценарии генерации небольшими партиями token на GPU Nvidia Blackwell и переворачивает традиционную параллельную стратегию, центрированную вокруг экспертов, на стратегию, центрированную вокруг результата: каждый warp (минимальная единица планирования, состоящая из 32 параллельных вычислительных единиц) в GPU отвечает лишь за вычисление одного выходного значения, независимо обходит все эксперты, к которым выполняется маршрутизация, и выполняет суммирование в регистрах, без необходимости в какой-либо синхронизации между warp и без промежуточных буферов.

Традиционный MoE-конвейер вывода состоит из 8 стадий, из которых 5 предназначены только для переноса данных для экспертных представлений и не выполняют реальные вычисления. Warp Decode сжимает весь слой вычислений MoE до 2 CUDA kernel, устраняя промежуточные шаги вроде заполнения, разбрасывания, объединения и т. п. В результате для каждого token сокращается чтение/запись промежуточных буферов более чем на 32KB.

По результатам практических испытаний на GPU Nvidia B200 с моделью в стиле Qwen-3, Warp Decode обеспечивает прирост 1.84 раза по сквозной декодирующей пропускной способности, а также благодаря тому, что вычисления выполняются на протяжении всего процесса с точностью BF16/FP32 и избегаются потери, возникающие при промежуточном квантовании, точность вывода оказывается близка к 1.4 раза превосходящей традиционный путь по сравнению с базовой точностью FP32. Что касается использования аппаратной пропускной способности: при размере батча 32 постоянная пропускная способность достигает 3.95 TB/s, что составляет около 58% от пикового значения пропускной способности B200 (6.8 TB/s). Эта оптимизация напрямую ускоряет цикл разработки и частоту релизов разрабатываемой собственными силами программной модели Cursor Composer.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев