จากการติดตามของ 1M AI News เครื่องมือเขียนโค้ดด้วย AI อย่าง Cursor ได้เผยแพร่บล็อกเชิงเทคนิค โดยอธิบายวิธีเร่งการอนุมานของ MoE (โมเดลผู้เชี่ยวชาญแบบผสม) ที่พัฒนาขึ้นเอง ซึ่งมีชื่อว่า Warp Decode วิธีนี้มุ่งเป้าไปที่สถานการณ์การสร้างโทเคนแบบชุดเล็กบน GPU ของ NVIDIA Blackwell โดยจะพลิกกลยุทธ์การขนานแบบเดิมที่ยึด “ผู้เชี่ยวชาญเป็นศูนย์กลาง” ให้เป็น “ยึดผลลัพธ์เป็นศูนย์กลาง”: ใน GPU warp แต่ละตัว (หน่วยกำหนดเวลาขั้นต่ำที่ประกอบด้วยการประมวลผลแบบขนาน 32 หน่วย) ทำหน้าที่คำนวณค่าเอาต์พุตเพียงหนึ่งค่าเท่านั้น จากนั้นจะวนลัดผ่านผู้เชี่ยวชาญทั้งหมดที่ถูกกำหนดเส้นทาง (route) อย่างอิสระ และทำการสะสม (accumulate) ให้เสร็จสิ้นในรีจิสเตอร์ โดยไม่ต้องมีการซิงก์ข้าม warp หรือใช้บัฟเฟอร์ชั่วคราวใด ๆ
ไปป์ไลน์การอนุมาน MoE แบบดั้งเดิมมีทั้งหมด 8 ขั้นตอน โดย 5 ขั้นตอนนั้นใช้เพียงเพื่อเคลื่อนย้ายข้อมูลสำหรับมุมมองของผู้เชี่ยวชาญเท่านั้น ไม่ได้ทำการคำนวณจริงเลย Warp Decode จะบีบอัดเลเยอร์การคำนวณทั้งหมดของ MoE ให้เหลือเพียง CUDA kernel 2 ตัว ลดขั้นตอนระดับกลางอย่างการเติม (padding), การกระจาย (dispersal), และการรวม (merge) ออกไป โดยสำหรับโทเคนแต่ละตัวจะลดการอ่าน/เขียนบัฟเฟอร์ชั่วคราวได้มากกว่า 32KB
จากการทดสอบด้วยโมเดลสไตล์ Qwen-3 บน GPU ของ NVIDIA B200 พบว่า Warp Decode ทำให้ throughput การถอดรหัส end-to-end เพิ่มขึ้น 1.84 เท่า และเนื่องจากคำนวณด้วยความแม่นยำ BF16/FP32 ตลอดทั้งกระบวนการ พร้อมหลีกเลี่ยงความสูญเสียจากการทำควอนไทซ์ (quantization) ระหว่างทาง ความแม่นยำของเอาต์พุตจึงเข้าใกล้ค่าอ้างอิงของ FP32 มากเป็น 1.4 เท่า ในด้านประสิทธิภาพการใช้ประโยชน์แบนด์วิดท์ของฮาร์ดแวร์ เมื่อขนาดแบตช์เท่ากับ 32 มี throughput ต่อเนื่องอยู่ที่ 3.95 TB/s ซึ่งคิดเป็นประมาณ 58% ของแบนด์วิดท์สูงสุดของ B200 (6.8 TB/s) การปรับปรุงนี้เร่งการพัฒนาและจังหวะการอัปเดต/ปล่อยเวอร์ชันของโมเดลการเขียนโค้ดที่พัฒนาขึ้นเองของ Cursor อย่าง Composer โดยตรง