CoinWorld消息,谷歌发布并开源了Gemma 4系列的多token预测(MTP)草稿模型。这是一个采用投机解码(speculative decoding)架构的轻量级辅助模型,能在主模型保留最终验证权的基础上,实现最高3倍的推理提速,且完全不损耗输出质量和逻辑推理能力。该模型已采用与Gemma 4相同的Apache 2.0协议全面开源,并原生支持vllm、sglang和ollama等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行26b moe和31b稠密模型,也能在移动设备上以更低的功耗支撑实时AI交互。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler