Gate 广场“新星计划”正式上线!
开启加密创作之旅,瓜分月度 $10,000 奖励!
参与资格:从未在 Gate 广场发帖,或连续 7 天未发帖的创作者
立即报名:https://www.gate.com/questionnaire/7396
您将获得:
💰 1,000 USDT 月度创作奖池 + 首帖 $50 仓位体验券
🔥 半月度「爆款王」:Gate 50U 精美周边
⭐ 月度前 10「新星英雄榜」+ 粉丝达标榜单 + 精选帖曝光扶持
加入 Gate 广场,赢奖励 ,拿流量,建立个人影响力!
详情:https://www.gate.com/announcements/article/49672
DeepSeek 发布多重约束超连接架构以克服网络训练难题
DeepSeek 发布了开创性研究,介绍了一种新颖的网络架构——流形约束超连接 (mHC),在解决现有超连接网络 (HC) 系统中的基本挑战方面取得了重大突破。
问题:训练不稳定性和可扩展性限制
传统的超连接网络面临一个关键瓶颈——在训练过程中身份映射属性的崩溃导致广泛的不稳定性,并严重限制系统的扩展能力。随着模型规模的扩大,这些扰动会积累,造成性能下降,限制了基础模型开发的实际应用。
解决方案:基于流形的约束
创新的 mHC 架构通过一种复杂的方法应对这一挑战:它将 HC 的残差连接空间重新映射到受约束的流形几何上。通过在超连接拓扑结构上强制执行流形约束,该架构成功地在整个训练过程中恢复并保持身份映射特性。这一结构创新辅以严格的基础设施优化,确保理论的合理性和计算效率。
性能突破与可扩展性提升
结果充分证明了——mHC 相较于标准超连接网络带来了显著的性能提升,同时展现出优越的可扩展性。该架构即使在模型复杂度和规模增加时也能保持稳定,为下一代基础模型开辟了新的可能性。
学术贡献与未来影响
由谢震达、韦一轩、曹焕奇和梁文峰等第一作者带头的这项研究,将 mHC 定位为现有 HC 框架的实用且具有适应性的扩展。通过基于流形的约束,建立了更清晰的拓扑架构设计原则,为理解未来模型如何实现更高的稳定性和效率提供了坚实基础。DeepSeek 预期这些见解将引导基础模型架构的演进,迈向更稳健、更具扩展性的系统。