NVIDIA新款GPU,在Kubernetes上全力以赴

robot
摘要生成中

有哪些变化

NVIDIA发布的GB200 NVL72,其实不仅仅是高性能GPU,更是从根本上改变了跨多台机器构建GPU网络的方法。以往需要手动进行复杂配置,现在Kubernetes(容器管理系统)几乎可以全自动完成。

什么是ComputeDomains?

简单来说,就是把分布在多台服务器上的GPU“安全”“高速”地连接起来的机制。它被集成在NVIDIA的DRA GPU驱动中,每当工作负载(计算任务)被调度时,会自动创建和管理内存访问域。安全隔离和故障容错能力也大幅提升。

实现的优势

  • 可扩展性:整柜服务器统一成一个GPU架构,突破单节点时代的极限
  • 动态管理:每个工作负载独立获取域,大幅提升资源利用率
  • 多租户支持:多用户任务可同时运行且互不干扰

背景:GPU计算的发展

早期的NVIDIA DGX系统只支持单机扩展。多节点NVLink(MNNVL)出现后,不同服务器间的GPU通信大大加快。这次的ComputeDomains则将其原生集成到Kubernetes平台,为大规模语言模型训练和分布式推理提供了基础。

接下来是什么

DRA驱动v25.8.0还将带来更多改进,如解除每节点单一Pod的限制,提升调度灵活性,使用率有望进一步提升。AI基础设施即将进入新阶段。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)