NVIDIA 最新型 GPU,全力投入 Kubernetes

robot
摘要生成中

有什麼變化

NVIDIA 發表的 GB200 NVL72,其實不只是單純的高效能 GPU,而是從根本上改變了跨多台機器構建 GPU 網路的方法。以往需要人工進行複雜設定,現在則幾乎都能由 Kubernetes(容器管理系統)自動完成。

什麼是 ComputeDomains?

簡單來說,就是讓分散在多台伺服器上的 GPU 彼此「安全且高速」連接的機制。ComputeDomains 已整合進 NVIDIA 的 DRA GPU 驅動,只要有運算工作(workload)被排程,就會自動建立與管理記憶體存取區域,同時強化安全隔離與容錯能力。

實作優點

  • 可擴展性:整個機櫃都能成為統一的 GPU 布局,突破單節點時代的瓶頸
  • 動態管理:每個運算任務能獨立取得域,大幅提升資源效率
  • 多租戶支援:多位用戶同時運算也不會互相干擾

背景:GPU 運算的演進

早期的 NVIDIA DGX 系統僅止於單機內擴展。多節點 NVLink(MNNVL)問世後,跨伺服器的 GPU 通訊大幅加速。這次的 ComputeDomains 則是將其以 Kubernetes 原生方式實現,大型語言模型訓練和分散式推論的基礎建設就此到位。

接下來會如何

DRA 驅動 v25.8.0 預計還會帶來更多改進,如解除每節點僅限單一 Pod 的限制,調度彈性提升,進一步提高使用率。AI 基礎設施將進入新階段。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)