GB200 NVL72 do NVIDIA công bố thực ra không chỉ là GPU hiệu năng cao, mà còn thay đổi tận gốc cách xây dựng mạng lưới GPU kết nối giữa nhiều máy. Trước đây, việc này yêu cầu cấu hình phức tạp thủ công, nhưng giờ đây Kubernetes (hệ thống quản lý container) hầu như tự động đảm nhiệm.
ComputeDomains là gì?
Nói đơn giản, đây là cơ chế kết nối các GPU phân tán trên nhiều máy chủ một cách “an toàn” và “tốc độ cao”. Được tích hợp vào driver DRA GPU của NVIDIA, ComputeDomains sẽ tự động tạo và quản lý vùng truy cập bộ nhớ mỗi khi workload (nhiệm vụ tính toán) được lên lịch. Tăng cường tách biệt bảo mật và khả năng chịu lỗi.
Lợi ích khi triển khai
Khả năng mở rộng: Toàn bộ rack trở thành một GPU fabric thống nhất. Vượt qua giới hạn thời kỳ single-node
Quản lý động: Mỗi workload nhận domain độc lập, nâng cao mạnh mẽ hiệu quả sử dụng tài nguyên
Hỗ trợ đa người dùng: Xử lý đồng thời nhiều người dùng mà không bị can thiệp lẫn nhau
Bối cảnh: Sự tiến hóa của GPU Computing
Các hệ thống NVIDIA DGX cũ chỉ mở rộng trong phạm vi một máy. Sự xuất hiện của Multi-Node NVLink (MNNVL) giúp giao tiếp GPU giữa các máy chủ khác nhau cực nhanh. ComputeDomains lần này là hiện thực hóa điều đó theo cách native với Kubernetes. Nền tảng cho huấn luyện mô hình ngôn ngữ lớn và suy luận phân tán đã sẵn sàng.
Tiếp theo là gì
Driver DRA v25.8.0 sẽ có thêm nhiều cải tiến. Gỡ bỏ giới hạn một pod trên mỗi node, linh hoạt hơn trong lập lịch, giúp tăng hơn nữa hiệu suất sử dụng. Bước tiếp theo cho hạ tầng nền tảng AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
GPU mới của NVIDIA thể hiện sức mạnh thực sự trên Kubernetes
Điều gì đã thay đổi
GB200 NVL72 do NVIDIA công bố thực ra không chỉ là GPU hiệu năng cao, mà còn thay đổi tận gốc cách xây dựng mạng lưới GPU kết nối giữa nhiều máy. Trước đây, việc này yêu cầu cấu hình phức tạp thủ công, nhưng giờ đây Kubernetes (hệ thống quản lý container) hầu như tự động đảm nhiệm.
ComputeDomains là gì?
Nói đơn giản, đây là cơ chế kết nối các GPU phân tán trên nhiều máy chủ một cách “an toàn” và “tốc độ cao”. Được tích hợp vào driver DRA GPU của NVIDIA, ComputeDomains sẽ tự động tạo và quản lý vùng truy cập bộ nhớ mỗi khi workload (nhiệm vụ tính toán) được lên lịch. Tăng cường tách biệt bảo mật và khả năng chịu lỗi.
Lợi ích khi triển khai
Bối cảnh: Sự tiến hóa của GPU Computing
Các hệ thống NVIDIA DGX cũ chỉ mở rộng trong phạm vi một máy. Sự xuất hiện của Multi-Node NVLink (MNNVL) giúp giao tiếp GPU giữa các máy chủ khác nhau cực nhanh. ComputeDomains lần này là hiện thực hóa điều đó theo cách native với Kubernetes. Nền tảng cho huấn luyện mô hình ngôn ngữ lớn và suy luận phân tán đã sẵn sàng.
Tiếp theo là gì
Driver DRA v25.8.0 sẽ có thêm nhiều cải tiến. Gỡ bỏ giới hạn một pod trên mỗi node, linh hoạt hơn trong lập lịch, giúp tăng hơn nữa hiệu suất sử dụng. Bước tiếp theo cho hạ tầng nền tảng AI.