NVIDIA представила GB200 NVL72 — насправді це не просто високопродуктивний GPU, а рішення, яке кардинально змінює спосіб побудови GPU-мережі між декількома машинами. Раніше для цього були потрібні складні ручні налаштування, а зараз майже все автоматично виконує Kubernetes (система управління контейнерами).
Що таке ComputeDomains?
Грубо кажучи, це механізм, який дозволяє «безпечно» й «швидко» з’єднувати GPU, розташовані на різних серверах. Інтегрований у драйвер NVIDIA DRA GPU, він автоматично створює й управляє областями доступу до пам’яті щоразу, коли планується робоче навантаження (обчислювальний процес). Також посилюється ізоляція безпеки й відмовостійкість.
Переваги впровадження
Масштабованість: Весь стійковий простір стає єдиною GPU-фабрикою. Подолання обмежень епохи одного вузла
Динамічне управління: Кожне робоче навантаження отримує незалежний домен, завдяки чому ефективність використання ресурсів зростає в рази
Підтримка мультиорендності: Обробка завдань кількох користувачів одночасно без взаємного впливу
Передумови: еволюція GPU-обчислень
Старі системи NVIDIA DGX дозволяли масштабування лише в межах однієї машини. З появою Multi-Node NVLink (MNNVL) комунікація між GPU на різних серверах стала надзвичайно швидкою. ComputeDomains реалізує це рішення нативно для Kubernetes. Це закладає фундамент для масштабованого навчання великих мовних моделей і розподіленого інференсу.
Що далі
У драйвері DRA v25.8.0 заплановані подальші покращення. Очікується зняття обмеження одного пода на вузол і ще більша гнучкість планування, що підвищить ефективність використання. Наступний етап розвитку AI-інфраструктури.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Новий GPU від NVIDIA показує справжні можливості з Kubernetes
Що змінилося
NVIDIA представила GB200 NVL72 — насправді це не просто високопродуктивний GPU, а рішення, яке кардинально змінює спосіб побудови GPU-мережі між декількома машинами. Раніше для цього були потрібні складні ручні налаштування, а зараз майже все автоматично виконує Kubernetes (система управління контейнерами).
Що таке ComputeDomains?
Грубо кажучи, це механізм, який дозволяє «безпечно» й «швидко» з’єднувати GPU, розташовані на різних серверах. Інтегрований у драйвер NVIDIA DRA GPU, він автоматично створює й управляє областями доступу до пам’яті щоразу, коли планується робоче навантаження (обчислювальний процес). Також посилюється ізоляція безпеки й відмовостійкість.
Переваги впровадження
Передумови: еволюція GPU-обчислень
Старі системи NVIDIA DGX дозволяли масштабування лише в межах однієї машини. З появою Multi-Node NVLink (MNNVL) комунікація між GPU на різних серверах стала надзвичайно швидкою. ComputeDomains реалізує це рішення нативно для Kubernetes. Це закладає фундамент для масштабованого навчання великих мовних моделей і розподіленого інференсу.
Що далі
У драйвері DRA v25.8.0 заплановані подальші покращення. Очікується зняття обмеження одного пода на вузол і ще більша гнучкість планування, що підвищить ефективність використання. Наступний етап розвитку AI-інфраструктури.