NVIDIA анонсировала GB200 NVL72 — на самом деле это не просто высокопроизводительный GPU, а технология, которая радикально изменила способ построения GPU-сетей между несколькими машинами. Если раньше требовалась ручная и сложная настройка, теперь почти всё делает автоматически Kubernetes (система управления контейнерами).
Что такое ComputeDomains?
Проще говоря, это механизм, который позволяет «безопасно» и «быстро» соединять GPU, разбросанные по разным серверам. Интегрировано в драйверы DRA GPU от NVIDIA: при каждом запуске ворклоада (вычислительной задачи) автоматически создаются и управляются области доступа к памяти. Укреплена изоляция для безопасности и повышена отказоустойчивость.
Преимущества реализации
Масштабируемость: Вся стойка становится единой GPU-фабрикой. Преодолен предел эпохи single-node.
Динамическое управление: Каждый ворклоад получает отдельный домен, что резко повышает эффективность использования ресурсов.
Мультиарендность: Несколько пользователей могут выполнять свои задачи одновременно без взаимного влияния.
Контекст: Эволюция GPU-вычислений
Ранние системы NVIDIA DGX могли масштабироваться только в рамках одной машины. С появлением Multi-node NVLink (MNNVL) ускорилась связь GPU между разными серверами. ComputeDomains реализует этот подход нативно для Kubernetes. Создана основа для обучения крупных языковых моделей и распределённого инференса.
Что дальше
В драйвере DRA версии 25.8.0 запланированы дальнейшие улучшения. Ожидается снятие ограничения на один под на ноду, а также повышение гибкости планирования — это ещё больше повысит эффективность использования. Следующий этап эволюции инфраструктуры для AI.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Новый GPU от NVIDIA выходит на полную мощность в Kubernetes
Что изменилось
NVIDIA анонсировала GB200 NVL72 — на самом деле это не просто высокопроизводительный GPU, а технология, которая радикально изменила способ построения GPU-сетей между несколькими машинами. Если раньше требовалась ручная и сложная настройка, теперь почти всё делает автоматически Kubernetes (система управления контейнерами).
Что такое ComputeDomains?
Проще говоря, это механизм, который позволяет «безопасно» и «быстро» соединять GPU, разбросанные по разным серверам. Интегрировано в драйверы DRA GPU от NVIDIA: при каждом запуске ворклоада (вычислительной задачи) автоматически создаются и управляются области доступа к памяти. Укреплена изоляция для безопасности и повышена отказоустойчивость.
Преимущества реализации
Контекст: Эволюция GPU-вычислений
Ранние системы NVIDIA DGX могли масштабироваться только в рамках одной машины. С появлением Multi-node NVLink (MNNVL) ускорилась связь GPU между разными серверами. ComputeDomains реализует этот подход нативно для Kubernetes. Создана основа для обучения крупных языковых моделей и распределённого инференса.
Что дальше
В драйвере DRA версии 25.8.0 запланированы дальнейшие улучшения. Ожидается снятие ограничения на один под на ноду, а также повышение гибкости планирования — это ещё больше повысит эффективность использования. Следующий этап эволюции инфраструктуры для AI.