Новый GPU от NVIDIA выходит на полную мощность в Kubernetes

robot
Генерация тезисов в процессе

Что изменилось

NVIDIA анонсировала GB200 NVL72 — на самом деле это не просто высокопроизводительный GPU, а технология, которая радикально изменила способ построения GPU-сетей между несколькими машинами. Если раньше требовалась ручная и сложная настройка, теперь почти всё делает автоматически Kubernetes (система управления контейнерами).

Что такое ComputeDomains?

Проще говоря, это механизм, который позволяет «безопасно» и «быстро» соединять GPU, разбросанные по разным серверам. Интегрировано в драйверы DRA GPU от NVIDIA: при каждом запуске ворклоада (вычислительной задачи) автоматически создаются и управляются области доступа к памяти. Укреплена изоляция для безопасности и повышена отказоустойчивость.

Преимущества реализации

  • Масштабируемость: Вся стойка становится единой GPU-фабрикой. Преодолен предел эпохи single-node.
  • Динамическое управление: Каждый ворклоад получает отдельный домен, что резко повышает эффективность использования ресурсов.
  • Мультиарендность: Несколько пользователей могут выполнять свои задачи одновременно без взаимного влияния.

Контекст: Эволюция GPU-вычислений

Ранние системы NVIDIA DGX могли масштабироваться только в рамках одной машины. С появлением Multi-node NVLink (MNNVL) ускорилась связь GPU между разными серверами. ComputeDomains реализует этот подход нативно для Kubernetes. Создана основа для обучения крупных языковых моделей и распределённого инференса.

Что дальше

В драйвере DRA версии 25.8.0 запланированы дальнейшие улучшения. Ожидается снятие ограничения на один под на ноду, а также повышение гибкости планирования — это ещё больше повысит эффективность использования. Следующий этап эволюции инфраструктуры для AI.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить