Le GB200 NVL72 annoncé par NVIDIA n’est pas simplement un GPU haute performance : il a fondamentalement changé la manière de construire des réseaux GPU reliant plusieurs machines. Là où des configurations manuelles complexes étaient auparavant nécessaires, Kubernetes (le système de gestion de conteneurs) prend désormais en charge presque tout automatiquement.
Qu’est-ce que ComputeDomains ?
En bref, c’est un mécanisme permettant de connecter les GPU répartis sur plusieurs serveurs de façon “sécurisée” et “rapide”. Intégré au pilote GPU DRA de NVIDIA, il crée et gère automatiquement les espaces d’accès mémoire à chaque fois qu’une charge de travail (traitement informatique) est programmée. L’isolation de la sécurité et la tolérance aux pannes sont également renforcées.
Avantages de l’implémentation
Scalabilité : L’ensemble du rack devient un tissu GPU unifié. Dépasse les limites de l’époque du nœud unique
Gestion dynamique : Chaque charge de travail obtient un domaine indépendant, ce qui améliore considérablement l’efficacité des ressources
Support multi-locataires : L’exécution simultanée des traitements de plusieurs utilisateurs sans interférence
Contexte : l’évolution du computing GPU
Les anciens systèmes NVIDIA DGX ne permettaient que le scaling au sein d’une seule machine. L’arrivée du NVLink multi-nœuds (MNNVL) a accéléré la communication GPU entre serveurs différents. ComputeDomains implémente désormais cela de manière native dans Kubernetes. Les bases pour l’entraînement à grande échelle de modèles de langage et l’inférence distribuée sont posées.
Et après ?
La version 25.8.0 du pilote DRA prévoit encore d’autres améliorations. La levée de la contrainte d’un seul pod par nœud et une planification plus flexible devraient encore accroître l’utilisation. Prochaine étape pour l’infrastructure des bases de l’IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Le nouveau GPU de NVIDIA passe à la vitesse supérieure avec Kubernetes
Qu’est-ce qui a changé
Le GB200 NVL72 annoncé par NVIDIA n’est pas simplement un GPU haute performance : il a fondamentalement changé la manière de construire des réseaux GPU reliant plusieurs machines. Là où des configurations manuelles complexes étaient auparavant nécessaires, Kubernetes (le système de gestion de conteneurs) prend désormais en charge presque tout automatiquement.
Qu’est-ce que ComputeDomains ?
En bref, c’est un mécanisme permettant de connecter les GPU répartis sur plusieurs serveurs de façon “sécurisée” et “rapide”. Intégré au pilote GPU DRA de NVIDIA, il crée et gère automatiquement les espaces d’accès mémoire à chaque fois qu’une charge de travail (traitement informatique) est programmée. L’isolation de la sécurité et la tolérance aux pannes sont également renforcées.
Avantages de l’implémentation
Contexte : l’évolution du computing GPU
Les anciens systèmes NVIDIA DGX ne permettaient que le scaling au sein d’une seule machine. L’arrivée du NVLink multi-nœuds (MNNVL) a accéléré la communication GPU entre serveurs différents. ComputeDomains implémente désormais cela de manière native dans Kubernetes. Les bases pour l’entraînement à grande échelle de modèles de langage et l’inférence distribuée sont posées.
Et après ?
La version 25.8.0 du pilote DRA prévoit encore d’autres améliorations. La levée de la contrainte d’un seul pod par nœud et une planification plus flexible devraient encore accroître l’utilisation. Prochaine étape pour l’infrastructure des bases de l’IA.