O GB200 NVL72 anunciado pela NVIDIA não é apenas um GPU de alto desempenho, mas mudou fundamentalmente a forma de construir redes de GPUs entre várias máquinas. Antes, era necessário fazer configurações manuais e complexas, mas agora o Kubernetes (sistema de gestão de contentores) faz quase tudo de forma automática.
O que são os ComputeDomains?
De forma simples, é um mecanismo que permite ligar GPUs dispersas por vários servidores de forma “segura” e “rápida”. Está integrado no driver DRA GPU da NVIDIA e, sempre que um workload (processamento) é agendado, cria e gere automaticamente áreas de acesso à memória. O isolamento de segurança e a tolerância a falhas também foram reforçados.
Vantagens da implementação
Escalabilidade: Todo o rack transforma-se num tecido unificado de GPUs. Supera os limites da era dos nós únicos
Gestão dinâmica: Cada workload obtém um domínio independente, aumentando drasticamente a eficiência dos recursos
Suporte multitenant: Permite a execução simultânea de processos de vários utilizadores sem interferências
Contexto: A evolução do GPU computing
Os sistemas NVIDIA DGX antigos só permitiam escalar dentro de uma única máquina. Com o Multi-Node NVLink (MNNVL), a comunicação entre GPUs em servidores diferentes tornou-se extremamente rápida. Os ComputeDomains agora implementam isto de forma nativa no Kubernetes. Está criado o alicerce para o treino de modelos linguísticos de grande escala e inferência distribuída.
O que vem a seguir
A versão 25.8.0 do driver DRA prevê melhorias adicionais. A remoção da restrição de um único pod por nó e maior flexibilidade no agendamento deverão aumentar ainda mais a taxa de utilização. Próxima fase para a infraestrutura base de IA.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A nova GPU da NVIDIA mostra todo o seu potencial no Kubernetes
O que mudou
O GB200 NVL72 anunciado pela NVIDIA não é apenas um GPU de alto desempenho, mas mudou fundamentalmente a forma de construir redes de GPUs entre várias máquinas. Antes, era necessário fazer configurações manuais e complexas, mas agora o Kubernetes (sistema de gestão de contentores) faz quase tudo de forma automática.
O que são os ComputeDomains?
De forma simples, é um mecanismo que permite ligar GPUs dispersas por vários servidores de forma “segura” e “rápida”. Está integrado no driver DRA GPU da NVIDIA e, sempre que um workload (processamento) é agendado, cria e gere automaticamente áreas de acesso à memória. O isolamento de segurança e a tolerância a falhas também foram reforçados.
Vantagens da implementação
Contexto: A evolução do GPU computing
Os sistemas NVIDIA DGX antigos só permitiam escalar dentro de uma única máquina. Com o Multi-Node NVLink (MNNVL), a comunicação entre GPUs em servidores diferentes tornou-se extremamente rápida. Os ComputeDomains agora implementam isto de forma nativa no Kubernetes. Está criado o alicerce para o treino de modelos linguísticos de grande escala e inferência distribuída.
O que vem a seguir
A versão 25.8.0 do driver DRA prevê melhorias adicionais. A remoção da restrição de um único pod por nó e maior flexibilidade no agendamento deverão aumentar ainda mais a taxa de utilização. Próxima fase para a infraestrutura base de IA.