A Google revelou publicamente o TPU 8t·8i, que separa o aprendizado e a inferência de IA… Será que isso pode abalar o mercado dominado pela Nvidia?

robot
Geração do resumo em andamento

O Google, para receber a era dos agentes inteligentes, mudou sua estratégia de semicondutores de inteligência artificial. Ele abandonou a abordagem anterior de usar um único chip universal para processar aprendizado e raciocínio simultaneamente, lançando separadamente o “TPU 8t” para aprendizado em larga escala e o “TPU 8i” para raciocínio de alta concorrência.

No dia 23 (horário local), durante o evento “Google Cloud Next 2026” realizado em Las Vegas, EUA, a empresa revelou duas semicondutores de IA personalizadas. A companhia afirmou que o mercado de IA está se dividindo rapidamente em “fase de construção de modelos” e “fase de implantação de modelos”, e explicou que os novos TPUs foram projetados para atender a essa mudança de demanda.

Se o “Ironwood TPU” anterior era uma plataforma flagship única voltada para a era do raciocínio, a característica desta geração é que sua estrutura é dualizada. Isso foi interpretado como uma avaliação do Google de que, com a popularização dos agentes de IA, a infraestrutura necessária para treinar modelos maiores e a infraestrutura de raciocínio para executar esses modelos rapidamente na nuvem estão crescendo simultaneamente.

TPU 8t: reforçando desempenho de treinamento em larga escala e eficiência de custos

O TPU 8t é um chip focado em treinamento em larga escala e cargas de trabalho centradas em embeddings. O Google afirmou que o produto usa uma topologia de rede “anel 3D”, que melhora a escalabilidade de grandes clusters. Um único Pod pode conectar até 9600 chips, superior aos 9216 do Ironwood.

Seu núcleo suporta “SparseCore” e operações de ponto flutuante de 4 bits. SparseCore é um acelerador dedicado para lidar com acessos de memória irregulares frequentes durante a busca por grandes modelos de linguagem. O Google afirma que, ao combinar operações de bits baixos, reduziu a carga de largura de banda de memória, mantendo a precisão mesmo com menor capacidade de memória, além de dobrar a taxa de transferência.

Isso acompanha a tendência tecnológica conhecida como “quantização”. Reduzir o número de bits necessários por parâmetro significa que modelos maiores podem ser executados mesmo em sistemas com especificações relativamente baixas, além de diminuir o consumo de energia e o espaço físico. O Google afirmou que, em ambientes de treinamento em larga escala, o TPU 8t oferece até 2,7 vezes mais desempenho por dólar em comparação ao Ironwood.

TPU 8i: foco na velocidade de raciocínio e capacidade de processamento concorrente

O TPU 8i foi projetado especificamente para a fase de raciocínio, onde modelos treinados entram em operação real. Ele é especialmente vantajoso na pós-processamento de grandes modelos e no processamento de muitas solicitações simultâneas de usuários.

Segundo o Google, o TPU 8i possui três vezes mais memória de acesso aleatório estático do que o Ironwood. Isso permite acomodar caches maiores de “chave-valor” necessários para o raciocínio de grandes modelos de linguagem, acelerando a geração de texto. Além disso, a empresa implementou um sistema de inferência chamado “Collectives Acceleration Engine”, responsável por acelerar operações de sincronização e redução necessárias na decodificação autoregressiva e no raciocínio de “cadeia de pensamento”.

A estrutura de conexão entre os chips também foi redesenhada. O Google introduziu uma topologia de rede personalizada chamada “Boardfly ICI”, que pode interconectar até 1152 chips. O objetivo do projeto é tornar a comunicação entre todos os chips mais eficiente, reduzindo a distância e o número de saltos na transmissão de dados. Segundo o Google, na comunicação “All-to-All” essencial para modelos de linguagem de mistura de especialistas e modelos de raciocínio, o número total de saltos pode ser reduzido em até 50%.

A relação custo-benefício também é um ponto destacado. O Google explicou que o design do TPU 8i visa oferecer cerca de 80% de melhoria no desempenho por dólar em ambientes de baixa latência, em comparação ao Ironwood, especialmente útil para atender a modelos de ponta de mistura de especialistas de grande escala.

A jogada da Google: pode abalar o mercado centrado na NVIDIA?

O Google acrescentou que a eficiência energética do TPU 8t e do TPU 8i é o dobro da geração anterior. A eficiência energética é uma variável-chave para a lucratividade de grandes data centers de IA, tornando essa melhoria de grande importância.

Este lançamento não é apenas a apresentação de um novo semicondutor, mas um sinal de que o Google está oficialmente diferenciando sua estratégia de infraestrutura de IA em “treinamento” e “raciocínio”. Com a competição por serviços de IA se deslocando do desempenho do modelo para custos operacionais, velocidade de resposta e processamento concorrente, o Google busca fortalecer sua presença na nuvem por meio dos TPUs.

Analistas acreditam que a variável decisiva será a velocidade de adoção pelos clientes reais e a compatibilidade de software ao competir com o ecossistema centrado na NVIDIA. No entanto, com a popularização dos agentes de IA, a demanda por semicondutores de treinamento e de raciocínio está crescendo simultaneamente, e a estratégia dual do TPU do Google pode se tornar um ponto de inflexão importante na competição por infraestrutura de IA no futuro.

Notas do TP AI Este resumo foi gerado com base no modelo de linguagem TokenPost.ai. Pode haver omissões ou imprecisões nos principais conteúdos do texto.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar