Todos maximizando tokens, uma corrida armamentista que ninguém ousa parar

Escrito por: Meng Xing

Na manhã de 24 de março de 2026, eu estava sentado na plateia do Demo Day do YC W26 batch, e ao ouvir a apresentação da quinta empresa, decidi não fazer mais anotações.

Não é que não seja importante, mas percebi que o que eu anotava poderia estar desatualizado no mês seguinte.

Nesta turma, mais de cem empresas, as atividades realizadas são altamente concentradas: cerca de 80% são agentes verticais, como ajudar advogados a organizar documentos, ajudar suporte a distribuir tarefas, ajudar RH a filtrar currículos.

Se tivesse visto esses projetos em outubro do ano passado, provavelmente acharia “bem pensados”. Mas o problema é que, nesses cinco meses, o mundo mudou.

Claude Code passou de uma ferramenta mais voltada para desenvolvedores a uma interface que quase qualquer pessoa pode usar diretamente. Após o lançamento do Opus 4.6, toda a vibe de codificação teve sua barreira de entrada derrubada ao chão.

Aqueles agentes verticais, antes protegidos por barreiras de negócio, hoje, antes de se tornarem uma barreira, um engenheiro comum, até eu mesmo, consegue fazer em um fim de semana; eles já perderam seu valor de investimento.

O ciclo de um projeto YC é de três meses, essa turma entrou em dezembro, e, junto com a triagem inicial, foi selecionada há cerca de cinco meses, ou seja, “boas empresas”. E cinco meses, na velocidade de iteração de IA atual, já são suficientes para várias rodadas de mudança de paradigma.

Em 2012, quando comecei minha primeira startup e recebi o convite para o Fly Out do YC (entrevista presencial), o YC era quase o único na pista de aceleradoras, e as empresas selecionadas geralmente representavam “a próxima direção”. Mas o cenário de competição mudou, e nos últimos anos o YC parece estar ficando para trás, tornando-se um indicador atrasado (lagging indicator).

O sistema de batch do YC, que envolve inscrição, triagem, entrada, refinamento e pitch, funcionou por mais de uma década na era da internet móvel, com muito sucesso. Mas esse ritmo foi desenhado para um mundo mais lento.

Voltando ao setor de venture capital neste ano e meio, quase a cada trimestre eu visito o Vale do Silício, a última foi em outubro do ano passado. Antes, cada visita parecia rápida, com mudanças perceptíveis mês a mês.

Desta vez, preciso acompanhar “semana a semana”.

Um dia, durante o jantar, um amigo que trabalha com pós-treinamento (post-training) comentou casualmente:

“Percebi que o próprio Vale do Silício já não consegue mais acompanhar a si mesmo.”

Todos os funcionários maximizando tokens: uma corrida armamentista que ninguém ousa parar

Se alguém me dissesse há meio ano que os milhares de engenheiros do Meta estavam usando produtos concorrentes para programar, eu acharia que era brincadeira.

Mas é verdade. O Meta inteiro está usando Claude Code. Não é uma startup, nem uma equipe experimental, mas uma empresa avaliada em trilhões de dólares.

Código sem segurança, orçamento de tokens explodindo, rankings se formando, todo o Vale do Silício investindo sem limites em IA. Mas e depois?

Vamos falar de segurança de código. Há meio ano, isso era impensável, pois o código é o ativo mais importante da empresa. Como permitir que uma API de fora toque nele? O Meta pensou nisso inicialmente, criou algo chamado myclaw, tentando resolver o problema. Um amigo do Meta me contou que eles desenvolveram um produto de codificação, mas “não era bom, ninguém usava”. Sem uso, tiveram que relaxar: desde que não envolvesse dados de clientes, podia usar Claude Code à vontade.

Depois, começaram reuniões internas sobre “como se tornar uma organização nativa de IA”, treinamentos, avaliações. Segurança de código, segurança de uso, essas linhas vermelhas que antes eram óbvias, foram colocadas de lado, priorizando eficiência primeiro.

Por motivos de segurança, o Google proibiu a maioria dos funcionários de usar Claude Code ou Codex, mas a DeepMind foi uma exceção: alguns times responsáveis pelo modelo Gemini e aplicações internas usam Claude Code.

O Google também tentou, lançou uma ferramenta interna de codificação chamada Antigravity, e em fevereiro deste ano afirmou que cerca de 50% do código novo da empresa já era gerado por IA.

Mesmo assim, os times da DeepMind continuam usando Claude Code. Um motivo importante é que a Anthropic fez uma implantação privada para eles, pois a inferência e o treinamento do modelo da Anthropic rodam na nuvem do Google com TPU, criando uma base de confiança. Mas empresas como Meta e outras gigantes de tecnologia não têm essa relação, realmente deixaram a segurança de código de lado. Todos apostando na velocidade.

Segurança de código é a primeira bandeira que caiu, o segundo ponto é o orçamento de tokens.

Em algumas startups nativas de IA em Palo Alto, um engenheiro gasta cerca de 20 mil dólares por ano em tokens. Não é um número estranho, o estranho é que esse custo de IA para um engenheiro de ponta já se aproxima do seu salário. Parece que a empresa está usando IA para cortar custos de pessoal, mas o custo total pode não ter caído, apenas trocado o custo humano pelo de tokens.

O Meta é o mais extremo nisso. Criaram uma tabela de classificação interna de consumo de tokens: quem usa mais, sobe na lista; os últimos podem ser demitidos, então os funcionários até criaram um título não oficial: “token legend”.

Mas, ao mesmo tempo, a Meta realizou duas rodadas de demissões este ano, totalizando mais de dez mil pessoas. Enquanto todos usam Claude Code para aumentar o consumo de tokens, demitem em grande escala.

Essas duas ações não se contradizem, são duas faces da mesma moeda.

Fui visitar uma startup de Série C, o responsável técnico abriu o Slack para mim, cheio de agentes rodando, dezenas de agentes Cursor em paralelo, e outro janela de Claude Code em uso. A ansiedade mais comum entre programadores agora é: antes de dormir, se não souber o que seus agentes vão fazer, fica nervoso.

Mas a produtividade realmente aumentou tanto assim? Desde o fim do ano passado, muitos CTOs de motores de raciocínio e bancos de dados estão empolgados com “engenheiros 100 vezes melhores” e “eficiência 10 vezes maior”. Antes, 60 pessoas levavam um ano para fazer o que agora, com duas pessoas e Claude Code, em uma semana, já conseguem.

Comecei a ficar empolgado também, mas depois me acalmei e perguntei: ok, eficiência aumentou 100 vezes, a receita da empresa aumentou 100 vezes? Ou a expansão de produtos também? Não dá para simplesmente dizer que uma melhora de “100 vezes” significa que o pessoal foi cortado na mesma proporção, né?

Não obtive uma resposta direta. A verdade é que, na prática, uma eficiência 100 vezes maior, na receita, se traduz em apenas 50% ou 1 vez de crescimento.

Onde está a diferença? Ainda ninguém consegue explicar claramente.

“Usar tantos tokens deveria transformar a empresa em uma nova espécie. Mas qual exatamente, eu também não sei.”

Um fundador com experiência em vendas B2B me contou que sua equipe de 16 pessoas, com dois vendedores, conseguiu em 12 meses chegar a 30 milhões de dólares em ARR, tudo graças à codificação por IA. Casos assim aparecem de vez em quando. Mas, na maioria das vezes, vejo startups criando mais coisas, mas sem product-market fit (PMF, ajuste produto-mercado).

Hoje, na Silicon Valley, é popular usar vibe coding para experimentar 100 abordagens diferentes, tentando descobrir qual funciona. Mas quem consegue pegar a próxima tendência? Ainda é difícil dizer.

Um exemplo contrário que me impressionou veio de dentro da Anthropic. Perguntei a um amigo lá: qual é o cenário mais difícil de usar agentes para vocês? Ele respondeu: oncall (resposta instantânea).

O cenário típico de oncall é: se a API do Claude ficar mais lenta, ou um nó de inferência do modelo falhar, ou o prompt do usuário gerar saída anômala, o engenheiro de oncall precisa rapidamente identificar a causa, seja bug no código, problema de alocação de recursos ou anomalia no modelo, e decidir como consertar.

A própria Anthropic é a empresa mais forte em codificação de agentes no mundo, esse cenário é bem próximo de sua capacidade central, mas seu agente de oncall ainda é ruim.

Essa é a situação real em abril de 2026: a máquina a vapor já foi inventada, mas às vezes ela ainda não é mais rápida que uma carroça. O importante é que todos sabem que a máquina a vapor vai acabar sendo mais rápida, então estão gastando loucamente: segurança de código, orçamento de tokens, rankings, tudo em alta. Mas quando ela realmente vai superar a carroça? Ninguém sabe, e ninguém ousa parar para esperar esse dia.

Pois o custo de parar pode ser maior do que gastar tokens errados.

Além disso, o consumo de tokens provavelmente não cresce de forma linear. Isso me lembra minha experiência com direção autônoma: em 2021, em Xangai, conseguimos por primeira vez uma condução autônoma contínua de 5 horas sem intervenção. Antes, a frota de testes era de 10, 15, 20 carros, lentamente aumentando; após esse ponto, rapidamente chegou a 100, 1000. Hoje, os agentes de codificação estão em fase semelhante.

Em um voo de volta a Pequim, revisando minhas anotações dessas últimas duas semanas, percebi que estava sempre escrevendo a mesma palavra: “não consegue acompanhar”.

YC não consegue acompanhar, as regras de segurança do código do Meta não conseguem acompanhar, a gestão da xAI não consegue acompanhar, os pesquisadores não conseguem acompanhar, o poder de computação não consegue acompanhar, o quadro de avaliação de valor não consegue acompanhar, a resistência social também não consegue… até o próprio Vale do Silício está ficando para trás de si mesmo.

Mas quero terminar dizendo que um amigo da Anthropic mencionou que Dario Amodei disse internamente: com a ajuda da IA, o câncer já foi parcialmente vencido, não desapareceu, mas pode se tornar uma doença crônica que não mata, só que o custo de tratamento ainda é alto demais, e a disseminação leva tempo.

Não tenho certeza se Dario quis dizer que “o câncer foi vencido” de forma otimista demais, mas nesta semana no Vale, o que mais vemos são startups de IA para biotecnologia, muitas pessoas de grandes modelos que não entendem de medicina, mas querem usar IA para transformar o setor.

Nessas últimas duas semanas, vi muitas coisas “não consegue acompanhar”, o que realmente causa ansiedade. Mas se a IA realmente fizer do câncer uma doença crônica em alguns anos, e acelerar a ciência de materiais em duas décadas, essa “não consegue acompanhar” pode ser a maior aceleração na história do desenvolvimento humano.

Meu filho tem dois anos, e no próximo ano talvez tenha um segundo. Como será o mundo que eles vão enfrentar, não consigo imaginar.

Mas espero que, no mundo deles, haja mais pessoas curadas por IA do que bombas e tiros que atingem os lares dos profissionais de IA.

Paul Graham, em 2008, escreveu em Cities and Ambition: “Embora as pessoas em Silicon Valley respeitem muito a inteligência, o sinal que ela transmite é: você deve ter mais influência, o que não é exatamente o mesmo que Nova York. Em Nova York, influência também importa, mas lá eles valorizam muito ‘bilhões de dólares’, mesmo que esse dinheiro seja herdado. Em Silicon Valley, além de alguns corretores de imóveis, ninguém se importa com isso. O que realmente importa aqui é o impacto que você tem no mundo. As pessoas se importam com Larry e Sergey não pelo dinheiro, mas porque eles controlam o Google, que quase influencia todos.” Agora, com a IA, essa atmosfera atingiu um novo pico.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar