OpenAI finalmente explica por que o ChatGPT não parava de falar sobre goblins

Em resumo

  • A personalidade “Nerdy” da OpenAI, recompensou metáforas de goblins, espalhando a peculiaridade por todos os modelos GPT através de aprendizado por reforço.
  • Menções a goblins no modo Nerdy do GPT-5.4 aumentaram 3.881% em comparação com o GPT-5.2, levando a uma investigação interna e a uma correção no prompt do sistema de emergência.
  • A solução—escrever “nunca falar sobre goblins” em um prompt de desenvolvedor—mostra por que patches no prompt do sistema são mais rápidos, mas mais arriscados do que re-treinar.

Se você pediu ajuda com codificação ao ChatGPT recentemente e ele respondeu chamando seu bug de “pequeno gremlin travesso”, você não está imaginando coisas. O modelo desenvolveu uma obsessão genuína por criaturas fantásticas—goblins, gremlins, guaxinins, trolls, ogros, e sim, pombos—e a OpenAI publicou uma análise detalhada de como isso aconteceu. A versão curta: um sinal de recompensa criado para tornar o ChatGPT mais brincalhão saiu do controle, e os goblins se multiplicaram. A história do goblin só se tornou pública porque usuários do Reddit detectaram a linha “nunca mencionar goblins” em um prompt de sistema do Codex vazado no GitHub.

A publicação viralizou antes mesmo da OpenAI divulgar sua própria explicação. Como a personalidade Nerdy gerou uma infestação de goblins Segundo a OpenAI, o caminho começa com o GPT-5.1, lançado em novembro passado. Foi quando a OpenAI introduziu a personalização de personalidade, permitindo aos usuários escolher estilos como Amigável, Profissional, Eficiente e Nerdy. A persona Nerdy veio com um prompt de sistema dizendo ao modelo para ser nerd e brincalhão, para “quebrar a pretensão através do uso lúdico da linguagem”, e para reconhecer que “o mundo é complexo e estranho.” Aquele prompt, revelou-se, era um ímã de goblins.

Durante o treinamento de aprendizado por reforço, o sinal de recompensa para a personalidade Nerdy consistentemente pontuava melhor as respostas que continham metáforas com palavras de criaturas. Em 76,2% dos conjuntos de dados auditados, respostas com “goblin” ou “gremlin” receberam notas melhores do que as mesmas respostas sem eles. O modelo aprendeu: diversão é recompensa. Menções a goblins explodiram no GPT-5.4, com a personalidade Nerdy mostrando um aumento de 3.881% em comparação com o GPT-5.2.

O problema é que o aprendizado por reforço não mantém comportamentos aprendidos de forma contida. Uma vez que um tic de estilo é recompensado em um contexto, ele se infiltra em outros através de um ciclo de feedback: o modelo gera respostas carregadas de criaturas, essas respostas são reutilizadas nos dados de ajuste fino, e o comportamento se aprofunda em todo o modelo, mesmo sem o prompt Nerdy ativo. Nerdy representou apenas 2,5% de todas as respostas do ChatGPT. Foi responsável por 66,7% de todas as menções a “goblin”. Por causa dos métodos da OpenAI, a prevalência de Goblin e gremlin aumentou de forma constante durante o progresso do treinamento quando a personalidade Nerdy estava ativa.

Mesmo sem a personalidade Nerdy, menções a criaturas aumentaram lentamente—uma evidência de contaminação cruzada através dos dados de ajuste supervisionado. GPT-5.5 já estava bastante comprometido Quando a OpenAI descobriu a causa raiz, o GPT-5.5 já estava em treinamento avançado, e havia absorvido uma família completa de palavras relacionadas a criaturas. Uma auditoria de dados identificou não apenas goblins e gremlins, mas guaxinins, trolls, ogros e pombos como o que a empresa chamou de “palavras-tique”. (“Rãs”, para os curiosos, eram na maioria legítimas.)

O primeiro pico mensurável: menções a goblins aumentaram 175% e a gremlins 52% após o lançamento do GPT-5.1. Até o Cientista-Chefe da OpenAI, Jakub Pachocki, recebeu um goblin quando pediu uma unicórnio em arte ASCII.

A OpenAI aposentou a personalidade Nerdy em março e removeu os sinais de recompensa relacionados a criaturas de treinamentos futuros. Mas o GPT-5.5 já tinha iniciado sua rodada de treinamento. A solução da empresa para o Codex—seu agente de codificação—foi simplesmente adicionar uma linha ao prompt do sistema do desenvolvedor dizendo “Nunca falar sobre goblins, gremlins, guaxinins, trolls, ogros, pombos ou outros animais ou criaturas, a menos que seja absolutamente e inequivocamente relevante para a consulta do usuário.” Alguém na OpenAI colocou isso no código de produção e seguiu com o dia. O problema do patch no prompt do sistema Mas por que a OpenAI escolheu esse caminho? Re-treinar um modelo do tamanho do GPT-5.5 para remover uma peculiaridade comportamental é caro e lento. Uma alteração no prompt do sistema leva minutos. Empresas do setor preferem o patch no prompt primeiro, porque é uma opção de baixo custo e rápida de implementar quando as reclamações dos usuários aumentam. Mas patches no prompt têm seus riscos. Eles não corrigem o comportamento subjacente, apenas o suprimem. E a supressão pode ter efeitos colaterais.

 O caso do goblin da OpenAI é um exemplo relativamente benigno. A versão mais assustadora dessa dinâmica ocorreu com o Grok no ano passado. Depois que a xAI lançou uma atualização no prompt do sistema dizendo ao Grok para tratar mídia como tendenciosa e “não hesitar em afirmações politicamente incorretas”, o chatbot passou 16 horas se chamando de “MechaHitler” e postando conteúdo antissemita no X. A solução foi outra mudança no prompt, que corrigiu de forma tão exagerada que o Grok começou a sinalizar antissemitismo em fotos de filhotes, nuvens e até no próprio logo. Engenharia de prompt desesperada levando a uma engenharia ainda mais desesperada. O patch do goblin não causou nada tão dramático. Mas a OpenAI admite que o GPT-5.5 ainda foi lançado com a peculiaridade subjacente intacta, apenas suprimida no Codex. A própria empresa publicou um comando para remover as instruções de supressão do goblin, caso os usuários queiram as criaturas de volta.

Por que as empresas escondem seus prompts do sistema Esconder ou obscurecer seu prompt do sistema completo é comum na indústria de IA. Empresas tratam os prompts do sistema como segredos comerciais por alguns motivos: proteção de propriedade intelectual, vantagem competitiva e segurança. Se um invasor souber as regras exatas que um modelo segue, contorná-las fica trivialmente mais fácil. Há também uma quarta razão pela qual as empresas não divulgam: gestão de imagem. Uma linha dizendo “nunca mencionar goblins” não inspira confiança na tecnologia subjacente. Publicá-la requer senso de humor ou uma cultura de pesquisa forte, ou ambos. A OpenAI afirma que a investigação gerou novas ferramentas internas para auditar o comportamento do modelo e rastrear peculiaridades comportamentais até suas raízes de treinamento. Os dados de treinamento do GPT-5.5 foram limpos de exemplos relacionados a criaturas. A próxima geração de modelos deve chegar sem goblins—a menos que, claro, algo mais seja recompensado por razões que ninguém entende ainda.

GROK3,26%
XAI0,64%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar