GPT Image2 está dominando toda a internet, mas por que o seu desempenho é tão impressionante?O responsável pela pesquisa, Chen Boyuan, revelou: a arquitetura de base foi completamente reconstruída.Mas ele também se recusou a responder se utilizou modelos de difusão ou técnicas autoregressivas, descrevendo-os de forma enigmática como “modelo geral” ou “GPT na área de imagens”.Chen Boyuan também compartilhou um tweet que revelou que, desde o GPT Image 1.5 lançado no final de dezembro do ano passado, houve uma melhoria tão grande em apenas quatro meses.Para alcançar esse avanço revolucionário, a equipe principal conta apenas com 13 pessoas.O líder de toda a equipe, Gabriel Goh, postou uma foto de família com todos os membros da equipe de IA.Nos comentários, alguns usuários comentaram: por que todos parecem asiáticos?Chen Boyuan: de nunca ter entendido de Python a líder de pesquisa

金色财经_

2026-04-23 07:49:37

GPT Image2 domina as redes, mas por que o efeito é tão bom?

O responsável pela pesquisa, Chen Boyuan, revela: a arquitetura de base foi completamente reconstruída.

Mas ele se recusa a responder se utilizou modelos de difusão ou técnicas autoregressivas, apenas descrevendo de forma misteriosa como “modelo geral” ou “GPT na área de imagens”.

Uma postagem de Chen Boyuan também revelou que, desde o GPT Image 1.5 de dezembro do ano passado, em apenas quatro meses houve uma melhora tão grande.

Com esse avanço revolucionário, a equipe central tem apenas 13 pessoas.

O responsável por toda a equipe, Gabriel Goh, compartilhou uma foto de família com os membros da equipe de IA.

Nos comentários, alguns usuários comentaram: por que todos são asiáticos?

Chen Boyuan: de não entender Python a Líder de Pesquisa

Qual é a arquitetura do GPT Image 2?

A OpenAI provavelmente não divulgará por um bom tempo, mas, a partir das experiências acadêmicas dos membros principais, é possível perceber alguns rastros.

Chen Boyuan é o Líder de Pesquisa da equipe, e ele e outro membro, Kiwhan Song, tiveram o mesmo orientador, Vincent Sitzmann, na graduação no MIT.

Durante o doutorado, sua obra representativa, Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion, foi selecionada para a NeurIPS 2024.

Esse estudo propôs a nova paradigma de geração de sequências Diffusion Forcing, que combina a difusão de ruído independente por token com previsão do próximo token causal, fundindo a geração de comprimento variável de modelos autoregressivos com as vantagens do modelo de difusão de sequência completa.

Durante seu estágio na Google, também publicou, como coautor, SpatialVLM.

Através da construção automática de um conjunto de dados de raciocínio espacial 3D em escala de internet (10 milhões de imagens, 2 bilhões de pares de perguntas e respostas), capacitou modelos de linguagem visual com habilidades de raciocínio espacial quantitativo e qualitativo, capazes de extrair valores precisos de distância, tamanho, orientação, a partir de uma única imagem 2D.

Essa pesquisa aplicou o raciocínio espacial em cadeias de pensamento ao campo de inteligência incorporada.

Durante seu estágio na Google, a técnica de ajuste de comandos que desenvolveu também foi adotada pelo Gemini 2.0.

Na escola secundária, quando participou de um acampamento de pesquisa, ainda não dominava a sintaxe básica do Python, mas foi apresentado ao mundo da IA pelo pesquisador sênior da DeepMind, Xia Fei, que o convidou duas vezes para realizar estágios de alta qualidade na DeepMind. Essas experiências lhe deram uma vasta experiência em treinamento de modelos de grande escala e uma perspectiva valiosa sobre as necessidades de dados de sistemas multimodais.

Após se formar, Chen Boyuan ingressou na OpenAI em junho de 2025, rapidamente tornando-se um dos cinco principais membros do núcleo de geração de imagens GPT, responsável por todo o treinamento do modelo de geração de imagens GPT, além de fazer parte da equipe de geração de vídeos Sora.

Em uma demonstração, criou um pôster para sua cidade natal, Wuxi. Depois, fez pôsteres em coreano para colegas de Seul e em bengalês para colegas de Bangladesh. Cada um com texto renderizado de forma precisa e sem erros.

Jianfeng Wang, da USTC: fazendo a IA de imagens entender o conhecimento do mundo

Jianfeng Wang, doutor pela USTC, é responsável por uma outra habilidade impressionante na equipe GPT Image 2: seguir comandos e compreender o mundo.

Modelos antigos sempre mostravam relógios apontando para 10:10, baseados em anúncios de relógios na internet, quase todos marcando 10:10.

Isso porque fabricantes de relógios fizeram experimentos com psicólogos, acreditando que isso estimula a vontade do consumidor de comprar relógios.

Ele fez o novo modelo desenhar horas como 2:25, 3:30, 9:10, 7:45, com precisão total.

E isso é só o começo.

Mais configurações espaciais complexas: maçã no centro, copo à direita, livros em cima, câmera à esquerda, bola de basquete embaixo. O modelo executa tudo com precisão.

Antes de entrar na OpenAI, trabalhou quase 9 anos na Microsoft. Durante esse período, colaborou com a equipe da OpenAI no DALL-E 3.

Publicou vários artigos na área de visão computacional, cobrindo classificação de imagens, detecção de objetos, segmentação semântica e aprendizado de representação visual.

A grande melhora na compreensão do conhecimento do mundo permite uma compreensão correta do conteúdo semântico e da estrutura funcional dos objetos.

No vídeo de demonstração, Wang disse: GPT Image 2 está eliminando a lacuna entre sua intenção e a produção do modelo.

Fazendo com que o modelo realmente entregue o que você quer.

Yuguang Yang: gerando gráficos informativos complexos de alta precisão

Yuguang Yang demonstrou na apresentação do GPT Image 2 a geração de gráficos informativos e PPTs.

Um artigo de 75 páginas do GPT-3 foi carregado no ChatGPT, gerando automaticamente 7 slides.

Sua experiência é uma das mais diversas entre os membros, tendo mudado de área várias vezes, sempre focado em aprendizado de máquina.

Fez graduação na Zhejiang University, na escola ZhukeZhen, e doutorado na Johns Hopkins University, em física quântica computacional e aprendizado de máquina.

Sua primeira vaga foi como analista quantitativo. Durante uma pesquisa na Tsinghua, trabalhou com algoritmos de aprendizado reforçado para robôs nanométricos.

Depois, trabalhou na Amazon com pesquisa de voz para Alexa.

Também na Microsoft, lidou com compreensão de consultas e recuperação no Bing, além de entendimento de documentos.

Depois de ingressar na OpenAI no início de 2025, além de geração de imagens, participou do projeto de agentes inteligentes do ChatGPT.

Ele destaca em seu perfil que a geração de gráficos informativos do GPT Image 2 pode economizar muito tempo para pesquisadores.

E sempre lembra: ao fazer gráficos informativos, não esqueça de pensar no modo de raciocínio.

De DALL-E a GPT Image 2.0

Segundo o auto de Kenji Hata, o GPT Image 1.0, ou seja, a parte de geração de imagens do GPT-4o.

Um membro que participou desde o início do projeto multimodal da OpenAI, começando pelo DALL-E, é Gabriel Goh, líder da equipe GPT Image 2.0.

Desde 2019 na OpenAI, seu trabalho inicial focava em teoria, interpretabilidade e otimização convexa.

Depois, passou a se dedicar à geração de imagens, com foco na evolução do DALL-E.

Ao analisar o currículo do outro membro, Weixin Liang, a base técnica do GPT Image 2 se revela mais um pouco.

Durante estágio na Meta, criou o Mixture-of-Transformers, que introduziu o desacoplamento de modalidades (MoE) e atenção desacoplada, reduzindo significativamente o custo computacional do pré-treinamento multimodal.

Ele se formou na Stanford, com graduação na Zhejiang University, mas alguns anos depois de Yuguang Yang.

Assim como Chen Boyuan, Weixin Liang entrou na OpenAI logo após o doutorado, em 2025, e rapidamente se tornou um membro central.

Outros membros da equipe GPT Image 2.0 incluem:

Ayaan Haque, que trabalhou na Luma AI, treinando o modelo básico de geração de vídeos Dream Machine.

Bing Liang, com mais de 5 anos na Google, participou do Imagen 3, Veo, Gemini Multimodal, e entrou na OpenAI em 2025 para pesquisa de geração de imagens.

Mengchao Zhong, ex-aluno da Shanghai Jiao Tong University, mestre pela Texas A&M University, trabalhou na Pinterest e Airtable, e é responsável por produtos multimodais na OpenAI.

Dibya Bhattacharjee, da Yale, medalhista de bronze na IPhO 2015, com notas máximas em matemática e biologia no CIE A-Level.

Kiwhan Song, o mais recente a entrar, em outubro de 2025, além de pesquisador, é mestre em prompts, responsável por muitas das imagens de demonstração oficiais.

……

Desde o DALL-E original até o GPT Image 2.0 de hoje, essa equipe resolveu: desenhar com clareza, precisão, beleza e fidelidade.

Apesar da alta rotatividade de talentos na OpenAI nos últimos anos, a empresa continua atraindo pessoas com personalidade, sem restrição de área, incentivando a interdisciplinaridade e a pesquisa emergente de baixo para cima.

Começou com uma equipe pequena, conquistou avanços, e agora direciona mais recursos para mudar o mundo.

Mais uma coisa

Antes, o GPT-4o gerava avatares no estilo Ghibli que conquistaram o mundo.

Hoje, os membros da equipe do GPT Image 2.0 trocaram suas fotos por esse estilo de arte estranho e de pescoço alongado.

E qual é a dica para esse estilo? Os membros também divulgaram.

Use minha foto apenas para identidade. Redesenhe-me como uma caricatura surreal simples no estilo de adesivo japonês: pescoço longo e fino, rosto pequeno e sério, contorno preto minimalista, coloração plana, quase sem sombreamento, poucos detalhes faciais, forma de cabelo simplificada, muito espaço em branco, fundo branco simples, um pouco desajeitado e engraçado. Imagem ultralong 1:3.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
Gate13thAnniversaryLive
1.21M Popularidade
#
WCTCTradingChallengeShare8MUSDT
793.9K Popularidade
#
BitcoinBouncesBack
213.9K Popularidade
#
IsraelStrikesIranBTCPlunges
30.66K Popularidade
#
EthereumMemeSeasonReturns
2M Popularidade

Marcar

sitemap

Meia parede de chineses GPT Image 2 equipe exposta 13 pessoas 4 meses para se tornar uma lenda

Chen Boyuan: de não entender Python a Líder de Pesquisa

Jianfeng Wang, da USTC: fazendo a IA de imagens entender o conhecimento do mundo

Yuguang Yang: gerando gráficos informativos complexos de alta precisão

De DALL-E a GPT Image 2.0

Mais uma coisa

Tendências

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Marcar