Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Meia parede de chineses GPT Image 2 equipe exposta 13 pessoas 4 meses para se tornar uma lenda
GPT Image2 domina as redes, mas por que o efeito é tão bom?
O responsável pela pesquisa, Chen Boyuan, revela: a arquitetura de base foi completamente reconstruída.
Mas ele se recusa a responder se utilizou modelos de difusão ou técnicas autoregressivas, apenas descrevendo de forma misteriosa como “modelo geral” ou “GPT na área de imagens”.
Uma postagem de Chen Boyuan também revelou que, desde o GPT Image 1.5 de dezembro do ano passado, em apenas quatro meses houve uma melhora tão grande.
Com esse avanço revolucionário, a equipe central tem apenas 13 pessoas.
O responsável por toda a equipe, Gabriel Goh, compartilhou uma foto de família com os membros da equipe de IA.
Nos comentários, alguns usuários comentaram: por que todos são asiáticos?
Chen Boyuan: de não entender Python a Líder de Pesquisa
Qual é a arquitetura do GPT Image 2?
A OpenAI provavelmente não divulgará por um bom tempo, mas, a partir das experiências acadêmicas dos membros principais, é possível perceber alguns rastros.
Chen Boyuan é o Líder de Pesquisa da equipe, e ele e outro membro, Kiwhan Song, tiveram o mesmo orientador, Vincent Sitzmann, na graduação no MIT.
Durante o doutorado, sua obra representativa, Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion, foi selecionada para a NeurIPS 2024.
Esse estudo propôs a nova paradigma de geração de sequências Diffusion Forcing, que combina a difusão de ruído independente por token com previsão do próximo token causal, fundindo a geração de comprimento variável de modelos autoregressivos com as vantagens do modelo de difusão de sequência completa.
Durante seu estágio na Google, também publicou, como coautor, SpatialVLM.
Através da construção automática de um conjunto de dados de raciocínio espacial 3D em escala de internet (10 milhões de imagens, 2 bilhões de pares de perguntas e respostas), capacitou modelos de linguagem visual com habilidades de raciocínio espacial quantitativo e qualitativo, capazes de extrair valores precisos de distância, tamanho, orientação, a partir de uma única imagem 2D.
Essa pesquisa aplicou o raciocínio espacial em cadeias de pensamento ao campo de inteligência incorporada.
Durante seu estágio na Google, a técnica de ajuste de comandos que desenvolveu também foi adotada pelo Gemini 2.0.
Na escola secundária, quando participou de um acampamento de pesquisa, ainda não dominava a sintaxe básica do Python, mas foi apresentado ao mundo da IA pelo pesquisador sênior da DeepMind, Xia Fei, que o convidou duas vezes para realizar estágios de alta qualidade na DeepMind. Essas experiências lhe deram uma vasta experiência em treinamento de modelos de grande escala e uma perspectiva valiosa sobre as necessidades de dados de sistemas multimodais.
Após se formar, Chen Boyuan ingressou na OpenAI em junho de 2025, rapidamente tornando-se um dos cinco principais membros do núcleo de geração de imagens GPT, responsável por todo o treinamento do modelo de geração de imagens GPT, além de fazer parte da equipe de geração de vídeos Sora.
Em uma demonstração, criou um pôster para sua cidade natal, Wuxi. Depois, fez pôsteres em coreano para colegas de Seul e em bengalês para colegas de Bangladesh. Cada um com texto renderizado de forma precisa e sem erros.
Jianfeng Wang, da USTC: fazendo a IA de imagens entender o conhecimento do mundo
Jianfeng Wang, doutor pela USTC, é responsável por uma outra habilidade impressionante na equipe GPT Image 2: seguir comandos e compreender o mundo.
Modelos antigos sempre mostravam relógios apontando para 10:10, baseados em anúncios de relógios na internet, quase todos marcando 10:10.
Isso porque fabricantes de relógios fizeram experimentos com psicólogos, acreditando que isso estimula a vontade do consumidor de comprar relógios.
Ele fez o novo modelo desenhar horas como 2:25, 3:30, 9:10, 7:45, com precisão total.
E isso é só o começo.
Mais configurações espaciais complexas: maçã no centro, copo à direita, livros em cima, câmera à esquerda, bola de basquete embaixo. O modelo executa tudo com precisão.
Antes de entrar na OpenAI, trabalhou quase 9 anos na Microsoft. Durante esse período, colaborou com a equipe da OpenAI no DALL-E 3.
Publicou vários artigos na área de visão computacional, cobrindo classificação de imagens, detecção de objetos, segmentação semântica e aprendizado de representação visual.
A grande melhora na compreensão do conhecimento do mundo permite uma compreensão correta do conteúdo semântico e da estrutura funcional dos objetos.
No vídeo de demonstração, Wang disse: GPT Image 2 está eliminando a lacuna entre sua intenção e a produção do modelo.
Fazendo com que o modelo realmente entregue o que você quer.
Yuguang Yang: gerando gráficos informativos complexos de alta precisão
Yuguang Yang demonstrou na apresentação do GPT Image 2 a geração de gráficos informativos e PPTs.
Um artigo de 75 páginas do GPT-3 foi carregado no ChatGPT, gerando automaticamente 7 slides.
Sua experiência é uma das mais diversas entre os membros, tendo mudado de área várias vezes, sempre focado em aprendizado de máquina.
Fez graduação na Zhejiang University, na escola ZhukeZhen, e doutorado na Johns Hopkins University, em física quântica computacional e aprendizado de máquina.
Sua primeira vaga foi como analista quantitativo. Durante uma pesquisa na Tsinghua, trabalhou com algoritmos de aprendizado reforçado para robôs nanométricos.
Depois, trabalhou na Amazon com pesquisa de voz para Alexa.
Também na Microsoft, lidou com compreensão de consultas e recuperação no Bing, além de entendimento de documentos.
Depois de ingressar na OpenAI no início de 2025, além de geração de imagens, participou do projeto de agentes inteligentes do ChatGPT.
Ele destaca em seu perfil que a geração de gráficos informativos do GPT Image 2 pode economizar muito tempo para pesquisadores.
E sempre lembra: ao fazer gráficos informativos, não esqueça de pensar no modo de raciocínio.
De DALL-E a GPT Image 2.0
Segundo o auto de Kenji Hata, o GPT Image 1.0, ou seja, a parte de geração de imagens do GPT-4o.
Um membro que participou desde o início do projeto multimodal da OpenAI, começando pelo DALL-E, é Gabriel Goh, líder da equipe GPT Image 2.0.
Desde 2019 na OpenAI, seu trabalho inicial focava em teoria, interpretabilidade e otimização convexa.
Depois, passou a se dedicar à geração de imagens, com foco na evolução do DALL-E.
Ao analisar o currículo do outro membro, Weixin Liang, a base técnica do GPT Image 2 se revela mais um pouco.
Durante estágio na Meta, criou o Mixture-of-Transformers, que introduziu o desacoplamento de modalidades (MoE) e atenção desacoplada, reduzindo significativamente o custo computacional do pré-treinamento multimodal.
Ele se formou na Stanford, com graduação na Zhejiang University, mas alguns anos depois de Yuguang Yang.
Assim como Chen Boyuan, Weixin Liang entrou na OpenAI logo após o doutorado, em 2025, e rapidamente se tornou um membro central.
Outros membros da equipe GPT Image 2.0 incluem:
Ayaan Haque, que trabalhou na Luma AI, treinando o modelo básico de geração de vídeos Dream Machine.
Bing Liang, com mais de 5 anos na Google, participou do Imagen 3, Veo, Gemini Multimodal, e entrou na OpenAI em 2025 para pesquisa de geração de imagens.
Mengchao Zhong, ex-aluno da Shanghai Jiao Tong University, mestre pela Texas A&M University, trabalhou na Pinterest e Airtable, e é responsável por produtos multimodais na OpenAI.
Dibya Bhattacharjee, da Yale, medalhista de bronze na IPhO 2015, com notas máximas em matemática e biologia no CIE A-Level.
Kiwhan Song, o mais recente a entrar, em outubro de 2025, além de pesquisador, é mestre em prompts, responsável por muitas das imagens de demonstração oficiais.
……
Desde o DALL-E original até o GPT Image 2.0 de hoje, essa equipe resolveu: desenhar com clareza, precisão, beleza e fidelidade.
Apesar da alta rotatividade de talentos na OpenAI nos últimos anos, a empresa continua atraindo pessoas com personalidade, sem restrição de área, incentivando a interdisciplinaridade e a pesquisa emergente de baixo para cima.
Começou com uma equipe pequena, conquistou avanços, e agora direciona mais recursos para mudar o mundo.
Mais uma coisa
Antes, o GPT-4o gerava avatares no estilo Ghibli que conquistaram o mundo.
Hoje, os membros da equipe do GPT Image 2.0 trocaram suas fotos por esse estilo de arte estranho e de pescoço alongado.
E qual é a dica para esse estilo? Os membros também divulgaram.
Use minha foto apenas para identidade. Redesenhe-me como uma caricatura surreal simples no estilo de adesivo japonês: pescoço longo e fino, rosto pequeno e sério, contorno preto minimalista, coloração plana, quase sem sombreamento, poucos detalhes faciais, forma de cabelo simplificada, muito espaço em branco, fundo branco simples, um pouco desajeitado e engraçado. Imagem ultralong 1:3.