半壁華人 GPT 圖像 2 團隊曝光 13人4個月封神

金色财经_

2026-04-23 07:49:37

GPT Image2全網刷屏，但效果究竟為什麼這麼好？

研究負責人陳博遠揭秘：底層架構已徹底重構。

但他又拒絕回答是否採用擴散模型或自回歸技術，只是神秘地將其描述為“通用模型”或“圖像領域的GPT”。

陳博遠的一條推文還透露，從去年12月底的GPT Image 1.5算起，只用了四個月就有如此大的改進。

這樣突破性的成果，核心團隊只有13人。

整個團隊的負責人Gabriel Goh曬出了團隊成員AI全家福。

評論區有網友感嘆：怎麼全是亞洲人？

陳博遠：從不懂Python到Research Lead

GPT Image 2究竟是什麼架構？

OpenAI恐怕很長一段時間都不會公布了，但從核心團隊成員的學術經歷可以看出一些痕跡。

陳博遠是團隊的Research Lead，他和另一位成員Kiwhan Song在MIT讀博時有同一位導師Vincent Sitzmann。

他博士期間的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入選了NeurIPS 2024。

這項研究提出Diffusion Forcing這一全新序列生成訓練範式，將逐token獨立噪聲級擴散與因果下個token預測結合，融合自回歸模型的可變長度生成與全序列擴散模型的長程引導優勢。

他在谷歌實習期間還以共同一作身份發表了SpatialVLM。

通過自動構建互聯網規模的3D空間推理VQA數據集（1000萬圖像、20億QA對），為視覺語言模型賦予定量/定性空間推理能力，可從單張2D圖像輸出米制距離、尺寸、方位等精確數值。

這項研究把思維鏈空間推理應用到了具身智能領域。

在加入OpenAI之前，他在微軟工作近9年。在微軟期間就與OpenAI團隊在DALLE-3上有合作。

他在計算機視覺領域發表了多篇學術論文，研究內容可能涵蓋圖像分類、目標檢測、語義分割、以及視覺表徵學習等方向

世界知識理解能力的大幅提升，對象的語義內容和功能結構有正確的理解

JianFeng Wang在演示視頻結尾說到：GPT Image 2正在消除你的意圖和模型產出之間的差距。

真正做到你想要什麼，模型就給你什麼。

Yuguang Yang：生成高精度複雜資訊圖表

Yuguang Yang在GPT Image 2的發布活動中演示了生成資訊圖和PPT。

整整75頁的GPT-3論文拖進ChatGPT，自動生成7張幻燈片。

他的經歷可以說是團隊成員中最豐富的，每換一個工作都是跨界，但都聚焦機器學習。

他本科在浙大竺可祯學院學的工程，博士在約翰斯霍普金斯大學期間學的是計算化學物理與機器學習。

他第一份全職工作是量化分析師，在清華做訪問研究員期間亞牛的是用於納米機器人的強化學習和控制算法。

後來他在亞馬遜做過Alexa語音研究。

又在微軟做過Bing搜索的查詢理解和檢索、文檔理解。

2025年初加入OpenAI後，除了圖像生成還參與過ChatGPT智能體項目。

他在個人帳號上介紹GPT Image 2的信息圖生成能力，可以為科研人員節省大量時間。

還反覆提醒大家，要做資訊圖不要忘記選擇思考模式。

從DALL-E到GPT Image 2.0

從團隊成員Kenji Hata的自我介紹中得知，GPT Image 1.0也就是GPT-4o的圖像生成部分。

有一個人從DALL-E開始參與了OpenAI多模態系列研究的全程。

他就是GPT Image 2.0團隊負責人Gabriel Goh。

從2019年加入OpenAI，他的早期研究更偏理論，專注於可解釋性和凸優化等等。

從DALL-E開始慢慢轉向了圖像生成。

看到另一位團隊成員Weixin Liang的研究履歷，GPT Image 2的技術底色又揭開了一角。

他在Meta實習期間的代表作Mixture-of-Transformers，引入模態解耦的MoE和解耦注意力，顯著降低多模態模型預訓練的計算成本。

他博士畢業自斯坦福，本科也畢業自浙大竺可祯學院，不過比Yuguang Yang要晚好幾年。

Weixin Liang與陳博遠一樣都是25年博士剛畢業就加入OpenAI，迅速成為團隊的核心成員。

其他GPT Image 2.0團隊成員還包括： Ayaan Haque，之前在Luma AI工作，參與過Luma的視頻生成基礎模型Dream Machine的訓練。 Bing Liang，在Google干了5年多，參與Imagen3、Veo、Gemini Multimodal，2025年跳到OpenAI做圖像生成研究。 Zhong Mengchao，上海交通大學校友，碩士畢業於德克薩斯農工大學，在Pinterest和Airtable做過軟體工程師，在OpenAI負責多模態產品的工程。 Dibya Bhattacharjee，耶魯大學，2015年IPhO銅牌，CIE A-Level數學和生物全球最高分。 Kiwhan Song是25年10月最晚加入的，除了做研究之外，他還是團隊裡的提示詞大師，大家看到的官方演示圖很多都出自他手。 ……

從最早的DALL-E到今天的GPT Image 2.0，這支團隊先後解決了。畫得出來、畫得清楚、畫得好看、畫得準。

儘管近年來OpenAI的人才流動很大，但OpenAI仍然是那個能不斷吸引各種有個性的人才，不限制專業、歡迎跨界，信奉自下而上湧現式研究的公司。

從一個小團隊開始，有了突破後公司傾斜更多資源，直到改變世界。

One More Thing

曾經，GPT-4o圖像生成模仿吉卜力風格生成的頭像席捲了全世界。

如今GPT Image 2.0的團隊成員，都把自己頭像換成了這種奇脖子畫風。

那麼這種畫風的提示詞是什麼？團隊成員也公布了出來。

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate13週年現場直擊
121.14萬熱度
#
WCTC交易賽瓜分800萬USDT
79.39萬熱度
#
比特幣反彈
21.39萬熱度
#
以太坊Meme季強勢回歸
200.27萬熱度
#
美伊第二輪談判進展
75.03萬熱度

半壁華人 GPT 圖像 2 團隊曝光 13人4個月封神

陳博遠：從不懂Python到Research Lead

Yuguang Yang：生成高精度複雜資訊圖表

從DALL-E到GPT Image 2.0

One More Thing

熱門話題

Gate13週年現場直擊

WCTC交易賽瓜分800萬USDT

比特幣反彈

以太坊Meme季強勢回歸

美伊第二輪談判進展

置頂