OpenAI 推出 GPT-5.2,並擴展主要合約

簡要說明

  • OpenAI 已引入新的內部測試,以評估專案層級的表現。
  • 科學及數學基準測試顯示較先前模型更高的分數。
  • 此公告發佈之際,OpenAI 正與美國政府及企業達成合作,整合 GPT 技術。

Decrypt 的藝術、時尚與娛樂中心。


探索 SCENE

就在上一次重大版本發布幾週後,OpenAI 正積極將其旗艦產品 ChatGPT 從一個消費者新奇事物轉變為不可或缺的企業利器。

週四,該公司推出了 GPT-5.2,一個聲稱更快、更可靠,並旨在處理複雜專業工作流程的新大型語言模型。

這次更新象徵著 OpenAI 正在超越作業幫助和一般查詢的範疇,旨在將其技術嵌入為商業界日常必備的工具,這點從其與美國政府及迪士尼的豐厚合作中可見一斑。

“我們設計 GPT‑5.2 旨在為人們釋放更多經濟價值,” OpenAI 在一份聲明中表示。 “它在創建電子表格、製作簡報、撰寫程式碼、理解圖像、長篇內容理解、使用工具以及處理複雜多步驟專案方面都更上一層樓。”

職場自動化的新基準

為了展示 GPT-5.2 的性能,該公司推出了一個專有評估基準 GDPval,模擬涵蓋 44 個職業的任務。

據稱,GPT-5.2 在約 71% 的比較中達到或超越人類工作者的表現。

“在 GDPval 上,思考模型在 70.9% 的常見專業任務(如電子表格、簡報和文件創建)中勝過或與人類專家持平,” OpenAI 應用部門主管 Fidji Simo 在 X 上寫道。 “它在一般智能、撰寫程式碼、工具調用、視覺和長篇內容理解方面也更優,因此能為人們帶來更多經濟價值。”

目前尚不清楚該基準是否已經經過外部評審,業界專家將等待獨立驗證其聲稱的真實性。

技術解析:三個模型應對三類工作

GPT-5.2 已於週四在付費訂閱層級全面推出,API 也於同日開放。開發者現在可以選擇三個不同版本,以滿足不同的專業需求。

  • 即時版:適用於快速、簡單的專業任務。
  • 思考版:針對較複雜、多步驟的任務。
  • 專業版:頂級模型,適合深入研究與長篇專案。

API 的收費設定為每百萬輸入標記 $1.75 以及 $14 每百萬輸出標記。

除了 GDPval 基準外,GPT-5.2 在既有的技術測試中表現更佳,在 GPQA Diamond 和 FrontierMath 上取得更高分數。據報導,它在程式碼撰寫、資料分析和實驗設計等高壓任務中也展現出更可靠的結果。

在公告中,該公司還展示了多位早期測試者的正面反饋。

一個更為勝任的職場 AI 正在已經緊張的勞動環境中推出。

企業高層普遍持樂觀態度,一份最近的 Just Capital 調查顯示 93% 的商業領袖認為 AI 是一股正面力量。然而,同一調查也指出,近一半的美國人擔心這項技術會導致失業,企業高層似乎較少擔憂此問題。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)