斯坦福和伯克利提出LLM-as-a-Verifier,同时刷新Terminal-Bench和SWE-Bench榜首

robot
摘要生成中

ME News 消息,4 月 14 日(UTC+8),據 1M AI News 監測,AI 編程代理處理單個任務時,跑多次往往能得到不同的解法,其中可能有對有錯。如果能自動挑出最好的那個,整體成功率就能超過單次運行。問題是怎麼挑:讓另一個模型當裁判打分(即 LLM-as-a-Judge)是目前的主流做法,但打分粒度太粗,經常給不同解法打出相同分數,分不出高下。 斯坦福 AI 實驗室和伯克利 Sky Computing 實驗室聯合英偉達提出 LLM-as-a-Verifier,改進了這個挑選過程。不再只看裁判給出的最終分數,而是讀取模型在每個評分等級上的概率分佈,從中計算出一個連續的獎勵值。同時讓裁判重複評判多次取平均以消除偶然偏差,並將整體評估拆成三個獨立維度(是否滿足任務要求、輸出格式是否正確、是否存在錯誤信號)分別驗證。實驗中使用 Gemini 2.5 Flash 作為驗證器,單次驗證準確率 74.7%,傳統 Judge 僅 57.0%;重複 16 次後 Verifier 達 77.4%,Judge 為 70.2%。傳統 Judge 有 26.5% 的對比以平局收場,Verifier 在所有配置下平局率均為 0%。 實際效果:在 Terminal-Bench 2 上,讓 GPT-5.4 跑 5 次同一任務,隨機選一個的成功率為 81.8%,用 Verifier挑選後提升至 86.4%。在 SWE-Bench Verified 上,從 Claude Opus 4.5、Claude Opus 4.6 和 Gemini 3 Flash 各取 1 條解法(共 3 條),挑選後從 76.1% 提升至 77.8%。截至 4 月 9 日發布時,兩項均為榜首。框架已開源。 (來源:BlockBeats)

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆