🔥 WCTC S8 全球交易賽正式開賽!
8,000,000 USDT 超級獎池解鎖開啟
🏆 團隊賽:上半場正式開啟,預報名階段 5,500+ 戰隊現已集結
交易量收益額雙重比拼,解鎖上半場 1,800,000 USDT 獎池
🏆 個人賽:現貨、合約、TradFi、ETF、閃兌、跟單齊上陣
全場交易量比拼,瓜分 2,000,000 USDT 獎池
🏆 王者 PK 賽:零門檻參與,實時匹配享受戰鬥快感
收益率即時 PK,瓜分 1,600,000 USDT 獎池
活動時間:2026 年 4 月 23 日 16:00:00 - 2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即參與:https://www.gate.com/competition/wctc-s8
#WCTCS8
斯坦福和伯克利提出LLM-as-a-Verifier,同时刷新Terminal-Bench和SWE-Bench榜首
ME News 消息,4 月 14 日(UTC+8),據 1M AI News 監測,AI 編程代理處理單個任務時,跑多次往往能得到不同的解法,其中可能有對有錯。如果能自動挑出最好的那個,整體成功率就能超過單次運行。問題是怎麼挑:讓另一個模型當裁判打分(即 LLM-as-a-Judge)是目前的主流做法,但打分粒度太粗,經常給不同解法打出相同分數,分不出高下。 斯坦福 AI 實驗室和伯克利 Sky Computing 實驗室聯合英偉達提出 LLM-as-a-Verifier,改進了這個挑選過程。不再只看裁判給出的最終分數,而是讀取模型在每個評分等級上的概率分佈,從中計算出一個連續的獎勵值。同時讓裁判重複評判多次取平均以消除偶然偏差,並將整體評估拆成三個獨立維度(是否滿足任務要求、輸出格式是否正確、是否存在錯誤信號)分別驗證。實驗中使用 Gemini 2.5 Flash 作為驗證器,單次驗證準確率 74.7%,傳統 Judge 僅 57.0%;重複 16 次後 Verifier 達 77.4%,Judge 為 70.2%。傳統 Judge 有 26.5% 的對比以平局收場,Verifier 在所有配置下平局率均為 0%。 實際效果:在 Terminal-Bench 2 上,讓 GPT-5.4 跑 5 次同一任務,隨機選一個的成功率為 81.8%,用 Verifier挑選後提升至 86.4%。在 SWE-Bench Verified 上,從 Claude Opus 4.5、Claude Opus 4.6 和 Gemini 3 Flash 各取 1 條解法(共 3 條),挑選後從 76.1% 提升至 77.8%。截至 4 月 9 日發布時,兩項均為榜首。框架已開源。 (來源:BlockBeats)