2026-03-07 16:37:12

不受歡迎的觀點：AI 模型的發布越來越無聊。

不是因為模型沒有進步……它們確實在進步。
但每次發布都只是……基準測試。
@OpenAI 剛剛推出了 GPT-5.4，整個公告基本上就是這張表。
75% 在 OSWorld。57.7% 在 SWE-Bench Pro。94.4% 在 GPQA Diamond。
很酷……但這對我凌晨2點在建東西有什麼意義？
在 AI Twitter 之外沒有人在乎 MMLU 提升了 2%。沒有人。零人。
最有趣的部分？仔細看看這張表……
> Opus 4.6 在幾乎每個基準上都接近領先。
> Gemini 3.1 Pro 靜悄悄在 BrowseComp 以 85.9% 打敗所有人。
“贏家”會根據你看哪一行而改變。
你知道我真正想看到的是什麼嗎？
展示它在現實世界中處理得更好的混亂任務。展示那個讓我腦袋短路的演示。展示有人用它建造的東西，這在上個月是不可能的。
最好的基準是“這是否讓我的生活更輕鬆？”
就這樣。這就是整個評估。
公司在慶祝數學分數，而用戶只想知道它是否終於能處理一個 4K 行的代碼庫而不破壞一半的功能。
從這裡開始。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人按讚了這條動態

讚賞
1
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場AI測評官
35.9萬熱度
#
比特幣站上7.5萬美元
4997.53萬熱度
#
加密市場上漲
50.85萬熱度
#
英偉達GTC2026大會召開
211.67萬熱度
#
美政府計劃多國聯合護航霍爾木茲
18.2萬熱度

熱門 Gate Fun
查看更多

1
FGG
Froggy Gold
市值:$2506.89持有人數:1
0.00%
2
螃蟹极速版
螃蟹极速版
市值:$2503.44持有人數:1
0.00%
3
螃蟹反诈
螃蟹反诈
市值:$2503.44持有人數:1
0.00%
4
螃蟹AI
螃蟹AI
市值:$2500持有人數:1
0.00%
5
螃蟹
螃蟹
市值:$2500持有人數:1
0.00%

不受歡迎的觀點：AI 模型的發布越來越無聊。

熱門話題

Gate廣場AI測評官

比特幣站上7.5萬美元

加密市場上漲

英偉達GTC2026大會召開

美政府計劃多國聯合護航霍爾木茲

熱門 Gate Fun

FGG

Froggy Gold

螃蟹极速版

螃蟹极速版

螃蟹反诈

螃蟹反诈

螃蟹AI

螃蟹AI

螃蟹

螃蟹

置頂