Gate Booster 第 4 期:發帖瓜分 1,500 $USDT
🔹 發布 TradFi 黃金福袋原創內容,可得 15 $USDT,名額有限先到先得
🔹 本期支持 X、YouTube 發布原創內容
🔹 無需複雜操作,流程清晰透明
🔹 流程:申請成為 Booster → 領取任務 → 發布原創內容 → 回鏈登記 → 等待審核及發獎
📅 任務截止時間:03月20日16:00(UTC+8)
立即領取任務:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多詳情:https://www.gate.com/announcements/article/50203
不受歡迎的觀點:AI 模型的發布越來越無聊。
不是因為模型沒有進步……它們確實在進步。
但每次發布都只是……基準測試。
@OpenAI 剛剛推出了 GPT-5.4,整個公告基本上就是這張表。
75% 在 OSWorld。57.7% 在 SWE-Bench Pro。94.4% 在 GPQA Diamond。
很酷……但這對我凌晨2點在建東西有什麼意義?
在 AI Twitter 之外沒有人在乎 MMLU 提升了 2%。沒有人。零人。
最有趣的部分?仔細看看這張表……
> Opus 4.6 在幾乎每個基準上都接近領先。
> Gemini 3.1 Pro 靜悄悄在 BrowseComp 以 85.9% 打敗所有人。
“贏家”會根據你看哪一行而改變。
你知道我真正想看到的是什麼嗎?
展示它在現實世界中處理得更好的混亂任務。展示那個讓我腦袋短路的演示。展示有人用它建造的東西,這在上個月是不可能的。
最好的基準是“這是否讓我的生活更輕鬆?”
就這樣。這就是整個評估。
公司在慶祝數學分數,而用戶只想知道它是否終於能處理一個 4K 行的代碼庫而不破壞一半的功能。
從這裡開始。