📢 GM!Gate 广场|4/5 热议:#假期持币指南
🌿 踏青还是盯盘?#假期持币指南 带你过个“松弛感”长假!
春光正好,你是选择在山间深呼吸,还是在 K 线里找时机?在这个清明假期,晒出你的持币态度,做个精神饱满的交易员!
🎁 分享生活/交易感悟,抽 5 位锦鲤瓜分 $1,000 仓位体验券!
💬 茶余饭后聊聊:
1️⃣ 休假心态: 你是“关掉通知、彻底失联”派,还是“每 30 分钟必刷行情”派?
2️⃣ 懒人秘籍: 假期不想盯盘?分享你的“挂机”策略(定投/网格/理财)。
3️⃣ 四月展望: 假期过后,你最看好哪个币种“春暖花开”?
分享你的假期姿态 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
无聊AI的理由
AI 基准竞赛已经有了赢家。只是那个人不是你。
每隔几个月,就会有一个新模型发布,新的排行榜也会重新洗牌。各实验室竞相在测试中胜过彼此——在推理、写代码和给出答案方面——这些测试旨在衡量机器智能。报道会跟上。资金也会跟上。
但人们较少关注的是,这一切是否有什么必然性。基准测试、军备竞赛、把 AI 叙述为“救赎”或“灾难”的叙事方式——这些都是选择,而不是物理定律。它们反映了这个行业决定要优化什么,以及决定要为哪些东西提供资金。需要数十年才能在日常、实用的方式中逐步兑现的技术,这一季度不会带来数十亿美元的投入。极端叙事会。
有些研究人员认为,目标本身可能是错的。并不是说 AI 不重要,而是“重要”不必意味着前所未有。印刷机改变了世界。电力也改变了世界。两者都是逐步实现的——通过混乱的采用过程,给社会留出时间作出回应。如果 AI 也遵循这种模式,那么正确的问题就不该是关于超智能的那套思路。问题应当是:谁从中受益,谁会受到伤害,以及我们正在构建的工具是否真的适用于使用它的人。
很多研究人员一直在从非常不同的方向追问这些问题。下面是其中三位。
有用,而非通用
Ruchir Puri 在大多数人还没听说机器学习之前,就一直在 IBM $IBM +2.06% 做 AI。他看着 Watson 在 2011 年击败了世界最优秀的《危险边缘》(Jeopardy)选手。自那之后,他见证了好几轮热潮起伏回落。当当前这波浪潮到来时,他为此做了一个简单的测试:它有用吗?
不够令人印象深刻。不通用。有用。
“我并不太在意通用人工智能,”他说。“我在意的是它有用的那部分。”
这种说法让他与业界大多数对自身的定位产生了冲突。那些冲向 AGI 的实验室正在为“广度”进行优化:构建能做任何事、回答任何问题、对任何内容进行推理的系统。Puri 认为这不是正确的目标,而他希望看到行业真正去尝试的,是另一个基准。
人的大脑存在于 1,200 立方厘米之内,消耗 20 瓦,是一盏电灯泡的能量;正如 Puri 指出的那样,它靠三明治运转。单个 Nvidia $NVDA +0.93% GPU 消耗 1,200 瓦,比整个大脑高出 60 倍,而要做出任何有意义的事情,你需要在大型数据中心里准备成千上万这样的 GPU。如果把大脑当作基准,那么行业离“高效”还很远。它正在朝着错误的方向走。
他的替代方案叫做“混合架构”:小模型、中模型和大模型一起协作,每个模型都被分配到它最擅长的任务上。一个大型前沿模型负责复杂的推理和规划。更小、更专门用途的模型负责执行。像起草一封邮件这么简单的任务,不需要在互联网上一半内容上训练出的系统。它需要的是快速、便宜、且聚焦。Puri 指出,大约每九个月左右,上一代的小模型就会在能力上接近此前被认为是“大型”的水平。智能正在变得更便宜。问题在于:是否有人在为这种现实进行构建。
这种做法在现实世界里确有支撑。Airbnb $ABNB -0.19% 使用更小的模型来更快解决相当一部分客户服务问题,速度比它的人类代表还快。Meta $META -0.82% 不用它最大的模型来投放广告,而是把这种知识蒸馏到更小的、专门为该任务构建的模型里。研究者发现这种模式足够稳定,开始称它为“知识装配流水线”:数据流入,专业化模型处理离散步骤,最后在另一端产出一些真正有用的东西。
IBM 在打造这种装配流水线方面,比大多数公司更早。一个由多家公司模型组合而成的混合型代理,已经在庞大的工程师团队中展示了 45% 的生产力提升。现在运行在更小、更专门用途模型上的系统,也在帮助那些负责处理全球 84% 金融交易的工程师,在恰当的时间为他们提供正确的信息。这些并不是花哨的应用。而且它们也没有失败。
它们都不需要一个能写诗或解你孩子数学作业的系统。它们需要的是更狭窄的能力,因此也更可靠。训练成只做一件事的模型,知道什么时候问题超出了自己的能力范围。它会这么说。那种经过校准的不确定性——知道自己不知道什么——是大型前沿模型至今仍在努力解决的难题。
“我想为这些流程构建代理和系统,”Puri 说。“不是那种能回答两百万件事的东西。”
工具,而非代理
Ben Shneiderman 给判断一个 AI 系统是否设计得好的测试很简单。使用它的人,是觉得自己“做了点什么”,还是觉得“某种东西替他们做了点什么”?
这种区分比听起来重要得多。Shneiderman 是马里兰大学的计算机科学家,他帮助奠定了现代界面设计的基础。他花了几十年时间反复强调:科技的目标应当是增强人的能力,而不是替代它。好的工具会建立他所说的“用户自我效能感”(user self-efficacy),即你知道自己能亲手做成某事时产生的信心。糟糕的工具会悄悄把这种能动性转移到别的地方。
他认为,大多数 AI 行业正在构建糟糕的工具,而代理化(agentic turn)只会让情况更糟。AI 代理的卖点是:它们会代表你行动,从头到尾处理任务,不需要你参与。对 Shneiderman 来说,这不是一个特性。那就是问题所在。出错的时候——而这一定会发生——谁负责?事情做对的时候,谁学到了任何东西?
他长期对抗的那个陷阱有一个名字。拟人化(anthropomorphism),也就是让技术看起来像人一样的冲动,正是一直在赢、同时也一直在失败的东西。20 世纪 70 年代,银行做过实验:用 ATMs 接待客户,向他们说“我能怎么帮助你?”,并给自己起名字,比如 Tilly the Teller(售票员蒂莉)和 Harvey the World Banker(世界银行家哈维)。随后它们被机器取代——机器只给你三种选项:余额、取现、存款。使用率飙升。花旗银行的使用率比竞争对手高出 50%。人们并不想要一种合成的关系。他们想要的是拿回自己的钱。
这种模式几十年来在微软 $MSFT +1.11% Bob(比尔·盖茨时代的拟人界面产品)、Humane 的 AI 别针、以及一波波类人机器人浪潮中都反复出现。每一次,拟人化的版本都会失败,然后被替换为更像工具的东西。Shneiderman 把它称为“僵尸想法”。它不会死,只是一直回来。
现在不同的是规模和复杂度。他承认,当前这一代 AI 确实令人印象深刻,甚至令人震惊。但“令人印象深刻”和“有用”并不是一回事;那些为“看起来像人”而设计的系统——用“我”来表达、以模拟关系为卖点——正在优化错误的质量。 他希望设计者问的那个问题更简单:这会让人获得更多力量,还是更少?
“AI 里没有‘我’,”他说。“至少不该有。”
人,而非基准
Karen Panetta 给出一个简单答案,解释为什么 AI 开发看起来会变成现在这样:先看钱往哪里走。
Panetta 是塔夫茨大学(Tufts University)电气与计算机工程教授,同时也是 IEEE 院士。她研究 AI 伦理,并且对技术应该走向哪里有着清晰的判断。她提到:针对阿尔茨海默症患者的辅助宠物、适应不同认知风格的儿童学习工具、为选择居家养老的老年人提供智能家居监测。她说,这些想要做好的技术在很大程度上已经存在了。问题在于:投资并不在。
“人类不关心基准,”她说。“他们关心的是:当我买下它的时候,它真的能用吗?而且它会不会真正让我的生活变得更轻松?”
问题在于:那些从设计良好的辅助 AI 中受益最多的人,也是最不容易打动风投的那一群。一个能改造制造流程、减少工作场所受伤、并为公司员工降低医疗成本的系统,其回报是显而易见的。一个机器人同伴,能够让阿尔茨海默症患者保持冷静并保持连接感,则需要完全不同的数学。于是资金就流向资金流向的地方,那些最有可能获得收益的人口群体就只能继续等待。
Panetta 说,改变在于:那些昂贵的工程难题终于正在被大规模解决。传感器更便宜了。电池更轻了。无线协议无处不在。为工厂车间建造工业机器人的同一笔投资,已经悄悄让家用机器人变得可行——这是五年前无法做到的。仓库到客厅之间的路,比看起来短。
但她也担心:围绕这种转型的兴奋,往往会跳过关键点。物理机器人有天然的约束。你知道力的上限。你知道运动学。你可以预判、模拟,并围绕它们可能怎样失败来进行设计。生成式 AI 不会附带这些保证。它是非确定性的。它会“幻觉”。没人真正完全弄清楚,当你把它放进某个痴呆症患者家里这样一个现实世界的系统,或者放进一个无法判断当事情出错了时就会意识到这一点的孩子身边时,会发生什么。
她见过这样的情况:当传感器变脏之后,机器人失去了空间意识。她也在思考:构建一种能学习人的生活细节、他们的日常习惯、他们的认知状态、他们困惑的时刻;然后再自主地根据这些信息采取行动,这意味着什么。她说,这些“故障保护机制”(fail-safes)并没有跟上。
“我并不担心机器人,”她说。“我担心的是 AI。”
📬 订阅 Daily Brief
我们每天工作日早上为你送上免费的、快速且有趣的全球经济简报。
报名订阅