用“视觉推理”探索物理世界AGI,ElorianAI融资5500万美元

null

文 | 阿尔法公社

AI大模型的能力,在某些方面已经超过了一般人,例如编程和数学。消息称,Anthropic内部已经几乎实现100%的AI编程,Google的Gemini Deep Think在IMO 2025 中做出了6道题中的5道,达到金牌水准。

但是在视觉推理上,即便是水平领先的Gemini 3 Pro,也在BabyVision这个测试基础视觉推理能力的Benchmark上仅达到3岁孩童的水平。

为什么大模型在编程和数学上很强,在视觉推理上却很弱?这是因为它的“思考方式”存在限制,视觉语言模型 (VLM) 需要先将视觉输入转化为语言,随后再进行基于文本的推理,但是诸多视觉任务根本无法用文字进行精确的描述,这也就造成了模型的视觉推理能力差。

在Google DeepMind工作14年的Andrew Dai,联手苹果资深的AI专家Yinfei Yang,创立了一家叫Elorian AI的公司,他们的目标是让模型的视觉推理能力从“儿童级别”提升到“成年级别”,并让模型具有真正在“视觉空间”内进行原生思考的能力,从而冲击物理世界的AGI。

Elorian AI获得Striker Venture Partners, Menlo Ventures以及Altimeter等联合领投的5500万美元早期融资,49 Palms及包括Jeff Dean在内的顶尖AI科学家参投。

多模态模型的先驱,想让视觉模型拥有推理能力

作为华人的Andrew Dai,剑桥计算机本科、爱丁堡机器学习博士,他博士期间就在谷歌实习,2012年加入谷歌,一直待了14年,直到创业。

图片来源:Andrew Dai的linkedin

加入谷歌不久后,他就和Quoc V. Le共同撰写了第一篇关于语言模型预训练和监督微调的论文《Semi-supervised Sequence Learning》。这篇论文为GPT的诞生奠定基础。他的另一篇奠基性质论文是《Glam: Efficient scaling of language models with mixture-of-experts》,这为现在主流的MoE架构,趟开了道路。

图片来源:Google

在Google期间,他还深度参与了几乎所有的大模型训练,从Plam到Gemini1.5和Gemini2.5。在Jeff Dean的安排下,他在2023年开始负责领导Gemini的数据板块(包括合成数据),这个团队的规模之后扩展到了数百人。

图片来源:Yinfei Yang的linkedin

与Andrew Dai共同创业的,是Yinfei Yang,他曾在Google Research工作过四年,专注于多模态表示学习,之后加入苹果,负责多模态模型的研发工作。

图片来源:arxiv

他的代表性研究成果《Scaling up visual and vision-language representation learning with noisy text supervision》推动了多模态表示学习的发展。

Elorian AI的联合创始人还包括Seth Neel,他曾经是哈佛大学的AP(助理教授),也是数据和AI领域的专家。

为什么要讨论Elorian AI的联合创始人们写了哪些开创性论文?因为他们要做的事情不是工程层面的优化,而是从底层架构上进行范式更新,要让AI从基于文本的智能理解升级到基于视觉的智能理解。

现在AI模型的状况是,尽管在基于文本的任务上表现优秀,但即使是最顶尖的前沿多模态大模型,依然会在最基础的视觉对齐 (Visual grounding) 任务上栽跟头。

例如,如何将某个零件严丝合缝地装入某套机械装置,使其运转得更精准、更高效?这类空间物理任务对于小学生来说都很简单,但是对于现有的多模态大模型却很难。

这仍然要从生物学中去找线索,在人类大脑中,视觉是支撑诸多思维过程的底层基质,人类利用视觉和空间推理的能力,远比用语言逻辑推理要久远得多。

例如,要教别人走通一段迷宫,用语言描述,会把人绕晕,画一张草图,却能让人秒懂。

再比如,即便是一只鸟,虽然不会语言,但能够通过视觉,辨认和推理地理特征,从而实现全球远程迁徙。这是一个强烈的信号,表明要真正推进机器的推理能力,视觉大概率就是正确的演进方向。

那么,想象一下,如果从模型构建的破局之初,就尝试将这种生物学上的视觉本能刻入AI的基因,构建一个能够“同时理解和处理文本、图像、视频和音频”的原生多模态模型,就能让模型具有视觉理解能力。Andrew Dai和团队要构建一个天生的“通感者”,教会机器不仅“看见”世界,还要“看懂”世界。

在Andrew Dai和团队看来,深刻认知真实的“物理世界”是实现下一代机器智能跃升、并最终触达“视觉通用人工智能 (Visual AGI)”的关键密匙。

推理后置的VLM不是通向视觉推理的正确路径

以往不是没有团队想要做这件事,其实Andrew Dai之前在得Gemini团队,已经是全球范围内多模态领域非常领先的团队。但是传统的多模态模型,仍然以VLM(视觉语言模型)为主,它的逻辑是建立在“两步走”的基础之上:首先将视觉输入转化为语言,随后再进行基于文本的推理(有时会辅助调用外部工具)。

然而后置的推理,本质上都有局限,一方面容易产生模型幻觉,另一方面很多视觉任务根本无法用文字进行精确描述。

此外,NanoBanana等视觉生成模型,在多模态生成上能力卓越,但是生成能力和推理能力并不画等号,它们在生成之前的“思考”,本质还是依赖语言模型,不是原生的推理能力。

若要开发出能够真正洞察视觉世界中空间、结构及关系复杂性的模型,势必需要在底层技术上进行颠覆性创新。

那么,怎么创新?Elorian AI的几位创始人在多模态领域浸淫多年,他们的做法是:将多模态训练与专为多模态推理设计的全新架构进行深度融合。摒弃了将图像视为静态输入的传统做法,转而训练模型去直接交互并操作视觉表征 (Visual representations)去自主解析其中的结构、关系与物理约束。

当然,另一个核心要素是数据,它是决定这些模型性能和成败的关键。

Andrew Dai表示,他们很重视数据质量、数据混合比例、数据来源以及数据的多样性,并且在数据层进行了革新,在视觉空间中重构推理的链路,还大规模且深度地使用合成数据。

这些努力综合起来,将催生出能够跨越简单视觉“感知”,迈向高阶视觉“推理 ”的全新AI系统。

这个AI系统可以是视觉推理基础模型:即构建一个高度通用,但在特定能力集上表现极其优异的模型,这个特定能力就是视觉推理。

既然是一个通用基础模型,它的应用领域就应该广泛。

首先,在机器人赛道它可以成为强大系统的底层神经中枢,赋予其在各类陌生环境中自主作业的能力。

例如,在机器人赛道,把一个机器人派去处理危险环境中的某个突发安全故障。这就需要机器人做出快速而准确的瞬间决策。如果机器人缺乏深度推理能力的基础模型,人们不会敢让它去瞎按按钮或操作拉杆。而如果它能够有极强推理能力,它就可能思考:“在操作这个面板之前,也许我应该先拉下这根拉杆,激活安全防护机制。”

另外在灾害管理方面,具有视觉推理的模型可以通过分析卫星图像来监测和预防森林大火;在工程领域,它能精准看懂复杂的视觉图纸、系统原理图,这种能力的意义在于,物理世界的运作法则与纯代码世界有着本质的差异,你不能仅仅靠敲几行纯代码就设计出一架飞机的机翼。

不过,目前Elorian AI的模型、能力都暂时还停留在纸面上,他们计划在2026年发布一款在视觉推理领域达到SOTA水平的模型,届时可以检验他们的成果是否符合宣称。

当AI真的具备“视觉推理”能力,它将怎么改变物理世界?

为了让AI理解和影响真实的物理世界,技术已经迭代了好几次。

从传统CV时代的图像识别,到生成式AI的图像生成模型/多模态模型,再到世界模型,对于物理世界的理解一直在增强。

而视觉推理的基础模型,很有可能更进一步,因为能够实现视觉推理,AI就能更深度的理解物理世界,从而实现更高一层级的机器智能。

想象下,当具备深度理解和精细操作的模型为具身智能行业,以及AI硬件行业“充电”,将大大拓展它们的应用范围。例如,机器人可以进行对可靠性更高的工业生产,或者医疗护理领域;AI硬件,尤其是可穿戴设备,变成更聪明的个人助理。

不过,在这些技术的底层,仍然是数据。前文Andrew Dai也表示了,数据质量、数据混合比例、数据来源以及数据的多样性,都决定模型的性能。

在物理AI领域,中国的企业无论是在模型层面还是数据层面,相比文本大模型,都更接近世界领先。如果能够凭借数据,应用场景更丰富的优势,加快迭代的速度,那么无论是具身智能还是AI硬件,无论是应用在工业,医疗,还是家庭,都有更大的机会达到领先水平,当然也有机会跑出世界级的企业。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论