加入谷歌不久后，他就和Quoc V. Le共同撰写了第一篇关于语言模型预训练和监督微调的论文《Semi-supervised Sequence Learning》。这篇论文为GPT的诞生奠定基础。他的另一篇奠基性质论文是《Glam: Efficient scaling of language models with mixture-of-experts》，这为现在主流的MoE架构，趟开了道路。

图片来源：Google

在Google期间，他还深度参与了几乎所有的大模型训练，从Plam到Gemini1.5和Gemini2.5。在Jeff Dean的安排下，他在2023年开始负责领导Gemini的数据板块（包括合成数据），这个团队的规模之后扩展到了数百人。

图片来源：Yinfei Yang的linkedin

与Andrew Dai共同创业的，是Yinfei Yang，他曾在Google Research工作过四年，专注于多模态表示学习，之后加入苹果，负责多模态模型的研发工作。

图片来源：arxiv

他的代表性研究成果《Scaling up visual and vision-language representation learning with noisy text supervision》推动了多模态表示学习的发展。

Elorian AI的联合创始人还包括Seth Neel，他曾经是哈佛大学的AP（助理教授），也是数据和AI领域的专家。

为什么要讨论Elorian AI的联合创始人们写了哪些开创性论文？因为他们要做的事情不是工程层面的优化，而是从底层架构上进行范式更新，要让AI从基于文本的智能理解升级到基于视觉的智能理解。

现在AI模型的状况是，尽管在基于文本的任务上表现优秀，但即使是最顶尖的前沿多模态大模型，依然会在最基础的视觉对齐 (Visual grounding) 任务上栽跟头。

例如，如何将某个零件严丝合缝地装入某套机械装置，使其运转得更精准、更高效？这类空间物理任务对于小学生来说都很简单，但是对于现有的多模态大模型却很难。

这仍然要从生物学中去找线索，在人类大脑中，视觉是支撑诸多思维过程的底层基质，人类利用视觉和空间推理的能力，远比用语言逻辑推理要久远得多。

例如，要教别人走通一段迷宫，用语言描述，会把人绕晕，画一张草图，却能让人秒懂。

再比如，即便是一只鸟，虽然不会语言，但能够通过视觉，辨认和推理地理特征，从而实现全球远程迁徙。这是一个强烈的信号，表明要真正推进机器的推理能力，视觉大概率就是正确的演进方向。

那么，想象一下，如果从模型构建的破局之初，就尝试将这种生物学上的视觉本能刻入AI的基因，构建一个能够“同时理解和处理文本、图像、视频和音频”的原生多模态模型，就能让模型具有视觉理解能力。Andrew Dai和团队要构建一个天生的“通感者”，教会机器不仅“看见”世界，还要“看懂”世界。

在Andrew Dai和团队看来，深刻认知真实的“物理世界”是实现下一代机器智能跃升、并最终触达“视觉通用人工智能 (Visual AGI)”的关键密匙。

推理后置的VLM不是通向视觉推理的正确路径

以往不是没有团队想要做这件事，其实Andrew Dai之前在得Gemini团队，已经是全球范围内多模态领域非常领先的团队。但是传统的多模态模型，仍然以VLM（视觉语言模型）为主，它的逻辑是建立在“两步走”的基础之上：首先将视觉输入转化为语言，随后再进行基于文本的推理（有时会辅助调用外部工具）。

然而后置的推理，本质上都有局限，一方面容易产生模型幻觉，另一方面很多视觉任务根本无法用文字进行精确描述。

此外，NanoBanana等视觉生成模型，在多模态生成上能力卓越，但是生成能力和推理能力并不画等号，它们在生成之前的“思考”，本质还是依赖语言模型，不是原生的推理能力。

若要开发出能够真正洞察视觉世界中空间、结构及关系复杂性的模型，势必需要在底层技术上进行颠覆性创新。

那么，怎么创新？Elorian AI的几位创始人在多模态领域浸淫多年，他们的做法是：将多模态训练与专为多模态推理设计的全新架构进行深度融合。摒弃了将图像视为静态输入的传统做法，转而训练模型去直接交互并操作视觉表征 (Visual representations)去自主解析其中的结构、关系与物理约束。

当然，另一个核心要素是数据，它是决定这些模型性能和成败的关键。

Andrew Dai表示，他们很重视数据质量、数据混合比例、数据来源以及数据的多样性，并且在数据层进行了革新，在视觉空间中重构推理的链路，还大规模且深度地使用合成数据。

这些努力综合起来，将催生出能够跨越简单视觉“感知”，迈向高阶视觉“推理 ”的全新AI系统。

这个AI系统可以是视觉推理基础模型：即构建一个高度通用，但在特定能力集上表现极其优异的模型，这个特定能力就是视觉推理。

既然是一个通用基础模型，它的应用领域就应该广泛。

首先，在机器人赛道它可以成为强大系统的底层神经中枢，赋予其在各类陌生环境中自主作业的能力。

例如，在机器人赛道，把一个机器人派去处理危险环境中的某个突发安全故障。这就需要机器人做出快速而准确的瞬间决策。如果机器人缺乏深度推理能力的基础模型，人们不会敢让它去瞎按按钮或操作拉杆。而如果它能够有极强推理能力，它就可能思考：“在操作这个面板之前，也许我应该先拉下这根拉杆，激活安全防护机制。”

另外在灾害管理方面，具有视觉推理的模型可以通过分析卫星图像来监测和预防森林大火；在工程领域，它能精准看懂复杂的视觉图纸、系统原理图，这种能力的意义在于，物理世界的运作法则与纯代码世界有着本质的差异，你不能仅仅靠敲几行纯代码就设计出一架飞机的机翼。

不过，目前Elorian AI的模型、能力都暂时还停留在纸面上，他们计划在2026年发布一款在视觉推理领域达到SOTA水平的模型，届时可以检验他们的成果是否符合宣称。

当AI真的具备“视觉推理”能力，它将怎么改变物理世界？

为了让AI理解和影响真实的物理世界，技术已经迭代了好几次。

从传统CV时代的图像识别，到生成式AI的图像生成模型/多模态模型，再到世界模型，对于物理世界的理解一直在增强。

而视觉推理的基础模型，很有可能更进一步，因为能够实现视觉推理，AI就能更深度的理解物理世界，从而实现更高一层级的机器智能。

想象下，当具备深度理解和精细操作的模型为具身智能行业，以及AI硬件行业“充电”，将大大拓展它们的应用范围。例如，机器人可以进行对可靠性更高的工业生产，或者医疗护理领域；AI硬件，尤其是可穿戴设备，变成更聪明的个人助理。

不过，在这些技术的底层，仍然是数据。前文Andrew Dai也表示了，数据质量、数据混合比例、数据来源以及数据的多样性，都决定模型的性能。

在物理AI领域，中国的企业无论是在模型层面还是数据层面，相比文本大模型，都更接近世界领先。如果能够凭借数据，应用场景更丰富的优势，加快迭代的速度，那么无论是具身智能还是AI硬件，无论是应用在工业，医疗，还是家庭，都有更大的机会达到领先水平，当然也有机会跑出世界级的企业。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年现场直击
122.09万热度
#
WCTC交易赛瓜分800万USDT
79.84万热度
#
比特币反弹
21.26万热度
#
以太坊Meme季卷土重来
200.56万热度
#
美伊二轮谈判进展
75.21万热度

用“视觉推理”探索物理世界AGI，ElorianAI融资5500万美元

热门话题

Gate13周年现场直击

WCTC交易赛瓜分800万USDT

比特币反弹

以太坊Meme季卷土重来

美伊二轮谈判进展

置顶