Khả năng của mô hình lớn AI đã vượt qua con người trong một số lĩnh vực, chẳng hạn như lập trình và toán học. Thông tin cho biết, nội bộ Anthropic đã gần như đạt 100% khả năng lập trình AI, Gemini Deep Think của Google đã giải 5 trong 6 câu hỏi tại IMO 2025, đạt trình độ huy chương vàng.

Tuy nhiên, về khả năng suy luận thị giác, ngay cả Gemini 3 Pro, dù dẫn đầu về trình độ, cũng chỉ đạt mức của trẻ 3 tuổi trong bài kiểm tra BabyVision, một benchmark đánh giá khả năng suy luận dựa trên thị giác.

Tại sao các mô hình lớn mạnh về lập trình và toán học lại yếu về suy luận thị giác? Đó là do cách “suy nghĩ” của chúng có giới hạn, mô hình ngôn ngữ thị giác (VLM) cần chuyển đổi dữ liệu thị giác thành ngôn ngữ trước, rồi mới thực hiện suy luận dựa trên văn bản, nhưng nhiều nhiệm vụ thị giác không thể mô tả chính xác bằng lời, dẫn đến khả năng suy luận thị giác của mô hình kém.

Andrew Dai, người đã làm việc 14 năm tại Google DeepMind, hợp tác cùng chuyên gia AI kỳ cựu của Apple là Yinfei Yang, đã thành lập công ty Elorian AI. Mục tiêu của họ là nâng cao khả năng suy luận thị giác của mô hình từ “cấp độ trẻ em” lên “cấp độ trưởng thành”, và giúp mô hình có khả năng tư duy nguyên bản trong “không gian thị giác”, nhằm đột phá AGI trong thế giới vật lý.

Elorian AI đã nhận được khoản đầu tư sớm 55 triệu USD từ Striker Venture Partners, Menlo Ventures và Altimeter, cùng sự tham gia của 49 Palms và các nhà khoa học AI hàng đầu như Jeff Dean.

Tiền đề của mô hình đa phương thức, mong muốn mô hình thị giác có khả năng suy luận

Là người Hoa, Andrew Dai tốt nghiệp cử nhân khoa học máy tính tại Cambridge, tiến sĩ học máy tại Edinburgh. Trong thời gian học, ông đã thực tập tại Google, gia nhập Google từ năm 2012 và làm việc suốt 14 năm cho đến khi thành lập công ty.

Nguồn ảnh: LinkedIn của Andrew Dai

Chỉ sau khi gia nhập Google không lâu, ông đã cùng Quoc V. Le viết bài báo đầu tiên về huấn luyện trước mô hình ngôn ngữ và tinh chỉnh có giám sát “Semi-supervised Sequence Learning”. Bài báo này đặt nền móng cho sự ra đời của GPT. Một bài báo khác mang tính nền tảng của ông là “Glam: Efficient scaling of language models with mixture-of-experts”, mở đường cho kiến trúc MoE hiện tại.

Nguồn ảnh: Google

Trong thời gian làm việc tại Google, ông còn tham gia sâu vào hầu hết các dự án huấn luyện mô hình lớn, từ Plam đến Gemini 1.5 và Gemini 2.5. Dưới sự sắp xếp của Jeff Dean, năm 2023 ông bắt đầu phụ trách nhóm dữ liệu của Gemini (bao gồm dữ liệu tổng hợp), đội ngũ này sau đó mở rộng lên hàng trăm người.

Nguồn ảnh: LinkedIn của Yinfei Yang

Cùng đồng sáng lập với Andrew Dai là Yinfei Yang, từng làm việc 4 năm tại Google Research, chuyên về học biểu thị đa phương thức, sau đó gia nhập Apple, phụ trách phát triển các mô hình đa phương thức.

Nguồn ảnh: arXiv

Nghiên cứu tiêu biểu của ông là “Scaling up visual and vision-language representation learning with noisy text supervision”, thúc đẩy sự phát triển của học biểu thị đa phương thức.

Các đồng sáng lập của Elorian AI còn có Seth Neel, từng là phó giáo sư tại Harvard, cũng là chuyên gia trong lĩnh vực dữ liệu và AI.

Tại sao lại bàn về các bài báo sáng tạo của các đồng sáng lập Elorian AI? Bởi vì họ không chỉ tối ưu kỹ thuật, mà còn muốn thay đổi toàn diện kiến trúc nền tảng, nâng cấp AI từ hiểu biết dựa trên văn bản lên hiểu biết dựa trên thị giác.

Hiện tại, dù các mô hình AI dựa trên văn bản thể hiện xuất sắc trong các nhiệm vụ liên quan, nhưng ngay cả các mô hình đa phương thức tiên tiến nhất cũng vẫn gặp khó khăn trong các nhiệm vụ căn bản như (Visual grounding), tức là liên kết chính xác giữa hình ảnh và đối tượng.

Ví dụ, làm thế nào để ghép chính xác một bộ phận vào một thiết bị cơ khí sao cho vận hành chính xác và hiệu quả hơn? Các nhiệm vụ không gian vật lý này đối với học sinh tiểu học là dễ dàng, nhưng đối với các mô hình đa phương thức hiện nay lại rất khó.

Điều này vẫn cần tìm hiểu từ sinh học, trong não người, thị giác là nền tảng hỗ trợ nhiều quá trình tư duy, khả năng suy luận không gian và thị giác của con người vượt xa khả năng lý luận bằng ngôn ngữ.

Ví dụ, để hướng dẫn người khác đi qua một mê cung, mô tả bằng lời dễ gây nhầm lẫn, còn vẽ sơ đồ lại giúp người khác hiểu ngay lập tức.

Thậm chí, một chú chim dù không biết ngôn ngữ, vẫn có thể nhận diện và suy luận đặc điểm địa lý qua thị giác, từ đó thực hiện di cư toàn cầu. Đây là một tín hiệu mạnh mẽ, cho thấy để thúc đẩy khả năng suy luận của máy móc, khả năng thị giác có thể là hướng tiến hóa đúng đắn.

Hãy tưởng tượng, nếu từ đầu, mô hình được xây dựng dựa trên khả năng thị giác sinh học này, tích hợp vào AI như một đặc tính bẩm sinh, tạo ra một mô hình đa phương thức nguyên bản có thể “hiểu và xử lý đồng thời văn bản, hình ảnh, video và âm thanh”, thì khả năng hiểu thị giác của mô hình sẽ được phát huy tối đa. Andrew Dai và nhóm của ông muốn xây dựng một “người cảm thụ toàn diện” bẩm sinh, giúp máy không chỉ “nhìn thấy” thế giới mà còn “hiểu” thế giới.

Theo quan điểm của Andrew Dai và nhóm, nhận thức sâu sắc về “thế giới vật lý” là chìa khóa để đạt được bước nhảy vọt của trí tuệ máy thế hệ tiếp theo, và cuối cùng chạm tới “Trí tuệ nhân tạo toàn diện thị giác (Visual AGI)”.

VLM suy luận sau mới là con đường đúng để tiến tới suy luận thị giác

Trước đây không ít nhóm đã muốn làm điều này, thực tế Andrew Dai từng làm việc trong nhóm Gemini, là một trong những nhóm dẫn đầu toàn cầu về lĩnh vực đa phương thức. Tuy nhiên, các mô hình đa phương thức truyền thống vẫn chủ yếu dựa trên VLM (mô hình ngôn ngữ thị giác), dựa trên nguyên tắc “hai bước”: đầu tiên chuyển đổi dữ liệu thị giác thành ngôn ngữ, rồi mới thực hiện suy luận dựa trên văn bản (đôi khi có hỗ trợ gọi công cụ bên ngoài).

Tuy nhiên, suy luận sau này về bản chất có giới hạn, một mặt dễ gây ra ảo tưởng của mô hình, mặt khác nhiều nhiệm vụ thị giác không thể mô tả chính xác bằng lời.

Ngoài ra, các mô hình như NanoBanana trong lĩnh vực tạo hình ảnh đa phương thức xuất sắc, nhưng khả năng tạo hình và suy luận không thể coi là ngang nhau, vì quá trình “suy nghĩ” trước khi tạo ra vẫn dựa vào mô hình ngôn ngữ, không phải khả năng suy luận nguyên bản.

Để phát triển mô hình thực sự hiểu rõ không gian, cấu trúc và mối quan hệ phức tạp trong thế giới thị giác, cần có những đổi mới đột phá về công nghệ nền tảng.

Vậy, làm thế nào để đổi mới? Các sáng lập của Elorian AI, với nhiều năm kinh nghiệm trong lĩnh vực đa phương thức, đã đề xuất: kết hợp sâu sắc huấn luyện đa phương thức với kiến trúc hoàn toàn mới dành riêng cho suy luận đa phương thức. Họ từ bỏ cách tiếp cận truyền thống xem hình ảnh như dữ liệu tĩnh, chuyển sang huấn luyện mô hình để tương tác trực tiếp và thao tác biểu diễn thị giác (Visual representations), nhằm tự phân tích cấu trúc, mối quan hệ và ràng buộc vật lý trong đó.

Chắc chắn, một yếu tố then chốt khác là dữ liệu, quyết định hiệu suất và thành bại của các mô hình này.

Andrew Dai nhấn mạnh rằng họ rất chú trọng đến chất lượng dữ liệu, tỷ lệ pha trộn dữ liệu, nguồn dữ liệu và tính đa dạng của dữ liệu, đồng thời đã có những đổi mới trong tầng dữ liệu, tái cấu trúc chuỗi suy luận trong không gian thị giác, sử dụng quy mô lớn và sâu dữ liệu tổng hợp.

Tổng hòa các nỗ lực này sẽ tạo ra hệ thống AI mới có khả năng vượt qua cảm nhận đơn thuần về thị giác, tiến tới suy luận thị giác cao cấp.

Hệ thống AI này có thể là mô hình nền tảng suy luận thị giác: xây dựng một mô hình cực kỳ tổng quát, nhưng thể hiện xuất sắc trong các khả năng đặc thù, trong đó khả năng đặc thù chính là suy luận thị giác.

Vì là một mô hình nền tảng chung, phạm vi ứng dụng của nó sẽ rất rộng.

Trước tiên, trong lĩnh vực robot, nó có thể trở thành trung tâm thần kinh mạnh mẽ, giúp robot tự vận hành trong các môi trường xa lạ.

Ví dụ, gửi một robot xử lý sự cố khẩn cấp trong môi trường nguy hiểm. Điều này đòi hỏi robot phải đưa ra quyết định nhanh chóng và chính xác. Nếu thiếu mô hình nền tảng có khả năng suy luận sâu, người ta sẽ không dám để robot thao tác lung tung. Nhưng nếu robot có khả năng suy luận mạnh, nó có thể nghĩ: “Trước khi thao tác bảng điều khiển này, có lẽ tôi nên kéo cái cần này để kích hoạt cơ chế an toàn.”

Ngoài ra, trong quản lý thảm họa, các mô hình có khả năng suy luận thị giác có thể phân tích ảnh vệ tinh để giám sát và phòng ngừa cháy rừng; trong kỹ thuật, chúng có thể đọc chính xác bản vẽ kỹ thuật, sơ đồ hệ thống phức tạp. Khả năng này rất quan trọng vì các quy luật vận hành của thế giới vật lý khác biệt rõ rệt so với thế giới mã nguồn, bạn không thể chỉ viết vài dòng mã để thiết kế cánh máy bay.

Tuy nhiên, hiện tại các mô hình của Elorian AI và khả năng của họ vẫn mới chỉ trên giấy, dự kiến đến năm 2026 sẽ ra mắt một mô hình đạt SOTA trong lĩnh vực suy luận thị giác, để kiểm nghiệm thành quả của họ có đúng như tuyên bố hay không.

Khi AI thực sự có khả năng “suy luận thị giác”, nó sẽ thay đổi thế giới vật lý như thế nào?

Để AI hiểu và tác động tới thế giới vật lý thực, công nghệ đã trải qua nhiều lần đổi mới.

Từ thời kỳ nhận diện hình ảnh truyền thống của CV, đến các mô hình tạo hình ảnh/đa phương thức của AI sinh tạo, rồi đến các mô hình thế giới, khả năng hiểu về thế giới vật lý ngày càng nâng cao.

Và mô hình nền tảng suy luận thị giác có thể tiến xa hơn nữa, vì khả năng thực hiện suy luận thị giác giúp AI hiểu sâu hơn về thế giới vật lý, mở ra cấp độ trí tuệ máy cao hơn.

Hãy tưởng tượng, khi các mô hình có khả năng hiểu sâu và thao tác tinh vi, chúng sẽ mở rộng đáng kể phạm vi ứng dụng trong các ngành như robot tự thân, công nghiệp, y tế; hoặc các thiết bị AI đeo, biến thành trợ lý cá nhân thông minh hơn.

Tuy nhiên, về nền tảng công nghệ, dữ liệu vẫn là yếu tố quyết định. Andrew Dai cũng nhấn mạnh rằng chất lượng dữ liệu, tỷ lệ pha trộn, nguồn dữ liệu và tính đa dạng của dữ liệu đều ảnh hưởng lớn đến hiệu suất của mô hình.

Trong lĩnh vực AI vật lý, các doanh nghiệp Trung Quốc về mô hình và dữ liệu gần như đã vượt xa các mô hình dựa trên văn bản của thế giới. Nếu có thể dựa vào dữ liệu và lợi thế về các ứng dụng đa dạng để đẩy nhanh quá trình đổi mới, thì dù là trí tuệ thể chất hay phần cứng AI, trong công nghiệp, y tế hay gia đình, đều có cơ hội đạt trình độ dẫn đầu thế giới, thậm chí tạo ra các doanh nghiệp tầm cỡ quốc tế.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
Gate13thAnniversaryLive
1.22M Phổ biến
#
WCTCTradingChallengeShare8MUSDT
798.47K Phổ biến
#
BitcoinBouncesBack
212.67K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.66K Phổ biến
#
EthereumMemeSeasonReturns
2M Phổ biến

Ghim

sơ đồ trang web

Dùng “Lý luận thị giác” khám phá thế giới vật lý AGI, ElorianAI huy động 55 triệu USD

Chủ đề thịnh hành

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Ghim