CEO DeepMind của Google, nhà Nobel Hóa học Demis Hassabis đã ghé thăm Y Combinator, nói về những tiến bộ then chốt còn thiếu trên con đường đạt tới AGI, chia sẻ lời khuyên cho các nhà sáng lập về cách duy trì lợi thế, cũng như nơi có thể xuất hiện bước đột phá khoa học tiếp theo.

Những đánh giá thực tế nhất cho các nhà sáng tạo công nghệ sâu là, nếu bạn bắt đầu một dự án công nghệ sâu kéo dài mười năm hôm nay, bạn phải tính đến sự xuất hiện của AGI trong kế hoạch của mình. Ngoài ra, ông còn tiết lộ Isomorphic Labs (công ty dược phẩm AI tách ra từ DeepMind) sắp có thông tin quan trọng sẽ được công bố.

Những câu nói đỉnh cao

Lộ trình và thời gian của AGI

·「Các thành phần công nghệ hiện có gần như chắc chắn sẽ trở thành một phần của kiến trúc cuối cùng của AGI.」

·「Vấn đề của học liên tục, suy luận dài hạn, và một số khía cạnh của trí nhớ vẫn chưa được giải quyết, AGI cần phải xử lý tất cả.」

·「Nếu thời gian dự kiến của bạn cho AGI cũng vào khoảng năm 2030 như tôi, và bạn bắt đầu một dự án công nghệ sâu hôm nay, bạn phải tính đến khả năng AGI sẽ xuất hiện giữa chừng.」

Nhớ và cửa sổ ngữ cảnh

·「Cửa sổ ngữ cảnh tương đương với bộ nhớ làm việc. Bộ nhớ làm việc của con người trung bình chỉ có bảy số, trong khi chúng ta có cửa sổ ngữ cảnh hàng triệu hoặc hàng chục triệu token. Nhưng vấn đề là chúng ta nhồi nhét tất cả mọi thứ vào đó, kể cả những thông tin không quan trọng, sai lệch, hiện tại cách làm này khá thô sơ.」

·「Nếu muốn xử lý luồng video trực tiếp và lưu tất cả token, thì một triệu token chỉ đủ khoảng 20 phút thôi.」

Nhược điểm của suy luận

·「Tôi thích chơi cờ với Gemini. Đôi khi nó nhận ra đó là nước đi tồi, nhưng không tìm ra cách tốt hơn, cuối cùng vẫn đi nước đó. Nhưng một hệ thống suy luận chính xác thì không nên có chuyện này.」

·「Nó vừa có thể giải các bài thi cấp huy chương vàng IMO, vừa khi hỏi theo cách khác lại mắc lỗi toán tiểu học. Trong việc tự phản tỉnh quá trình suy nghĩ của chính nó, dường như còn thiếu điều gì đó.」

Agent và sáng tạo

·「Để đạt tới AGI, bạn cần một hệ thống có thể chủ động giải quyết vấn đề thay bạn. Agent chính là con đường đó, tôi nghĩ chúng ta mới chỉ bắt đầu.」

·「Tôi vẫn chưa thấy ai dùng vibe coding để tạo ra một game AAA đứng đầu bảng xếp hạng ứng dụng. Theo lượng công sức bỏ ra hiện tại, điều đó khả thi, nhưng chưa xảy ra. Điều này cho thấy công cụ hoặc quy trình còn thiếu gì đó.」

Chưng cất và mô hình nhỏ

·「Giả định của chúng tôi là, sau khi ra mắt một mô hình Pro tiên tiến trong vòng nửa năm đến một năm, khả năng của nó có thể được nén vào một mô hình nhỏ, có thể chạy trên thiết bị biên. Hiện tại chưa gặp giới hạn về mật độ thông tin lý thuyết.」

Phát hiện khoa học và “Kiểm tra Einstein”

·「Thỉnh thoảng tôi gọi đó là “Kiểm tra Einstein”, tức là có thể dùng kiến thức năm 1901 để huấn luyện một hệ thống, rồi để nó tự suy luận ra những thành tựu của Einstein năm 1905, bao gồm thuyết tương đối hẹp. Nếu làm được điều này, các hệ thống đó sẽ không còn xa việc phát minh ra những thứ hoàn toàn mới.」

·「Giải một bài toán giải thưởng Millennium đã là điều tuyệt vời rồi. Nhưng còn khó hơn là đề xuất một nhóm các câu hỏi giải thưởng Millennium mới, và được các nhà toán học hàng đầu coi là sâu sắc, đáng để dành cả đời nghiên cứu.」

Lời khuyên cho khởi nghiệp công nghệ sâu

·「Theo đuổi các vấn đề khó và các vấn đề đơn giản, thực ra cũng giống nhau, chỉ khác về cách khó khăn. Cuộc đời ngắn, không nên phí sức vào những việc mà chỉ có bạn làm được.」

Con đường đạt tới AGI

Gary Tan: Bạn đã suy nghĩ về AGI gần như lâu hơn tất cả mọi người. Theo các mô hình hiện tại, bạn nghĩ chúng ta đã có bao nhiêu kiến trúc cuối cùng của AGI? Hiện tại còn thiếu gì căn bản?

Demis Hassabis: Các kỹ thuật như huấn luyện trước quy mô lớn, RLHF, suy luận theo chuỗi đều chắc chắn sẽ trở thành phần của kiến trúc cuối cùng của AGI. Những công nghệ này đã chứng minh quá nhiều điều đến ngày hôm nay. Tôi không thể tưởng tượng sau hai năm nữa chúng ta sẽ thấy đó là con đường chết, điều đó không hợp lý với tôi. Nhưng dựa trên những gì đã có, có thể còn thiếu một hoặc hai thứ. Học liên tục, suy luận dài hạn, và một số khía cạnh của trí nhớ vẫn còn chưa giải quyết xong.

AGI cần phải xử lý tất cả. Có thể công nghệ hiện tại cộng thêm một vài đổi mới tiến bộ sẽ đủ để mở rộng đến mức đó, nhưng cũng có thể còn một hoặc hai điểm then chốt cần đột phá. Tôi không nghĩ sẽ vượt quá một hoặc hai điểm. Cá nhân tôi đánh giá xác suất còn những điểm chưa giải quyết này khoảng 50/50. Vì vậy, tại Google DeepMind, chúng tôi đều đang thúc đẩy cả hai hướng.

Gary Tan: Tôi làm việc với nhiều hệ thống Agent, điều làm tôi sốc nhất là phần lớn trọng số nằm ở dưới cùng, đi đi lại lại chỉ có một bộ. Vì vậy, ý tưởng về học liên tục rất thú vị, vì hiện tại chúng ta gần như đang dùng băng dính tạm vá, như những chu kỳ “giấc mơ đêm” chẳng hạn.

Demis Hassabis: Đúng vậy, những chu kỳ mơ đó rất hay. Trước đây chúng tôi đã từng nghĩ về việc tích hợp ký ức tình huống. Tôi nghiên cứu về cách hippocampus giúp tích hợp kiến thức mới một cách tinh tế vào hệ thống kiến thức đã có. Bộ não làm rất tốt việc này.

Trong giấc ngủ, đặc biệt là trong REM sleep, bộ não sẽ phát lại những trải nghiệm quan trọng để học hỏi. Chương trình Atari đầu tiên của DeepMind, DQN (DeepMind 2013, mạng Q sâu dùng học tăng cường để chơi Atari đạt trình độ con người), đã học chơi game Atari dựa vào phương pháp trải nghiệm phát lại (experience replay).

Điều này học từ neuroscience, là lặp lại những con đường thành công. Đã hơn 10 năm rồi, trong lĩnh vực AI, đó là thời kỳ cổ đại, nhưng thời điểm đó cực kỳ quan trọng.

Tôi đồng ý với bạn, hiện tại chúng ta đúng là đang dùng băng dính vá víu. Nhồi tất cả mọi thứ vào cửa sổ ngữ cảnh. Cảm giác không đúng lắm. Ngay cả khi chúng ta làm hệ thống máy móc chứ không phải bộ não sinh học, về lý thuyết có thể có cửa sổ ngữ cảnh triệu hoặc chục triệu token, và trí nhớ hoàn hảo, nhưng chi phí tìm kiếm và truy xuất vẫn còn tồn tại. Trong thời điểm cần quyết định cụ thể này, việc tìm ra thông tin thực sự liên quan không đơn giản, ngay cả khi bạn có thể lưu tất cả mọi thứ. Vì vậy, tôi nghĩ lĩnh vực trí nhớ còn rất nhiều tiềm năng đổi mới.

Gary Tan: Thật sự, cửa sổ ngữ cảnh triệu token đã lớn hơn nhiều so với dự đoán của tôi, có thể làm được nhiều việc.

Demis Hassabis: Đúng vậy, đối với hầu hết các trường hợp sử dụng, nó đủ lớn. Nhưng bạn nghĩ xem, cửa sổ ngữ cảnh tương đương với bộ nhớ làm việc. Bộ nhớ làm việc của con người trung bình chỉ có bảy số, còn chúng ta có thể có cửa sổ hàng triệu hoặc chục triệu token. Vấn đề là chúng ta nhồi nhét tất cả mọi thứ vào đó, kể cả những thông tin không quan trọng, sai lệch, cách làm này khá thô sơ. Và nếu muốn xử lý luồng video trực tiếp, đơn giản là ghi lại tất cả token, một triệu token chỉ đủ khoảng 20 phút. Nhưng nếu muốn hệ thống hiểu về cuộc sống của bạn trong một hoặc hai tháng, thì còn xa mới đủ.

Gary Tan: DeepMind luôn đầu tư mạnh vào học tăng cường và tìm kiếm, triết lý này có ảnh hưởng thế nào đến quá trình xây dựng Gemini của các bạn? Học tăng cường vẫn còn bị đánh giá thấp?

Demis Hassabis: Có thể đúng vậy. Sự chú ý đến lĩnh vực này có lúc lên lúc xuống. Từ ngày thành lập DeepMind, chúng tôi đã làm hệ thống Agent. Tất cả các dự án như Atari, AlphaGo đều thuộc về hệ thống học tăng cường Agent, có khả năng tự chủ hoàn thành mục tiêu, ra quyết định, lập kế hoạch. Ban đầu chúng tôi chọn lĩnh vực game vì độ phức tạp có thể kiểm soát, rồi dần mở rộng sang các game phức tạp hơn, như AlphaGo rồi AlphaStar, gần như đã làm hết các game có thể làm được.

Tiếp theo là, liệu có thể tổng quát hóa các mô hình này thành mô hình thế giới hoặc mô hình ngôn ngữ, chứ không chỉ là mô hình game. Trong vài năm qua, chúng tôi đã làm điều này. Các mô hình hàng đầu ngày nay, cách suy nghĩ và chuỗi suy luận của chúng đều về cơ bản là sự trở lại của những ý tưởng mà AlphaGo đã khai phá từ trước.

Tôi nghĩ nhiều công trình của chúng tôi ngày xưa rất liên quan đến các mô hình hiện tại, chúng tôi đang xem lại các ý tưởng cũ, mở rộng quy mô, theo cách tổng quát hơn, như tìm kiếm cây Monte Carlo (Monte Carlo tree search) và các phương pháp học tăng cường khác. Những ý tưởng của AlphaGo, AlphaZero rất liên quan đến các mô hình nền tảng ngày nay, và tôi nghĩ phần lớn tiến bộ trong vài năm tới sẽ đến từ đây.

Chưng cất và mô hình nhỏ

Gary Tan: Hiện nay để thông minh hơn cần mô hình lớn hơn, nhưng đồng thời kỹ thuật chưng cất cũng tiến bộ, mô hình nhỏ có thể trở nên rất nhanh. Mô hình Flash của các bạn rất mạnh, có thể đạt khoảng 95% hiệu năng của mô hình hàng đầu, nhưng giá chỉ bằng một phần mười. Đúng không?

Demis Hassabis: Tôi nghĩ đó là một trong những lợi thế cốt lõi của chúng tôi. Bạn phải xây dựng mô hình lớn nhất để có khả năng hàng đầu. Một trong những lợi thế lớn của chúng tôi là có thể nhanh chóng chưng cất và nén các khả năng đó vào các mô hình nhỏ hơn. Phương pháp chưng cất này chính là do chúng tôi phát minh ra, hiện tại chúng tôi vẫn là hàng đầu thế giới. Và chúng tôi có động lực kinh doanh rất mạnh để làm điều này. Chúng tôi có thể coi là nền tảng ứng dụng AI lớn nhất toàn cầu.

Với các hệ thống như AI Overviews, AI Mode, và Gemini, hiện tại mọi sản phẩm của Google, từ Maps, YouTube đến các dịch vụ khác đều tích hợp Gemini hoặc công nghệ liên quan. Điều này liên quan đến hàng tỷ người dùng, hàng chục sản phẩm có hàng tỷ người dùng. Chúng cần tốc độ cực nhanh, hiệu quả cao, chi phí thấp, độ trễ thấp. Điều này thúc đẩy chúng tôi tối ưu mô hình Flash và các mô hình nhỏ hơn nữa, để đạt hiệu quả tối đa, hy vọng cuối cùng sẽ phục vụ tốt các công việc của người dùng.

Gary Tan: Tôi tò mò, những mô hình nhỏ này có thể thông minh đến mức nào? Liệu kỹ thuật chưng cất có giới hạn không? Các mô hình 50B hoặc 400B có thể đạt độ thông minh như các mô hình hàng đầu hiện nay không?

Demis Hassabis: Tôi không nghĩ chúng ta đã chạm tới giới hạn lý thuyết về thông tin, ít nhất hiện tại chưa ai biết. Có thể một ngày nào đó sẽ gặp giới hạn về mật độ thông tin, nhưng hiện tại giả định của chúng tôi là, sau khi ra mắt một mô hình Pro tiên tiến, trong vòng nửa năm đến một năm, khả năng của nó có thể được nén vào một mô hình nhỏ, có thể chạy trên thiết bị biên gần như không giới hạn.

Các bạn cũng có thể thấy điều này trên mô hình Gemma của chúng tôi, Gemma 4 hoạt động rất mạnh trong cùng quy mô. Tất cả đều nhờ vào các kỹ thuật chưng cất và tối ưu hiệu suất mô hình nhỏ. Vì vậy, tôi thực sự chưa thấy giới hạn lý thuyết nào, còn rất xa mới đến đó.

Gary Tan: Hiện tượng kỳ quặc là, các kỹ sư có thể làm gấp 500 đến 1000 lần lượng công việc so với cách đây khoảng sáu tháng. Trong phòng này, có người làm những công việc tương đương với một kỹ sư Google thập niên 2000 gấp 1000 lần. Steve Yegge đã từng nói về điều này.

Demis Hassabis: Tôi cảm thấy rất phấn khích. Các mô hình nhỏ có rất nhiều ứng dụng. Một là chi phí thấp, tốc độ nhanh, sẽ mang lại lợi ích lớn. Trong viết mã hoặc các nhiệm vụ khác, bạn có thể lặp lại nhanh hơn, đặc biệt là khi hợp tác với hệ thống. Hệ thống nhanh, dù không phải là mô hình hàng đầu, chỉ đạt 90-95% hiệu năng, nhưng đã đủ dùng, và tốc độ lặp lại nhanh hơn nhiều so với phần còn lại.

Một hướng lớn khác là chạy các mô hình này trên thiết bị biên, không chỉ để tối ưu, mà còn để bảo mật và riêng tư. Nghĩ đến các thiết bị xử lý dữ liệu cá nhân cực kỳ nhạy cảm, hoặc robot, bạn sẽ muốn robot trong nhà chạy mô hình nhỏ, hiệu quả, mạnh mẽ, chỉ giao nhiệm vụ cho đám mây khi cần thiết. Xử lý âm thanh, video tại chỗ, dữ liệu để tại chỗ, tôi hình dung đó sẽ là trạng thái tối ưu cuối cùng.

Trí nhớ và suy luận

Gary Tan: Quay lại vấn đề ngữ cảnh và trí nhớ. Hiện tại mô hình là không trạng thái, nếu có khả năng học liên tục, các nhà phát triển sẽ có trải nghiệm như thế nào? Bạn sẽ hướng dẫn hệ thống như thế nào?

Demis Hassabis: Câu hỏi rất thú vị. Thiếu khả năng học liên tục là một trong những giới hạn chính khiến Agent hiện tại chưa thể hoàn thành nhiệm vụ toàn diện. Các Agent hiện tại rất hữu ích trong các phần cục bộ của nhiệm vụ, bạn có thể ghép chúng lại để làm những việc thú vị, nhưng chúng chưa thể thích nghi tốt với môi trường cụ thể của bạn. Đó là lý do chúng chưa thể “phóng ra rồi bỏ mặc”, chúng cần khả năng học hỏi từ các cảnh quan cụ thể của bạn. Để đạt trí thông minh tổng quát hoàn toàn, vấn đề này phải được giải quyết.

Gary Tan: Về suy luận, hiện tại đã tiến xa đến đâu rồi? Chuỗi suy luận của mô hình rất mạnh, nhưng vẫn mắc lỗi mà các sinh viên giỏi không bao giờ phạm phải. Cần sửa gì? Bạn dự đoán tiến bộ trong suy luận sẽ ra sao?

Demis Hassabis: Phương pháp tư duy còn nhiều không gian đổi mới. Những gì chúng tôi làm vẫn còn khá thô sơ, khá thô. Có thể cải thiện nhiều hướng, như giám sát quá trình suy nghĩ, can thiệp giữa chừng. Tôi thường nghĩ, hệ thống của chúng tôi hoặc các đối thủ đều có xu hướng suy nghĩ quá mức, rơi vào vòng lặp.

Thỉnh thoảng tôi thích chơi cờ với Gemini để quan sát. Tất cả các mô hình nền hàng đầu đều khá yếu trong cờ, điều này rất thú vị.

Xem quá trình suy nghĩ của chúng rất có giá trị, vì cờ là lĩnh vực đã được hiểu rõ, tôi có thể nhanh chóng nhận ra nó đi lệch hướng hay không, suy luận có hợp lý không. Chúng tôi thấy rằng, đôi khi nó cân nhắc một nước đi, nhận ra đó là nước tồi, nhưng không tìm ra cách tốt hơn, cuối cùng vẫn đi nước đó. Một hệ thống suy luận chính xác thì không nên có chuyện này.

Sự chênh lệch lớn này vẫn còn, nhưng sửa nó chỉ cần một hoặc hai điều chỉnh. Đó là lý do bạn thấy hiện tượng “trí tuệ răng cưa” (jagged intelligence), vừa có thể giải các bài IMO huy chương vàng, vừa khi hỏi theo cách khác lại mắc lỗi toán tiểu học. Trong việc phản tỉnh quá trình suy nghĩ của chính mình, dường như còn thiếu điều gì đó.

Khả năng thực sự của Agent

Gary Tan: Agent là một chủ đề lớn. Có người nói đó chỉ là thổi phồng. Cá nhân tôi nghĩ chúng ta mới bắt đầu. Nghiên cứu nội bộ của DeepMind về khả năng của Agent thực sự ra sao, và khoảng cách với tuyên truyền bên ngoài là bao nhiêu?

Demis Hassabis: Tôi đồng ý, chúng ta mới chỉ bắt đầu. Để đạt AGI, bạn cần một hệ thống có thể chủ động giải quyết vấn đề thay bạn. Điều này luôn rõ ràng với chúng tôi. Agent chính là con đường đó, tôi nghĩ chúng ta mới chỉ bắt đầu.

Mọi người đều đang thử nghiệm cách làm Agent hợp tác tốt hơn, chúng tôi đã làm nhiều thử nghiệm cá nhân, nhiều người trong phòng cũng thế. Làm thế nào để Agent hòa nhập vào quy trình làm việc, để nó không chỉ là phần thưởng thêm, mà thực sự làm những việc nền tảng. Hiện tại chúng tôi vẫn đang trong giai đoạn thử nghiệm. Có thể chỉ trong hai, ba tháng gần đây mới bắt đầu tìm ra các kịch bản có giá trị thực sự. Công nghệ đã đạt đến mức đó, không còn là trò chơi demo nữa, mà thực sự mang lại giá trị về thời gian và hiệu quả.

Tôi thường thấy người ta khởi chạy hàng chục Agent, chạy hàng chục giờ, nhưng tôi vẫn chưa rõ kết quả có xứng đáng với công sức bỏ ra không.

Chúng tôi vẫn chưa thấy ai dùng vibe coding để tạo ra một game AAA đứng đầu bảng xếp hạng ứng dụng. Tôi cũng đã từng viết, nhiều người trong phòng cũng làm các demo nhỏ khá ấn tượng. Hiện tại, tôi có thể tạo ra một nguyên mẫu “Theme Park” trong nửa giờ, trong khi hồi 17 tuổi tôi mất sáu tháng.

Tôi có cảm giác, nếu dành cả mùa hè để làm, có thể tạo ra thứ thực sự phi thường. Nhưng vẫn cần kỹ năng thủ công, linh hồn và gu thẩm mỹ của con người, bạn phải đảm bảo mang những yếu tố này vào bất kỳ sản phẩm nào bạn xây dựng. Thực tế, chưa có đứa trẻ nào bán được game siêu hit hơn 10 triệu bản, theo tôi, với công cụ hiện tại, điều đó hoàn toàn khả thi. Vậy còn thiếu gì đó, có thể liên quan đến quy trình, hoặc công cụ. Tôi dự đoán trong vòng 6 đến 12 tháng tới sẽ có thành quả như vậy.

Gary Tan: Trong đó, phần lớn sẽ là tự động hoàn toàn chứ? Tôi nghĩ không phải lúc nào cũng tự động hoàn toàn. Con đường khả thi hơn là mọi người đạt được hiệu suất gấp 1000 lần, rồi xuất hiện người dùng các công cụ đó tạo ra ứng dụng, game bán chạy, rồi các bước tự động hóa tiếp theo mới diễn ra.

Demis Hassabis: Đúng vậy, đó chính là điều bạn nên nhìn thấy trước.

Gary Tan: Cũng có lý do là, có người đã làm như vậy rồi, nhưng họ không muốn công khai mức độ giúp đỡ của Agent.

Demis Hassabis: Có thể vậy. Nhưng tôi muốn nói về sáng tạo. Tôi thường lấy ví dụ AlphaGo, mọi người đều biết nước đi thứ 37 trong trận thứ hai. Đối với tôi, tôi luôn chờ đợi khoảnh khắc đó xuất hiện, rồi mới bắt đầu các dự án khoa học như AlphaFold. Chúng tôi bắt đầu làm AlphaFold ngay ngày hôm sau khi về từ Seoul, cách đây mười năm rồi. Lần này tôi đi Hàn Quốc để kỷ niệm 10 năm AlphaGo.

Nhưng chỉ ra Move 37 thôi chưa đủ. Nó rất ngầu, rất hữu ích. Nhưng hệ thống đó có thể phát minh ra cờ vây không? Nếu bạn cung cấp cho nó một mô tả cao cấp, như “một trò chơi có thể học trong năm phút, nhưng cả đời vẫn khó thành thạo, mang tính thẩm mỹ cao, có thể chơi xong trong một buổi chiều”, rồi hệ thống trả về kết quả là cờ vây. Hiện tại hệ thống chưa làm được điều này. Tại sao?

Gary Tan: Trong số những người có mặt, có thể có người làm được.

Demis Hassabis: Nếu ai đó làm được, thì câu trả lời không phải là hệ thống thiếu gì, mà là cách chúng ta dùng hệ thống đó có vấn đề. Có thể chính là câu trả lời đúng. Có thể hệ thống hiện tại đã có khả năng này, chỉ cần một người sáng tạo thiên tài đủ để thúc đẩy nó, cung cấp linh hồn cho dự án, và người đó phải hòa quyện chặt chẽ với công cụ. Nếu bạn dành ngày đêm với các công cụ này và có khả năng sáng tạo sâu sắc, có thể bạn sẽ tạo ra những thứ vượt xa tưởng tượng.

Mở nguồn và mô hình đa mô thức

Gary Tan: Đổi sang chủ đề mở nguồn. Gần đây, Gemma ra mắt cho phép các mô hình cực mạnh chạy tại chỗ. Bạn nghĩ sao? AI có thể trở thành thứ do người dùng kiểm soát, chứ không chỉ nằm trong đám mây? Điều này có thể thay đổi ai có thể dùng các mô hình này để xây dựng sản phẩm không?

Demis Hassabis: Chúng tôi là những người ủng hộ mạnh mẽ cho mở nguồn và khoa học mở. Bạn đề cập AlphaFold, chúng tôi đã mở hoàn toàn miễn phí. Các công trình khoa học của chúng tôi đến nay vẫn đăng trên các tạp chí hàng đầu. Về Gemma, chúng tôi muốn tạo ra các mô hình hàng đầu thế giới cùng quy mô. Hiện tại, Gemma đã có khoảng 40 triệu lượt tải sau hơn hai tuần phát hành.

Tôi cũng cho rằng, trong lĩnh vực mở nguồn, việc có các công nghệ của phương Tây là rất quan trọng. Các mô hình mở nguồn của Trung Quốc rất xuất sắc, hiện dẫn đầu trong lĩnh vực này, nhưng chúng tôi nghĩ Gemma cạnh tranh rất tốt trong cùng quy mô.

Về nguồn lực, không ai có dư dả đủ để đào tạo hai mô hình hàng đầu cùng lúc. Vì vậy, quyết định của chúng tôi là: các mô hình biên dành cho Android, kính thông minh, robot, tốt nhất là mở nguồn, vì một khi triển khai trên thiết bị, chúng sẽ bị lộ, không bằng mở hoàn toàn. Chúng tôi đã thống nhất chính sách mở ở cấp độ nano, điều này hợp lý về chiến lược.

Gary Tan: Trước khi gặp, tôi đã trình diễn hệ điều hành AI do tôi tạo, có thể giao tiếp với Gemini qua giọng nói. Tôi vẫn khá căng thẳng khi trình diễn, nhưng cuối cùng cũng thành công. Gemini từ đầu đã được xây dựng đa mô thức. Tôi đã dùng nhiều mô hình, giao tiếp qua giọng nói, tích hợp khả năng gọi công cụ, hiểu ngữ cảnh, hiện chưa có mô hình nào sánh được với Gemini.

Demis Hassabis: Đúng vậy. Một lợi thế chưa được nhận thức đầy đủ của dòng Gemini là chúng tôi bắt đầu xây dựng theo đa mô thức từ đầu. Điều này khiến bước khởi đầu khó hơn so với chỉ làm văn bản, nhưng chúng tôi tin rằng về dài hạn sẽ mang lại lợi ích, và hiện đã bắt đầu thể hiện rõ.

Ví dụ về mô hình thế giới, chúng tôi đã xây dựng Genie dựa trên Gemini (mô hình tương tác sinh dạng do DeepMind phát triển). Trong lĩnh vực robot, Gemini Robotics sẽ dựa trên các mô hình đa mô thức, lợi thế này sẽ trở thành hàng rào cạnh tranh. Chúng tôi cũng ngày càng sử dụng Gemini nhiều hơn trong Waymo (công ty tự hành của Alphabet).

Hãy tưởng tượng một trợ lý số theo dõi bạn trong thế giới thực, có thể trên điện thoại hoặc kính của bạn, cần hiểu rõ môi trường vật lý xung quanh. Hệ thống của chúng tôi rất mạnh trong lĩnh vực này. Chúng tôi sẽ tiếp tục đầu tư, và tôi nghĩ lợi thế dẫn đầu của chúng tôi trong các vấn đề này là rất lớn.

Gary Tan: Chi phí suy luận đang giảm nhanh. Khi suy luận gần như miễn phí, điều gì sẽ trở thành khả thi? Đội ngũ của bạn sẽ điều chỉnh hướng tối ưu như thế nào?

Demis Hassabis: Tôi không chắc suy luận sẽ thực sự trở nên miễn phí, vì định luật Jevons (Jevons’ Paradox, hiệu ứng hiệu quả làm tăng tổng tiêu thụ) vẫn còn đó. Tôi nghĩ cuối cùng mọi người sẽ dùng hết tất cả sức mạnh tính toán có thể có.

Có thể hình dung hàng triệu Agent hợp tác, hoặc một nhóm Agent cùng suy nghĩ theo nhiều hướng rồi tổng hợp. Chúng tôi đang thử nghiệm các hướng này, tất cả đều sẽ tiêu tốn tài nguyên suy luận.

Về năng lượng, nếu chúng ta giải quyết được các vấn đề như nhiệt hạch kiểm soát, siêu dẫn ở nhiệt độ phòng, pin tối ưu, tôi nghĩ qua khoa học vật liệu, chi phí năng lượng sẽ gần như bằng không. Nhưng các bước liên quan đến chế tạo chip vật lý vẫn còn giới hạn, ít nhất trong vài thập kỷ tới. Vì vậy, giới hạn về phân bổ tài nguyên suy luận vẫn còn, cần tối ưu hiệu quả sử dụng.

Bước đột phá khoa học tiếp theo

Gary Tan: Thật may là các mô hình nhỏ ngày càng thông minh hơn. Trong số các nhà sáng lập lĩnh vực sinh học và công nghệ sinh học, AlphaFold 3 đã vượt qua protein, mở rộng ra các phân tử sinh học rộng hơn. Chúng ta còn xa mới mô hình hóa toàn bộ hệ thống tế bào? Đây có phải là một vấn đề hoàn toàn khác về độ khó?

Demis Hassabis: Isomorphic Labs tiến bộ rất tốt. AlphaFold chỉ là một phần trong quy trình phát hiện thuốc, chúng tôi còn nghiên cứu về hóa sinh liên quan, thiết kế hợp chất có đặc tính đúng đắn, sắp có công bố quan trọng.

Mục tiêu cuối cùng của chúng tôi là tạo ra một tế bào ảo hoàn chỉnh, mô phỏng toàn bộ chức năng, có thể tác động, đầu ra gần như phù hợp với kết quả thực nghiệm, và có ứng dụng thực tế. Bạn có thể bỏ qua nhiều bước tìm kiếm, tạo ra dữ liệu tổng hợp lớn để huấn luyện các mô hình khác dự đoán hành vi của tế bào thật.

Tôi ước lượng còn khoảng mười năm nữa mới có thể hoàn thiện một tế bào ảo đầy đủ. Chúng tôi bắt đầu từ nhân tế bào ảo, vì nhân tế bào là hệ thống tự chứa. Vấn đề then chốt là, có thể cắt ra một phần phức tạp phù hợp, đủ tự chứa, có thể ước lượng đầu vào đầu ra hợp lý, rồi tập trung vào phần hệ thống đó. Từ góc độ này, nhân tế bào rất phù hợp.

Một vấn đề khác là thiếu dữ liệu. Tôi đã nói chuyện với các nhà khoa học hàng đầu về kính hiển vi điện tử và các kỹ thuật hình ảnh khác. Nếu có thể chụp hình sống của tế bào mà không giết chết chúng, đó sẽ là bước đột phá. Vì như vậy, ta có thể chuyển thành một bài toán thị giác, và chúng ta biết cách giải bài toán này.

Nhưng theo tôi biết, hiện chưa có công nghệ nào chụp hình tế bào sống động ở độ phân giải nano mà không gây hại. Chụp hình tĩnh với độ phân giải đó đã rất tinh vi, rất đáng mừng, nhưng chưa đủ để biến thành một bài toán thị giác.

Có hai hướng, một là phần cứng và dữ liệu, hướng kia là xây dựng các mô phỏng học tốt hơn để mô phỏng các hệ động lực học này.

Gary Tan: Bạn không chỉ nhìn sinh học. Trong vật liệu, dược phẩm, khí hậu, toán học, nếu phải xếp thứ tự, lĩnh vực nào sẽ được cách mạng hóa sâu sắc nhất trong năm năm tới?

Demis Hassabis: Mỗi lĩnh vực đều rất thú vị, đó cũng là lý do tại sao tôi đam mê nhất, và là lý do tôi theo đuổi AI suốt hơn 30 năm. Tôi luôn nghĩ AI sẽ là công cụ khoa học tối thượng, giúp thúc đẩy hiểu biết khoa học, khám phá khoa học, y học, và nhận thức về vũ trụ của chúng ta.

Chúng tôi bắt đầu bằng cách chia sẻ sứ mệnh thành hai bước. Bước một, giải quyết trí tuệ, tức xây dựng AGI; bước hai, dùng nó để giải quyết mọi vấn đề khác. Sau đó, chúng tôi phải điều chỉnh lại lời nói, vì có người hỏi “Các bạn thực sự muốn giải quyết tất cả mọi vấn đề à?”

Chúng tôi thực sự có ý đó. Hiện tại mọi người bắt đầu hiểu rõ ý nghĩa của điều này. Cụ thể, tôi muốn đề cập đến việc giải quyết các “vấn đề gốc” trong khoa học, những lĩnh vực mà khi đột phá sẽ mở ra các nhánh khám phá mới hoàn toàn. Ví dụ như AlphaFold là nguyên mẫu của những gì chúng tôi muốn làm.

Hơn 3 triệu nhà nghiên cứu trên toàn cầu, gần như mọi nhà sinh học đều đang dùng AlphaFold. Tôi nghe từ các giám đốc điều hành các công ty dược phẩm rằng, trong tương lai, hầu như mọi loại thuốc mới đều sẽ dùng AlphaFold trong quá trình phát hiện thuốc. Chúng tôi tự hào về điều này, đó cũng là ảnh hưởng mà AI có thể tạo ra. Nhưng tôi nghĩ đó mới chỉ bắt đầu.

Tôi không thể nghĩ ra lĩnh vực khoa học hoặc kỹ thuật nào mà AI không thể giúp đỡ. Những lĩnh vực bạn đề cập, tôi nghĩ đều đang ở giai đoạn “AlphaFold 1”, đã rất khả quan, nhưng chưa vượt qua thử thách lớn nhất của lĩnh vực đó. Trong hai năm tới, chúng ta sẽ có nhiều tiến bộ trong tất cả các lĩnh vực này, từ vật liệu đến toán học.

Gary Tan: Cảm giác như thần Prometheus, mang lại khả năng mới cho nhân loại.

Demis Hassabis: Đúng vậy. Như câu chuyện của Prometheus, chúng ta cũng phải cẩn trọng với cách sử dụng khả năng này, những nơi nó được dùng, và rủi ro của việc lạm dụng cùng một bộ công cụ.

Kinh nghiệm thành công

Gary Tan: Nhiều người trong số các bạn đang cố gắng xây dựng các công ty ứng dụng AI vào khoa học. Theo bạn, các công ty khởi nghiệp tiên phong thực sự và các công ty chỉ dùng API của các mô hình nền tảng, tự xưng là “AI for Science”, khác nhau thế nào?

Demis Hassabis: Tôi nghĩ nếu hôm nay tôi ngồi ở vị trí của các bạn, xem các dự án tại Y Combinator, tôi sẽ làm gì. Một là bạn phải dự đoán xu hướng công nghệ AI, điều này rất khó. Nhưng tôi thực sự tin rằng, kết hợp AI với một lĩnh vực công nghệ sâu khác, có cơ hội lớn. Điểm giao nhau này, dù là vật liệu, y học hay các lĩnh vực khoa học khó thực sự, đặc biệt là liên quan đến thế giới nguyên tử, trong tương lai gần sẽ không có con đường tắt. Những lĩnh vực này sẽ không bị bỏ lại chỉ sau một lần cập nhật mô hình nền tảng. Nhưng nếu bạn muốn tìm hướng phòng thủ, tôi sẽ đề xuất.

Tôi luôn yêu thích công nghệ sâu. Những thứ bền vững và có giá trị thực sự không dễ dàng. Tôi luôn bị thu hút bởi công nghệ sâu. Khi bắt đầu vào năm 2010, AI đã là công nghệ sâu — nhà đầu tư nói “Chúng tôi đã biết điều này không khả thi”, giới học thuật cũng nghĩ đó là hướng nhỏ, thất bại trong thập niên 90.

Nhưng nếu bạn tin vào ý tưởng của mình — tại sao lần này lại khác, nền tảng của bạn có điểm đặc biệt gì — lý tưởng nhất là bạn phải là chuyên gia trong lĩnh vực học máy và ứng dụng, hoặc có thể xây dựng đội sáng lập như vậy — thì trong đó có thể tạo ra ảnh hưởng và giá trị lớn.

Gary Tan: Thông tin này rất quan trọng. Một khi thành công, mọi người sẽ thấy điều đó là đương nhiên, nhưng trước khi làm được, tất cả đều phản đối.

Demis Hassabis: Đương nhiên, bạn phải làm những điều bạn thực sự đam mê. Với tôi, dù xảy ra chuyện gì, tôi vẫn sẽ làm AI. Từ nhỏ tôi đã quyết định đây là điều ảnh hưởng lớn nhất tôi có thể làm. Thực tế đã chứng minh điều đó, nhưng cũng có thể là tôi đã đi trước 50 năm.

Và đó cũng là điều tôi thấy thú vị nhất. Ngay cả khi hôm nay chúng ta vẫn còn trong gara nhỏ, AI chưa thành công, tôi vẫn sẽ cố gắng tiếp tục. Có thể tôi sẽ quay lại học thuật, nhưng tôi sẽ tìm cách tiếp tục.

Gary Tan: AlphaFold là ví dụ về việc bạn đã theo đuổi một hướng, rồi đúng đắn. Điều gì làm cho một lĩnh vực khoa học phù hợp để tạo ra đột phá kiểu AlphaFold? Có quy luật nào, như một hàm mục tiêu đặc biệt chẳng hạn?

Demis Hassabis: Tôi thực sự nên dành thời gian viết ra điều này. Từ các dự án như AlphaGo, AlphaFold, tôi rút ra kinh nghiệm rằng, các công nghệ hiện tại hoạt động tốt nhất trong các điều kiện sau:

Thứ nhất, vấn đề có không gian tìm kiếm tổ hợp lớn, càng lớn càng tốt, đến mức không thể giải quyết bằng brute-force hay thuật toán đặc biệt nào. Không gian các nước đi của cờ vây, cấu hình protein đều vượt xa số nguyên tử trong vũ trụ. Thứ hai, có thể định nghĩa rõ ràng hàm mục tiêu, như năng lượng tự do của protein, hoặc chiến thắng trong cờ vây, để hệ thống có thể tối ưu theo gradient. Thứ ba, có đủ dữ liệu, hoặc có mô phỏng tạo ra dữ liệu tổng hợp phân phối lớn.

Nếu thỏa mãn ba điều này, các phương pháp hiện tại có thể đi xa, tìm ra “cái kim trong đống rơm”. Ví dụ như trong phát hiện thuốc, cũng dựa trên logic này: tồn tại hợp chất có thể chữa bệnh, không gây tác dụng phụ, miễn là theo luật vật lý, thì vấn đề là làm sao tìm ra nó một cách hiệu quả. AlphaFold lần đầu chứng minh rằng, trong không gian tìm kiếm khổng lồ, hệ thống có thể tìm ra “cái kim” đó.

Gary Tan: Tôi muốn nâng cấp câu hỏi. Chúng ta nói về con người dùng các phương pháp này để tạo ra AlphaFold, nhưng còn một cấp độ meta, đó là con người dùng AI để khám phá không gian giả thuyết tiềm năng. Chúng ta còn xa mới có hệ thống AI có thể làm lý luận khoa học thực sự (chứ không chỉ nhận dạng mẫu dữ liệu) bao xa?

Demis Hassabis: Tôi nghĩ rất gần rồi. Chúng tôi đang xây dựng các hệ thống chung. Có một hệ gọi là AI co-scientist, và các thuật toán như AlphaEvolve, có thể làm xa hơn những gì Gemini làm. Tất cả các phòng thí nghiệm tiên phong đều đang khám phá hướng này.

Nhưng cho đến

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
541.98K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.76M Phổ biến
#
IsraelStrikesIranBTCPlunges
39.58K Phổ biến
#
BitcoinETFOptionLimitQuadruples
1.02M Phổ biến
#
#FedHoldsRateButDividesDeepen
43.02K Phổ biến

Ghim

sơ đồ trang web

Phỏng vấn sáng lập DeepMind: Cấu trúc AGI, Tình hình của Agent và những đột phá khoa học trong thập kỷ tới

Chương trình biên tập

Những câu nói đỉnh cao

Lộ trình và thời gian của AGI

Nhớ và cửa sổ ngữ cảnh

Nhược điểm của suy luận

Agent và sáng tạo

Chưng cất và mô hình nhỏ

Phát hiện khoa học và “Kiểm tra Einstein”

Lời khuyên cho khởi nghiệp công nghệ sâu

Con đường đạt tới AGI

Chưng cất và mô hình nhỏ

Trí nhớ và suy luận

Khả năng thực sự của Agent

Mở nguồn và mô hình đa mô thức

Bước đột phá khoa học tiếp theo

Kinh nghiệm thành công

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim