Giá cổ phiếu của Nvidia đạt mức cao kỷ lục mới, những tiến bộ trong mô hình đa phương thức đã làm sâu sắc thêm rào cản công nghệ của AI Web2. Từ sự căn chỉnh ngữ nghĩa đến hiểu biết thị giác, từ nhúng chiều cao đến tích hợp đặc trưng, các mô hình phức tạp đang tích hợp các hình thức biểu đạt khác nhau với tốc độ chưa từng có, xây dựng nên một đỉnh cao AI ngày càng khép kín. Thị trường chứng khoán Mỹ phản ứng tích cực với điều này, cho dù là cổ phiếu liên quan đến tiền điện tử hay cổ phiếu AI đều thể hiện một xu hướng thị trường bò nhỏ.
Tuy nhiên, làn sóng này dường như không liên quan đến lĩnh vực tiền điện tử. Những nỗ lực gần đây trong Web3 AI, đặc biệt là sự phát triển theo hướng Agent, có thể gặp phải sai lệch về hướng đi. Việc cố gắng lắp ráp một hệ thống mô-đun đa phương thức theo kiểu Web2 bằng cấu trúc phi tập trung thực ra là một sự sai lệch kép về công nghệ và tư duy. Trong bối cảnh các mô-đun có tính kết hợp rất cao, phân bố đặc trưng không ổn định cao và nhu cầu tính toán ngày càng tập trung, mô-đun đa phương thức khó có thể đứng vững trong Web3.
Tương lai của Web3 AI không nằm ở việc bắt chước, mà ở việc chiến lược đi vòng. Từ sự đồng nhất ngữ nghĩa trong không gian cao chiều, đến nút thắt thông tin trong cơ chế chú ý, và đến sự đồng nhất đặc trưng dưới sức mạnh tính toán không đồng nhất, Web3 AI cần áp dụng chiến lược "nông thôn bao vây thành phố".
Web3 AI dựa trên mô hình đa phương thức phẳng, khó khăn trong việc căn chỉnh ngữ nghĩa dẫn đến hiệu suất thấp
Trong hệ thống đa phương thức AI Web2 hiện đại, "căn chỉnh ngữ nghĩa" là việc ánh xạ thông tin từ các phương thức khác nhau vào cùng một không gian ngữ nghĩa, giúp mô hình hiểu và so sánh ý nghĩa của các tín hiệu ở hình thức khác nhau. Điều này cần được thực hiện trong không gian nhúng nhiều chiều để các quy trình làm việc theo mô-đun có ý nghĩa.
Tuy nhiên, giao thức Web3 Agent khó có thể thực hiện nhúng không gian chiều cao. Hầu hết các Web3 Agent chỉ đóng gói API có sẵn, thiếu không gian nhúng trung tâm thống nhất và cơ chế chú ý đa mô-đun, dẫn đến thông tin không thể tương tác từ nhiều góc độ, chỉ có thể xử lý tuyến tính, khó có thể hình thành tối ưu hóa vòng khép kín tổng thể.
Yêu cầu Web3 AI thực hiện không gian đa chiều, tương đương với yêu cầu giao thức Agent tự phát triển tất cả các API liên quan, điều này đi ngược lại với mục đích mô-đun ban đầu của nó. Kiến trúc đa chiều cần đào tạo thống nhất từ đầu đến cuối hoặc tối ưu hóa hợp tác, tư duy "mô-đun là plugin" của Web3 Agent lại làm tăng tính phân mảnh, dẫn đến chi phí bảo trì tăng vọt, hiệu suất tổng thể bị hạn chế.
Trong không gian chiều thấp, thiết kế cơ chế chú ý bị hạn chế
Mô hình đa phương thức ở mức cao cần cơ chế chú ý được thiết kế tinh xảo. Cơ chế chú ý là cách phân bổ tài nguyên tính toán một cách động, cho phép mô hình khi xử lý đầu vào của một phương thức nào đó có thể "tập trung" chọn lọc vào những phần liên quan nhất.
Điều kiện để cơ chế chú ý hoạt động là đa mô hình phải có độ chiều cao. Trước khi giải thích tại sao cơ chế chú ý cần không gian độ chiều cao, chúng ta hãy tìm hiểu quy trình thiết kế cơ chế chú ý của AI Web2, đại diện là bộ giải mã Transformer. Ý tưởng cốt lõi là trong quá trình xử lý chuỗi, mô hình phân bổ "trọng số chú ý" một cách động cho mỗi yếu tố, để nó tập trung vào thông tin liên quan nhất.
Query-Key-Value (Q-K-V) là cơ chế xác định thông tin chính. Đối với các mô hình đa phương thức, đầu vào có thể là văn bản, hình ảnh hoặc âm thanh. Để truy xuất nội dung cần thiết trong không gian chiều, các đầu vào này sẽ được cắt thành các đơn vị nhỏ nhất, chẳng hạn như ký tự, khối pixel hoặc khung âm thanh, mô hình sẽ tạo ra Q-K-V cho các đơn vị này để thực hiện tính toán chú ý.
Việc lập lịch chú ý thống nhất trong Web3 AI dựa trên mô-đun là rất khó thực hiện. Các lý do chính bao gồm:
Cơ chế chú ý phụ thuộc vào không gian Q-K-V thống nhất, trong khi định dạng và phân bố dữ liệu trả về từ API độc lập rất khác nhau, khó có thể tạo thành lớp nhúng thống nhất.
Chú ý đa đầu cho phép tập trung đồng thời vào các nguồn thông tin khác nhau, trong khi API độc lập thường gọi theo tuyến tính, thiếu khả năng song song và trọng số động đa đường.
Cơ chế chú ý thực sự dựa trên việc phân bổ trọng số động theo bối cảnh tổng thể, trong mô hình API, các mô-đun chỉ có thể nhìn thấy bối cảnh độc lập, khó có thể thực hiện mối liên hệ toàn cầu giữa các mô-đun.
Do đó, chỉ dựa vào việc đóng gói các chức năng thành các API rời rạc, không thể xây dựng khả năng "lập lịch chú ý thống nhất" như Transformer.
Mô đun rời rạc, tích hợp đặc trưng dừng lại ở việc ghép tĩnh nông.
"Hợp nhất đặc trưng" là việc kết hợp các vectơ đặc trưng đã được xử lý từ các mô hình khác nhau dựa trên căn cứ căn chỉnh và chú ý, để phục vụ cho các nhiệm vụ tiếp theo. Phương pháp hợp nhất có thể đơn giản như ghép nối, tính tổng có trọng số, hoặc phức tạp như tổng hợp song tuyến tính, phân tích tensor hoặc công nghệ định tuyến động.
Web3 AI chắc chắn vẫn chỉ dừng lại ở giai đoạn ghép nối đơn giản nhất, vì điều kiện tiên quyết cho việc hòa trộn đặc trưng động là không gian bậc cao và cơ chế chú ý tinh vi. Khi những điều kiện này không được đáp ứng, việc hòa trộn đặc trưng tự nhiên sẽ không đạt hiệu suất lý tưởng.
Web2 AI có xu hướng huấn luyện liên hợp đầu-cuối, xử lý tất cả các đặc trưng mô hình trong cùng một không gian chiều cao, tối ưu hóa phối hợp với các lớp nhiệm vụ hạ nguồn thông qua lớp chú ý và lớp hợp nhất. Trong khi đó, Web3 AI thường áp dụng việc ghép nối các mô-đun rời rạc, đóng gói các API khác nhau thành các Agent độc lập, sau đó đơn giản ghép lại đầu ra của chúng, thiếu mục tiêu huấn luyện thống nhất và dòng gradient giữa các mô-đun.
Web2 AI dựa vào cơ chế chú ý, có thể tính toán tầm quan trọng của các đặc điểm theo ngữ cảnh và điều chỉnh chiến lược kết hợp một cách linh hoạt trong thời gian thực. Web3 AI thường cố định trọng số trước hoặc sử dụng các quy tắc đơn giản để xác định xem có nên kết hợp hay không, thiếu tính linh hoạt.
Web2 AI ánh xạ tất cả các đặc trưng mô hình vào không gian chiều cao, quá trình tích hợp bao gồm nhiều thao tác tương tác bậc cao. So với điều đó, Agent của Web3 AI thường chỉ xuất ra một vài trường khóa, chiều đặc trưng cực kỳ thấp, khó diễn đạt các mối liên hệ chéo phức tạp.
Rào cản ngành AI ngày càng gia tăng, nhưng các điểm đau vẫn chưa xuất hiện
Hệ thống đa phương thức AI Web2 là một dự án kỹ thuật cực kỳ lớn, cần một lượng lớn dữ liệu đa dạng, sức mạnh tính toán quy mô lớn, thiết kế mạng tiên tiến, thực hiện kỹ thuật phức tạp và nghiên cứu phát triển thuật toán liên tục. Điều này tạo ra rào cản ngành nghề rất mạnh, cũng như tạo ra năng lực cạnh tranh cốt lõi của một số đội ngũ dẫn đầu.
Web3 AI cần áp dụng chiến thuật "nông thôn bao vây thành phố" để phát triển. Cốt lõi của nó là phi tập trung, con đường tiến hóa thể hiện ở tính song song cao, độ liên kết thấp và khả năng tương thích với tính toán đa dạng. Điều này khiến Web3 AI có lợi thế hơn trong các tình huống như tính toán biên, phù hợp với cấu trúc nhẹ, dễ song song và nhiệm vụ có thể khuyến khích.
Tuy nhiên, rào cản của Web2 AI mới chỉ bắt đầu hình thành, đây là giai đoạn đầu của cuộc cạnh tranh giữa các doanh nghiệp hàng đầu. Chỉ khi nào lợi ích của Web2 AI biến mất hoàn toàn, những điểm đau mà nó để lại mới là cơ hội để Web3 AI tham gia. Trước đó, Web3 AI cần tích lũy kinh nghiệm trong các tình huống biên, duy trì tính linh hoạt để đối phó với các rào cản và điểm đau tiềm ẩn đang thay đổi.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
20 thích
Phần thưởng
20
9
Chia sẻ
Bình luận
0/400
LeekCutter
· 07-28 18:59
chơi đùa với mọi người就完事了 跟着市场炒高买入
Xem bản gốcTrả lời0
GateUser-aa7df71e
· 07-28 18:52
Đợt đỉnh cao AI này đã đến lúc, hãy chờ bán phá giá lớn rồi nhập một vị thế.
Xem bản gốcTrả lời0
CryptoCross-TalkClub
· 07-27 08:49
Lại đang làm công nghệ đen, có vẻ như đợt này đồ ngốc sẽ phải giảm theo một cách khác.
Xem bản gốcTrả lời0
Lonely_Validator
· 07-26 01:41
Cơn sốt web3 này có vẻ hơi ảo.
Xem bản gốcTrả lời0
LiquidityWizard
· 07-25 19:47
nói một cách thống kê, rào cản của nvidia đang đạt đến hiệu suất tiệm cận tối đa... những người trong web3 vẫn không hiểu điều đó thật đáng tiếc
Xem bản gốcTrả lời0
TokenTherapist
· 07-25 19:46
噗 nvidia đã vào bao nhiêu tiền rồi
Xem bản gốcTrả lời0
NoodlesOrTokens
· 07-25 19:38
Ông Lão Hoàng lại làm đúng rồi.
Xem bản gốcTrả lời0
MemecoinResearcher
· 07-25 19:36
fr tho... nhóm gpu ăn ngon trong khi chúng ta vẫn ngmi trên web3
Chiến lược vòng vo AI Web3: Con đường phát triển khác biệt dưới rào cản đa phương thức
Phân tích xu hướng phát triển Web3 AI
Giá cổ phiếu của Nvidia đạt mức cao kỷ lục mới, những tiến bộ trong mô hình đa phương thức đã làm sâu sắc thêm rào cản công nghệ của AI Web2. Từ sự căn chỉnh ngữ nghĩa đến hiểu biết thị giác, từ nhúng chiều cao đến tích hợp đặc trưng, các mô hình phức tạp đang tích hợp các hình thức biểu đạt khác nhau với tốc độ chưa từng có, xây dựng nên một đỉnh cao AI ngày càng khép kín. Thị trường chứng khoán Mỹ phản ứng tích cực với điều này, cho dù là cổ phiếu liên quan đến tiền điện tử hay cổ phiếu AI đều thể hiện một xu hướng thị trường bò nhỏ.
Tuy nhiên, làn sóng này dường như không liên quan đến lĩnh vực tiền điện tử. Những nỗ lực gần đây trong Web3 AI, đặc biệt là sự phát triển theo hướng Agent, có thể gặp phải sai lệch về hướng đi. Việc cố gắng lắp ráp một hệ thống mô-đun đa phương thức theo kiểu Web2 bằng cấu trúc phi tập trung thực ra là một sự sai lệch kép về công nghệ và tư duy. Trong bối cảnh các mô-đun có tính kết hợp rất cao, phân bố đặc trưng không ổn định cao và nhu cầu tính toán ngày càng tập trung, mô-đun đa phương thức khó có thể đứng vững trong Web3.
Tương lai của Web3 AI không nằm ở việc bắt chước, mà ở việc chiến lược đi vòng. Từ sự đồng nhất ngữ nghĩa trong không gian cao chiều, đến nút thắt thông tin trong cơ chế chú ý, và đến sự đồng nhất đặc trưng dưới sức mạnh tính toán không đồng nhất, Web3 AI cần áp dụng chiến lược "nông thôn bao vây thành phố".
Web3 AI dựa trên mô hình đa phương thức phẳng, khó khăn trong việc căn chỉnh ngữ nghĩa dẫn đến hiệu suất thấp
Trong hệ thống đa phương thức AI Web2 hiện đại, "căn chỉnh ngữ nghĩa" là việc ánh xạ thông tin từ các phương thức khác nhau vào cùng một không gian ngữ nghĩa, giúp mô hình hiểu và so sánh ý nghĩa của các tín hiệu ở hình thức khác nhau. Điều này cần được thực hiện trong không gian nhúng nhiều chiều để các quy trình làm việc theo mô-đun có ý nghĩa.
Tuy nhiên, giao thức Web3 Agent khó có thể thực hiện nhúng không gian chiều cao. Hầu hết các Web3 Agent chỉ đóng gói API có sẵn, thiếu không gian nhúng trung tâm thống nhất và cơ chế chú ý đa mô-đun, dẫn đến thông tin không thể tương tác từ nhiều góc độ, chỉ có thể xử lý tuyến tính, khó có thể hình thành tối ưu hóa vòng khép kín tổng thể.
Yêu cầu Web3 AI thực hiện không gian đa chiều, tương đương với yêu cầu giao thức Agent tự phát triển tất cả các API liên quan, điều này đi ngược lại với mục đích mô-đun ban đầu của nó. Kiến trúc đa chiều cần đào tạo thống nhất từ đầu đến cuối hoặc tối ưu hóa hợp tác, tư duy "mô-đun là plugin" của Web3 Agent lại làm tăng tính phân mảnh, dẫn đến chi phí bảo trì tăng vọt, hiệu suất tổng thể bị hạn chế.
Trong không gian chiều thấp, thiết kế cơ chế chú ý bị hạn chế
Mô hình đa phương thức ở mức cao cần cơ chế chú ý được thiết kế tinh xảo. Cơ chế chú ý là cách phân bổ tài nguyên tính toán một cách động, cho phép mô hình khi xử lý đầu vào của một phương thức nào đó có thể "tập trung" chọn lọc vào những phần liên quan nhất.
Điều kiện để cơ chế chú ý hoạt động là đa mô hình phải có độ chiều cao. Trước khi giải thích tại sao cơ chế chú ý cần không gian độ chiều cao, chúng ta hãy tìm hiểu quy trình thiết kế cơ chế chú ý của AI Web2, đại diện là bộ giải mã Transformer. Ý tưởng cốt lõi là trong quá trình xử lý chuỗi, mô hình phân bổ "trọng số chú ý" một cách động cho mỗi yếu tố, để nó tập trung vào thông tin liên quan nhất.
Query-Key-Value (Q-K-V) là cơ chế xác định thông tin chính. Đối với các mô hình đa phương thức, đầu vào có thể là văn bản, hình ảnh hoặc âm thanh. Để truy xuất nội dung cần thiết trong không gian chiều, các đầu vào này sẽ được cắt thành các đơn vị nhỏ nhất, chẳng hạn như ký tự, khối pixel hoặc khung âm thanh, mô hình sẽ tạo ra Q-K-V cho các đơn vị này để thực hiện tính toán chú ý.
Việc lập lịch chú ý thống nhất trong Web3 AI dựa trên mô-đun là rất khó thực hiện. Các lý do chính bao gồm:
Cơ chế chú ý phụ thuộc vào không gian Q-K-V thống nhất, trong khi định dạng và phân bố dữ liệu trả về từ API độc lập rất khác nhau, khó có thể tạo thành lớp nhúng thống nhất.
Chú ý đa đầu cho phép tập trung đồng thời vào các nguồn thông tin khác nhau, trong khi API độc lập thường gọi theo tuyến tính, thiếu khả năng song song và trọng số động đa đường.
Cơ chế chú ý thực sự dựa trên việc phân bổ trọng số động theo bối cảnh tổng thể, trong mô hình API, các mô-đun chỉ có thể nhìn thấy bối cảnh độc lập, khó có thể thực hiện mối liên hệ toàn cầu giữa các mô-đun.
Do đó, chỉ dựa vào việc đóng gói các chức năng thành các API rời rạc, không thể xây dựng khả năng "lập lịch chú ý thống nhất" như Transformer.
Mô đun rời rạc, tích hợp đặc trưng dừng lại ở việc ghép tĩnh nông.
"Hợp nhất đặc trưng" là việc kết hợp các vectơ đặc trưng đã được xử lý từ các mô hình khác nhau dựa trên căn cứ căn chỉnh và chú ý, để phục vụ cho các nhiệm vụ tiếp theo. Phương pháp hợp nhất có thể đơn giản như ghép nối, tính tổng có trọng số, hoặc phức tạp như tổng hợp song tuyến tính, phân tích tensor hoặc công nghệ định tuyến động.
Web3 AI chắc chắn vẫn chỉ dừng lại ở giai đoạn ghép nối đơn giản nhất, vì điều kiện tiên quyết cho việc hòa trộn đặc trưng động là không gian bậc cao và cơ chế chú ý tinh vi. Khi những điều kiện này không được đáp ứng, việc hòa trộn đặc trưng tự nhiên sẽ không đạt hiệu suất lý tưởng.
Web2 AI có xu hướng huấn luyện liên hợp đầu-cuối, xử lý tất cả các đặc trưng mô hình trong cùng một không gian chiều cao, tối ưu hóa phối hợp với các lớp nhiệm vụ hạ nguồn thông qua lớp chú ý và lớp hợp nhất. Trong khi đó, Web3 AI thường áp dụng việc ghép nối các mô-đun rời rạc, đóng gói các API khác nhau thành các Agent độc lập, sau đó đơn giản ghép lại đầu ra của chúng, thiếu mục tiêu huấn luyện thống nhất và dòng gradient giữa các mô-đun.
Web2 AI dựa vào cơ chế chú ý, có thể tính toán tầm quan trọng của các đặc điểm theo ngữ cảnh và điều chỉnh chiến lược kết hợp một cách linh hoạt trong thời gian thực. Web3 AI thường cố định trọng số trước hoặc sử dụng các quy tắc đơn giản để xác định xem có nên kết hợp hay không, thiếu tính linh hoạt.
Web2 AI ánh xạ tất cả các đặc trưng mô hình vào không gian chiều cao, quá trình tích hợp bao gồm nhiều thao tác tương tác bậc cao. So với điều đó, Agent của Web3 AI thường chỉ xuất ra một vài trường khóa, chiều đặc trưng cực kỳ thấp, khó diễn đạt các mối liên hệ chéo phức tạp.
Rào cản ngành AI ngày càng gia tăng, nhưng các điểm đau vẫn chưa xuất hiện
Hệ thống đa phương thức AI Web2 là một dự án kỹ thuật cực kỳ lớn, cần một lượng lớn dữ liệu đa dạng, sức mạnh tính toán quy mô lớn, thiết kế mạng tiên tiến, thực hiện kỹ thuật phức tạp và nghiên cứu phát triển thuật toán liên tục. Điều này tạo ra rào cản ngành nghề rất mạnh, cũng như tạo ra năng lực cạnh tranh cốt lõi của một số đội ngũ dẫn đầu.
Web3 AI cần áp dụng chiến thuật "nông thôn bao vây thành phố" để phát triển. Cốt lõi của nó là phi tập trung, con đường tiến hóa thể hiện ở tính song song cao, độ liên kết thấp và khả năng tương thích với tính toán đa dạng. Điều này khiến Web3 AI có lợi thế hơn trong các tình huống như tính toán biên, phù hợp với cấu trúc nhẹ, dễ song song và nhiệm vụ có thể khuyến khích.
Tuy nhiên, rào cản của Web2 AI mới chỉ bắt đầu hình thành, đây là giai đoạn đầu của cuộc cạnh tranh giữa các doanh nghiệp hàng đầu. Chỉ khi nào lợi ích của Web2 AI biến mất hoàn toàn, những điểm đau mà nó để lại mới là cơ hội để Web3 AI tham gia. Trước đó, Web3 AI cần tích lũy kinh nghiệm trong các tình huống biên, duy trì tính linh hoạt để đối phó với các rào cản và điểm đau tiềm ẩn đang thay đổi.