Estratégia de contorno do Web3 AI: o caminho de desenvolvimento diferenciado sob barreiras multimodais

Análise das Tendências de Desenvolvimento da Web3 AI

As ações da Nvidia atingiram um novo recorde, o avanço dos modelos multimodais aprofundou a barreira tecnológica da IA do Web2. Desde o alinhamento semântico até a compreensão visual, desde a incorporação de alta dimensão até a fusão de características, modelos complexos estão integrando as várias formas de expressão a uma velocidade sem precedentes, construindo uma fortaleza de IA cada vez mais fechada. O mercado de ações dos EUA reagiu positivamente a isso, tanto as ações relacionadas a criptomoedas quanto as ações de IA mostraram um pequeno mercado em alta.

No entanto, esta onda parece não estar relacionada ao setor de criptomoedas. As tentativas recentes de Web3 AI, especialmente no desenvolvimento da direção de Agents, podem estar desviadas. Tentar montar um sistema modular multimodal no estilo Web2 com uma estrutura descentralizada é, na verdade, um desalinhamento tanto técnico quanto de pensamento. Hoje, com uma forte acoplabilidade dos módulos, uma distribuição de características altamente instável e uma demanda de poder computacional cada vez mais concentrada, a modularidade multimodal tem dificuldade em se firmar no Web3.

O futuro da Web3 AI não está na imitação, mas sim na estratégia de contorno. Desde o alinhamento semântico em espaços de alta dimensão, até o gargalo de informação nos mecanismos de atenção, e o alinhamento de características sob poder de computação heterogêneo, a Web3 AI precisa adotar a estratégia tática de " cercar as cidades a partir do campo."

Web3 AI baseado em modelos multimodais achatados, a dificuldade de alinhamento semântico resulta em desempenho inferior

Nos sistemas multimodais da moderna IA Web2, "alinhamento semântico" é o mapeamento de informações de diferentes modalidades para o mesmo espaço semântico, permitindo que o modelo entenda e compare os significados por trás de diferentes formas de sinal. Isso precisa ser realizado em um espaço de incorporação de alta dimensão, para que o fluxo de trabalho modular tenha significado.

No entanto, o protocolo Web3 Agent é difícil de implementar em embeddings de alta dimensão. A maioria dos Web3 Agents apenas encapsula APIs prontas, carecendo de um espaço de embedding central unificado e de um mecanismo de atenção entre módulos, resultando na incapacidade de interagir com a informação sob múltiplos ângulos, podendo apenas processar linearmente, dificultando a formação de uma otimização de ciclo fechado.

Exigir que a Web3 AI implemente um espaço de alta dimensão é o mesmo que exigir que o protocolo Agent desenvolva por conta própria todas as APIs envolvidas, o que vai contra sua intenção de modularidade. A arquitetura de alta dimensão necessita de um treinamento unificado de ponta a ponta ou de uma otimização colaborativa, enquanto a ideia de "módulo como plugin" do Web3 Agent agrava a fragmentação, aumentando os custos de manutenção e limitando o desempenho geral.

No espaço de baixa dimensão, o design do mecanismo de atenção é limitado

Modelos multimodais de alto nível requerem mecanismos de atenção projetados de forma precisa. O mecanismo de atenção é uma forma de alocar recursos computacionais de forma dinâmica, permitindo que o modelo, ao processar uma entrada de determinada modalidade, "foque" seletivamente nas partes mais relevantes.

O pré-requisito para o funcionamento do mecanismo de atenção é que a multimodalidade possua alta dimensão. Antes de explicar por que o mecanismo de atenção necessita de um espaço de alta dimensão, vamos entender o processo de design do mecanismo de atenção no Web2 AI, representado pelo decodificador Transformer. A ideia central é que, ao processar sequências, o modelo atribui dinamicamente "pesos de atenção" a cada elemento, permitindo que ele se concentre nas informações mais relevantes.

Query-Key-Value (Q-K-V) é um mecanismo para determinar informações-chave. Para modelos multimodais, a entrada pode ser texto, imagem ou áudio. Para recuperar o conteúdo necessário no espaço dimensional, essas entradas são cortadas em unidades mínimas, como caracteres, blocos de pixels ou quadros de áudio, e o modelo gera Q-K-V para calcular a atenção.

A programação de atenção unificada é difícil de alcançar em Web3 AI baseada em módulos. As principais razões incluem:

  1. O mecanismo de atenção depende de um espaço Q-K-V unificado, enquanto o formato e a distribuição dos dados retornados pela API independente são variados, dificultando a formação de uma camada de incorporação unificada.

  2. A atenção de múltiplos cabeçotes permite focar em diferentes fontes de informação em paralelo, enquanto as APIs independentes geralmente são chamadas de forma linear, carecendo de capacidade de ponderação dinâmica em múltiplas direções.

  3. O verdadeiro mecanismo de atenção baseia-se na atribuição dinâmica de pesos ao contexto global, enquanto no modo API os módulos só conseguem ver contextos independentes, dificultando a realização de associações globais entre módulos.

Assim, não é possível construir uma capacidade de "agendamento de atenção unificada" como a do Transformer apenas encapsulando funcionalidades em APIs discretas.

Módulos discretos de montagem, fusão de características permanece em uma montagem estática superficial

"Fusão de características" é a combinação de vetores de características processados por diferentes modalidades, com base em alinhamento e atenção, para uso em tarefas subsequentes. Os métodos de fusão podem ser simples, como concatenação e soma ponderada, ou complexos, como pooling bilinear, decomposição de tensores ou técnicas de roteamento dinâmico.

Web3 AI está, sem dúvida, ainda na fase mais simples de concatenação, porque a fusão de características dinâmicas pressupõe um espaço de alta dimensão e um mecanismo de atenção preciso. Quando essas condições não estão presentes, a fusão de características não pode, naturalmente, alcançar um desempenho ideal.

A IA do Web2 tende a treinamento conjunto de ponta a ponta, processando todas as características de múltiplos modos no mesmo espaço de alta dimensão, otimizando colaborativamente através de camadas de atenção e fusão com as camadas de tarefas subsequentes. Já a IA do Web3 adota mais a montagem de módulos discretos, encapsulando vários APIs como Agentes independentes, e depois simplesmente juntando suas saídas, carecendo de um objetivo de treinamento unificado e de fluxo de gradiente entre módulos.

A IA Web2 baseia-se no mecanismo de atenção, podendo calcular em tempo real a importância das características com base no contexto e ajustar dinamicamente a estratégia de fusão. A IA Web3, por outro lado, muitas vezes fixa previamente os pesos ou utiliza regras simples para determinar se a fusão deve ocorrer, carecendo de flexibilidade.

A IA do Web2 mapeia todas as características de modalidade para um espaço de alta dimensão, e o processo de fusão inclui várias operações de interação de alta ordem. Em contraste, a IA do Web3 geralmente tem as saídas de cada agente contendo apenas alguns campos-chave, com uma dimensão de características extremamente baixa, tornando difícil expressar associações complexas entre modalidades.

Barreiras da indústria de IA se aprofundam, mas pontos de dor ainda não se manifestaram

O sistema multimodal de IA do Web2 é um projeto de engenharia extremamente grande, que requer conjuntos de dados massivos e diversificados, poder computacional em larga escala, design de rede avançado, implementação de engenharia complexa e pesquisa contínua em algoritmos. Isso cria uma barreira industrial muito forte, além de constituir a competência central de algumas equipes líderes.

Web3 AI precisa adotar uma tática de "cercar as cidades a partir do campo" para se desenvolver. Seu núcleo reside na descentralização, e o caminho de evolução se manifesta em alta paralelização, baixo acoplamento e compatibilidade com poder computacional heterogêneo. Isso faz com que Web3 AI tenha mais vantagens em cenários como computação em borda, sendo adequado para estruturas leves, tarefas de fácil paralelização e que podem ser incentivadas.

No entanto, as barreiras da IA Web2 estão apenas começando a se formar, esta é a fase inicial da concorrência entre as principais empresas. Somente quando os benefícios da IA Web2 desaparecerem quase por completo, as dores remanescentes serão a oportunidade para a IA Web3 se inserir. Antes disso, a IA Web3 ainda precisa acumular experiência em cenários periféricos, mantendo a flexibilidade para lidar com barreiras e dores potenciais em constante mudança.

AGENT-0.62%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • Partilhar
Comentar
0/400
LeekCuttervip
· 07-28 18:59
fazer as pessoas de parvas就完事了 跟着市场炒高买入
Ver originalResponder0
GateUser-aa7df71evip
· 07-28 18:52
Esta onda de pico de IA atingiu o topo. Espera-se um big dump para entrar numa posição.
Ver originalResponder0
CryptoCross-TalkClubvip
· 07-27 08:49
Outra vez a fazer tecnologia avançada, parece que desta vez os idiotas vão cair de uma nova forma.
Ver originalResponder0
Lonely_Validatorvip
· 07-26 01:41
Esta onda do web3 parece um pouco ilusória.
Ver originalResponder0
LiquidityWizardvip
· 07-25 19:47
estatisticamente falando, a barreira da nvidia está alcançando uma eficiência assintótica máxima... o pessoal do web3 ainda não entende isso smh
Ver originalResponder0
TokenTherapistvip
· 07-25 19:46
Puf, quanto é que a nvidia já ganhou?
Ver originalResponder0
NoodlesOrTokensvip
· 07-25 19:38
O velho Huang acertou de novo.
Ver originalResponder0
MemecoinResearchervip
· 07-25 19:36
fr tho... gpu gang a comer bem enquanto nós ficamos ngmi no web3
Ver originalResponder0
wagmi_eventuallyvip
· 07-25 19:28
É mais uma bull run de outra pessoa.
Ver originalResponder0
Ver mais
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)