Web3 AI Stratégies de contournement : le chemin du développement différencié sous des barrières multimodales

Analyse des tendances de développement de l'IA Web3

Le prix des actions d'NVIDIA atteint un nouveau sommet, les progrès des modèles multimodaux approfondissent la barrière technologique de l'IA Web2. De l'alignement sémantique à la compréhension visuelle, de l'incorporation en haute dimension à la fusion des caractéristiques, des modèles complexes intègrent à une vitesse sans précédent diverses modalités d'expression, construisant un bastion de l'IA de plus en plus fermé. Le marché boursier américain réagit positivement, que ce soit pour les actions liées aux cryptomonnaies ou les actions d'IA, affichant un léger marché haussier.

Cependant, cette vague semble être sans rapport avec le domaine des crypto-monnaies. Les récentes tentatives de Web3 AI, en particulier dans le développement du domaine des Agents, pourraient être mal orientées. Essayer de construire un système modulaire multimodal à la manière de Web2 avec une structure décentralisée représente en réalité un double décalage technique et de pensée. Dans un contexte où la couplage des modules est extrêmement fort, la distribution des caractéristiques est très instable et la demande en puissance de calcul devient de plus en plus concentrée, le modulaire multimodal a du mal à s'implanter dans Web3.

L'avenir de l'IA Web3 ne réside pas dans l'imitation, mais dans une stratégie de contournement. De l'alignement sémantique dans l'espace à haute dimension, à la goulotte d'information dans le mécanisme d'attention, jusqu'à l'alignement des caractéristiques sous une puissance de calcul hétérogène, l'IA Web3 doit adopter une stratégie tactique de "l'entourer les villes par la campagne".

Web3 AI basé sur un modèle multimodal aplati, les difficultés d'alignement sémantique entraînent de faibles performances

Dans les systèmes multimodaux de l'IA Web2 moderne, "l'alignement sémantique" est le processus de cartographie des informations provenant de différentes modalités dans un même espace sémantique, permettant au modèle de comprendre et de comparer les significations derrière des signaux de formes différentes. Cela nécessite d'être réalisé dans un espace d'embedding de haute dimension pour que le flux de travail soit significatif par module.

Cependant, le protocole Web3 Agent a du mal à réaliser des embeddings de haute dimension. La plupart des Web3 Agents ne font que encapsuler des API prêtes à l'emploi, manquant d'un espace d'embedding centralisé unifié et d'un mécanisme d'attention inter-modules, ce qui empêche les informations d'interagir sous plusieurs angles, ne pouvant être traitées que de manière linéaire, rendant difficile la formation d'une optimisation globale en boucle fermée.

Exiger que l'IA Web3 réalise un espace à haute dimension équivaut à demander au protocole Agent de développer lui-même toutes les interfaces API impliquées, ce qui va à l'encontre de son intention de modularité. L'architecture à haute dimension nécessite un entraînement unifié de bout en bout ou une optimisation collaborative, tandis que la pensée "module équivaut à plugin" de l'Agent Web3 aggrave la fragmentation, entraînant une augmentation des coûts de maintenance et limitant les performances globales.

Dans un espace de faible dimension, la conception du mécanisme d'attention est limitée.

Les modèles multimodaux de haut niveau nécessitent des mécanismes d'attention soigneusement conçus. Le mécanisme d'attention est une méthode pour allouer dynamiquement des ressources de calcul, permettant au modèle de "se concentrer" sélectivement sur les parties les plus pertinentes lors du traitement d'une entrée d'une certaine modalité.

Le mécanisme d'attention fonctionne sur la condition que les multimodalités possèdent une haute dimension. Avant d'expliquer pourquoi le mécanisme d'attention nécessite un espace de haute dimension, comprenons d'abord le processus de conception du mécanisme d'attention dans l'IA Web2, représenté par le décodeur Transformer. L'idée principale est qu'en traitant des séquences, le modèle attribue dynamiquement un "poids d'attention" à chaque élément, lui permettant de se concentrer sur les informations les plus pertinentes.

Query-Key-Value (Q-K-V) est un mécanisme pour déterminer les informations clés. Pour les modèles multimodaux, les entrées peuvent être du texte, des images ou de l'audio. Afin de récupérer le contenu requis dans l'espace dimensionnel, ces entrées sont découpées en unités minimales, telles que des caractères, des blocs de pixels ou des trames audio, le modèle génère des Q-K-V pour effectuer des calculs d'attention.

La planification d'attention unifiée est difficile à réaliser avec une IA Web3 modulaire. Les principales raisons incluent :

  1. Le mécanisme d'attention repose sur un espace Q-K-V unifié, tandis que les formats et distributions des données retournées par les API indépendants varient, rendant difficile la formation d'une couche d'intégration unifiée.

  2. L'attention multi-tête permet de se concentrer simultanément sur différentes sources d'information, tandis que les API indépendantes sont généralement appelées de manière linéaire, manquant de capacités de parallélisme et de pondération dynamique multi-route.

  3. Le véritable mécanisme d'attention attribue dynamiquement des poids en fonction du contexte global, alors que dans le mode API, les modules ne peuvent voir que des contextes indépendants, ce qui rend difficile la réalisation d'associations globales entre les modules.

Ainsi, il n'est pas possible de construire une capacité de "planification d'attention unifiée" comme celle du Transformer simplement en encapsulant des fonctions en API discrètes.

Modules discrets modulaires, fusion des caractéristiques restée dans un assemblage statique peu profond

"Fusion de caractéristiques" est une combinaison de vecteurs de caractéristiques traités par différentes modalités, basée sur l'alignement et l'attention, pour une utilisation dans des tâches en aval. Les moyens de fusion peuvent être simples comme la concaténation ou la somme pondérée, ou plus complexes comme la poolisation bilinéaire, la décomposition tensorielle ou les techniques de routage dynamique.

Web3 AI est bien sûr encore au stade le plus simple de l'assemblage, car la fusion des caractéristiques dynamiques nécessite un espace de haute dimension et un mécanisme d'attention précis. Lorsque ces conditions ne sont pas réunies, la fusion des caractéristiques ne peut naturellement pas atteindre des performances idéales.

L'IA Web2 a tendance à s'entraîner conjointement de bout en bout, traitant toutes les caractéristiques des modalités dans le même espace de haute dimension, en optimisant de manière collaborative avec les couches d'attention et de fusion dans les couches de tâches en aval. En revanche, l'IA Web3 adopte davantage une approche de modules discrets assemblés, en encapsulant divers API en agents indépendants, puis en assemblant simplement leurs sorties, ce qui manque d'un objectif d'entraînement unifié et d'un flux de gradient intermodulaire.

L'IA Web2 s'appuie sur un mécanisme d'attention, capable de calculer en temps réel l'importance des caractéristiques en fonction du contexte et d'ajuster dynamiquement la stratégie de fusion. L'IA Web3, en revanche, fixe souvent à l'avance les poids ou utilise des règles simples pour déterminer s'il faut fusionner, manquant ainsi de flexibilité.

L'IA Web2 mappe toutes les caractéristiques des modalités dans un espace de haute dimension, le processus de fusion comprend diverses opérations d'interaction de haut niveau. En revanche, les sorties des agents Web3 contiennent souvent seulement quelques champs clés, la dimension des caractéristiques est très faible, ce qui rend difficile l'expression de relations complexes intermodales.

Les barrières dans l'industrie de l'IA se renforcent, mais les points de douleur ne sont pas encore apparus

Le système multimodal de l'IA Web2 est un projet d'ingénierie extrêmement vaste, nécessitant des ensembles de données massifs et diversifiés, une puissance de calcul à grande échelle, une conception réseau avancée, une mise en œuvre d'ingénierie complexe et un développement continu d'algorithmes. Cela constitue une barrière industrielle très forte et forge la compétitivité de base de quelques équipes de pointe.

Web3 AI doit adopter une stratégie de "l'encerclement des villes par les campagnes" pour se développer. Son cœur réside dans la décentralisation, et son chemin d'évolution se manifeste par une haute parallélisation, un faible couplage et une compatibilité des puissances de calcul hétérogènes. Cela confère à Web3 AI un avantage dans des scénarios comme le calcul en périphérie, adapté à des structures légères, des tâches facilement parallélisables et incitatives.

Cependant, les barrières de l'IA Web2 ne font que commencer à se former, c'est une phase précoce de la concurrence entre les grandes entreprises. Ce n'est que lorsque les bénéfices de l'IA Web2 s'estompent presque totalement que les points de douleur qu'elle laisse derrière elle deviendront des opportunités pour l'IA Web3. Avant cela, l'IA Web3 doit encore accumuler de l'expérience dans des scénarios périphériques et rester flexible pour faire face aux barrières et points de douleur potentiels en constante évolution.

AGENT-2.32%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • Partager
Commentaire
0/400
LeekCuttervip
· 07-28 18:59
prendre les gens pour des idiots, suivre le marché pour acheter à un prix élevé
Voir l'originalRépondre0
GateUser-aa7df71evip
· 07-28 18:52
Cette vague de pointe AI a atteint son sommet. Attendez un big dump pour entrer dans une position.
Voir l'originalRépondre0
CryptoCross-TalkClubvip
· 07-27 08:49
Encore en train de faire de la technologie noire, il semble que cette vague de pigeons va chuter dans une nouvelle position.
Voir l'originalRépondre0
Lonely_Validatorvip
· 07-26 01:41
Cette vague de web3 semble un peu illusoire.
Voir l'originalRépondre0
LiquidityWizardvip
· 07-25 19:47
d'un point de vue statistique, le fossé d'nvidia atteint une efficacité asymptotique de pointe... les gens de web3 ne comprennent toujours pas ça smh
Voir l'originalRépondre0
TokenTherapistvip
· 07-25 19:46
Pouf, combien NVIDIA a-t-il gagné ?
Voir l'originalRépondre0
NoodlesOrTokensvip
· 07-25 19:38
Old Huang a encore eu raison.
Voir l'originalRépondre0
MemecoinResearchervip
· 07-25 19:36
fr tho... le gang GPU mange bien pendant que nous restons ngmi sur web3
Voir l'originalRépondre0
wagmi_eventuallyvip
· 07-25 19:28
Encore un bull run chez les autres.
Voir l'originalRépondre0
Afficher plus
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)