Vous verrez des modèles de fondation pour les humanoïdes utilisant continuellement une architecture de style Système 2 + Système 1, qui est en réalité inspirée de la cognition humaine.



La plupart des modèles vision-langage-action (VLA) d'aujourd'hui sont construits comme des systèmes multimodaux centralisés qui gèrent la perception, le langage et l'action au sein d'un seul réseau.

L'infrastructure de Codec est parfaite pour cela car elle traite chaque Opérateur comme un module isolé. Cela signifie que vous pouvez créer plusieurs Opérateurs en parallèle, chacun exécutant son propre modèle ou tâche, tout en les maintenant encapsulés et coordonnés à travers la même architecture.

Les robots et les humanoïdes en général ont typiquement plusieurs cerveaux, où un opérateur peut gérer le traitement de la vision, un autre gérer l'équilibre, un autre faire la planification de haut niveau, etc., qui peuvent tous être coordonnés à travers le système de Codec.

Le modèle de fondation d'Nvidia, Issac GR00T N1, utilise l'architecture à deux modules System 2 + System 1. System 2 est un modèle de vision-langage (a version de PaLM ou similaire, multimodal) qui observe le monde à travers les caméras du robot et écoute les instructions, puis établit un plan de haut niveau.

Le Système 1 est une politique de transformateur de diffusion qui prend ce plan et le transforme en mouvements continus en temps réel. On peut penser au Système 2 comme le cerveau délibératif et au Système 1 comme le contrôleur corporel instinctif. Le Système 2 pourrait produire quelque chose comme "déplace-toi vers le gobelet rouge, saisis-le, puis place-le sur l'étagère", et le Système 1 générera les trajectoires articulaires détaillées pour les jambes et les bras afin d'exécuter chaque étape en douceur.

Le Système 1 a été entraîné sur des tonnes de données de trajectoire ( y compris des démos téléopérées par des humains et des données simulées physiquement ) pour maîtriser les mouvements fins, tandis que le Système 2 a été construit sur un transformateur avec un préentraînement Internet ( pour la compréhension sémantique ).

Cette séparation entre le raisonnement et l'action est très puissante pour NVIDIA. Cela signifie que GR00T peut gérer des tâches à long terme qui nécessitent une planification ( grâce au Système 2) et également réagir instantanément aux perturbations ( grâce au Système 1).

Si un robot porte un plateau et que quelqu'un pousse le plateau, le Système 1 peut corriger l'équilibre immédiatement plutôt que d'attendre que le Système 2, plus lent, le remarque.

GR00T N1 était l'un des premiers modèles de fondation en robotique ouverts au public, et il a rapidement gagné en popularité.

D'emblée, il a démontré des compétences dans de nombreuses tâches en simulation, il pouvait saisir et déplacer des objets avec une main ou deux, passer des objets entre ses mains et effectuer des tâches en plusieurs étapes sans aucune programmation spécifique à la tâche. Parce qu'il n'était pas lié à une seule incarnation, les développeurs l'ont montré travaillant sur différents robots avec des ajustements minimes.

Cela est également vrai pour le modèle de base de Helix (Figure) qui utilise ce type d'architecture. Helix permet à deux robots ou plusieurs compétences d'opérer, Codec pourrait permettre un cerveau multi-agent en exécutant plusieurs Opérateurs qui partagent des informations.

Ce design « pod isolé » signifie que chaque composant peut être spécialisé ( tout comme le Système 1 contre le Système 2) et même développé par différentes équipes, tout en pouvant fonctionner ensemble.

C'est une approche unique en ce sens que Codec construit la pile logicielle profonde pour soutenir cette intelligence modulaire et distribuée, tandis que la plupart des autres se concentrent uniquement sur le modèle d'IA lui-même.

Codec tire également parti de grands modèles pré-entraînés. Si vous construisez une application robotique dessus, vous pourriez intégrer un modèle de base OpenVLA ou Pi Zero dans votre opérateur. Codec fournit les connecteurs, un accès facile aux flux de caméra ou aux API de robot, vous n'avez donc pas à écrire le code de bas niveau pour obtenir des images de la caméra d'un robot ou pour envoyer des commandes de vitesse à ses moteurs. Tout cela est abstrait derrière un SDK de haut niveau.

L'une des raisons pour lesquelles je suis si optimiste sur Codec est exactement ce que j'ai décrit ci-dessus. Ils ne poursuivent pas de récits, l'architecture est conçue pour être le lien entre les modèles de base, et elle prend en charge sans friction les systèmes multi-cerveaux, ce qui est essentiel pour la complexité humanoïde.

Parce que nous sommes encore très tôt dans cette tendance, il est utile d'étudier les conceptions des leaders de l'industrie et de comprendre pourquoi elles fonctionnent. La robotique est difficile à saisir compte tenu des couches entre le matériel et le logiciel, mais une fois que vous apprenez à décomposer chaque section pièce par pièce, il devient beaucoup plus facile à digérer.

Cela peut sembler être une perte de temps maintenant, mais c'est la même méthode qui m'a donné une longueur d'avance pendant la saison de l'IA et pourquoi j'étais en avance sur tant de projets. Devenez discipliné et apprenez quels composants peuvent coexister et quels composants ne peuvent pas évoluer.

Cela rapportera des dividendes au cours des mois à venir.

Décas billions ( $CODEC ) codé.
LL-0.49%
VSN-0.36%
IN-8.37%
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)