L’un des principaux défis auxquels est confronté l’apprentissage multimodal est la nécessité de fusionner des modalités hétérogènes telles que le texte, l’audio et la vidéo, et les modèles multimodaux doivent combiner des signaux provenant de différentes sources. Cependant, ces modalités ont des caractéristiques différentes qu’il est difficile de combiner avec un seul modèle. Par exemple, la vidéo et le texte ont des taux d’échantillonnage différents.
Récemment, une équipe de recherche de Google DeepMind a découplé le modèle multimodal en plusieurs modèles autorégressifs indépendants et spécialisés qui traitent les entrées en fonction des caractéristiques de chaque modalité.
Plus précisément, l’étude propose un modèle multimodal, Mirasol3B. Mirasol3B se compose d’un composant autorégressif pour la modale de synchronisation temporelle (audio et vidéo) et d’un composant autorégressif pour la modalité contextuelle. Ces modalités ne sont pas nécessairement alignées dans le temps, mais sont séquentielles.
Adresse:
Mirasol3B atteint des niveaux SOTA dans les benchmarks multimodaux, surpassant les modèles plus grands. En apprenant des représentations plus compactes, en contrôlant la longueur de séquence des représentations de caractéristiques audio-vidéo et en modélisant sur la base de la correspondance temporelle, Mirasol3B est en mesure de répondre efficacement aux exigences de calcul élevées des entrées multimodales.
Présentation pratique
Mirasol3B est un modèle multimodal audio-vidéo-texte dans lequel la modélisation autorégressive est découplée en composantes autorégressives pour les modalités alignées dans le temps (par exemple, audio, vidéo) et en composantes autorégressives pour les modalités contextuelles non alignées dans le temps (par exemple, texte). Mirasol3B utilise des pondérations d’attention croisée pour coordonner le processus d’apprentissage de ces composants. Ce découplage rend la distribution des paramètres au sein du modèle plus raisonnable, alloue également une capacité suffisante aux modalités (vidéo et audio) et rend le modèle global plus léger.
Comme le montre la figure 1 ci-dessous, Mirasol3B se compose principalement de deux composants d’apprentissage : un composant autorégressif, conçu pour traiter des entrées multimodales (presque) synchrones, telles que la vidéo + l’audio, et combiner les entrées en temps opportun.
L’étude propose également de segmenter la modalité alignée dans le temps en périodes temporelles, dans lesquelles des représentations conjointes audio-vidéo sont apprises. Plus précisément, cette étude propose un mécanisme modal d’apprentissage des caractéristiques articulaires appelé « Combiner ». « Combiner » fusionne les caractéristiques modales de la même période, ce qui donne une représentation plus compacte.
« Combiner » extrait la représentation spatio-temporelle principale de l’entrée modale d’origine, capture les caractéristiques dynamiques de la vidéo et les combine avec les fonctions audio synchroniques, de sorte que le modèle puisse recevoir des entrées multimodales à des vitesses différentes et fonctionne bien lors du traitement de vidéos plus longues.
« Combiner » répond efficacement aux besoins d’une représentation modale à la fois efficace et informative. Il peut couvrir entièrement les événements et les activités de la vidéo et d’autres modalités qui se produisent en même temps, et peut être utilisé dans les modèles autorégressifs ultérieurs pour apprendre les dépendances à long terme.
Afin de traiter les signaux vidéo et audio, et d’accueillir des entrées vidéo/audio plus longues, ils sont divisés en morceaux (grossièrement synchronisés dans le temps), qui sont ensuite appris à synthétiser des représentations audiovisuelles grâce à « Combiner ». La deuxième composante traite des signaux contextuels ou temporellement désalignés, tels que les informations textuelles globales, qui sont généralement encore continues. Il est également autorégressif et utilise l’espace latent combiné comme entrée d’attention croisée.
Le composant d’apprentissage Vidéo + Audio a 3 paramètres B, tandis que le composant sans audio est 2,9 B. La plupart des semi-paramètres sont utilisés pour le modèle autorégressif audio + vidéo. Mirasol3B gère généralement des vidéos à 128 images, mais il peut également gérer des vidéos plus longues (par exemple, 512 images).
En raison de la conception de la partition et de l’architecture du modèle « Combiner », l’ajout de plus d’images ou l’augmentation de la taille et du nombre de blocs n’augmentera que légèrement les paramètres, ce qui résout le problème que les vidéos plus longues nécessitent plus de paramètres et une plus grande mémoire.
Expériences et résultats
L’étude a testé et évalué Mirasol3B sur le benchmark standard VideoQA, le benchmark vidéo longue durée VideoQA et le benchmark Audio+Video.
Comme le montre le tableau 1 ci-dessous, les résultats des tests sur l’ensemble de données VideoQA MSRVTTQA montrent que Mirasol3B surpasse le modèle SOTA actuel, ainsi que des modèles plus grands tels que PaLI-X et Flamingo.
En ce qui concerne les questions et réponses vidéo de longue durée, Mirasol3B a été testé et évalué sur les ensembles de données ActivityNet-QA, NExTQA, et les résultats sont présentés dans le tableau 2 ci-dessous :
Enfin, l’étude a choisi d’utiliser KineticsSound, VGG-Sound et Epic-Sound pour les benchmarks audio-vidéo avec des évaluations génératives ouvertes, comme le montre le tableau 3 ci-dessous :
Les lecteurs intéressés peuvent lire l’article original pour en savoir plus sur la recherche.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Petit et performant : DeepMind lance sa solution multimodale, Mirasol 3B
Source de l’article : Heart of the Machine
L’un des principaux défis auxquels est confronté l’apprentissage multimodal est la nécessité de fusionner des modalités hétérogènes telles que le texte, l’audio et la vidéo, et les modèles multimodaux doivent combiner des signaux provenant de différentes sources. Cependant, ces modalités ont des caractéristiques différentes qu’il est difficile de combiner avec un seul modèle. Par exemple, la vidéo et le texte ont des taux d’échantillonnage différents.
Récemment, une équipe de recherche de Google DeepMind a découplé le modèle multimodal en plusieurs modèles autorégressifs indépendants et spécialisés qui traitent les entrées en fonction des caractéristiques de chaque modalité.
Plus précisément, l’étude propose un modèle multimodal, Mirasol3B. Mirasol3B se compose d’un composant autorégressif pour la modale de synchronisation temporelle (audio et vidéo) et d’un composant autorégressif pour la modalité contextuelle. Ces modalités ne sont pas nécessairement alignées dans le temps, mais sont séquentielles.
Mirasol3B atteint des niveaux SOTA dans les benchmarks multimodaux, surpassant les modèles plus grands. En apprenant des représentations plus compactes, en contrôlant la longueur de séquence des représentations de caractéristiques audio-vidéo et en modélisant sur la base de la correspondance temporelle, Mirasol3B est en mesure de répondre efficacement aux exigences de calcul élevées des entrées multimodales.
Présentation pratique
Mirasol3B est un modèle multimodal audio-vidéo-texte dans lequel la modélisation autorégressive est découplée en composantes autorégressives pour les modalités alignées dans le temps (par exemple, audio, vidéo) et en composantes autorégressives pour les modalités contextuelles non alignées dans le temps (par exemple, texte). Mirasol3B utilise des pondérations d’attention croisée pour coordonner le processus d’apprentissage de ces composants. Ce découplage rend la distribution des paramètres au sein du modèle plus raisonnable, alloue également une capacité suffisante aux modalités (vidéo et audio) et rend le modèle global plus léger.
Comme le montre la figure 1 ci-dessous, Mirasol3B se compose principalement de deux composants d’apprentissage : un composant autorégressif, conçu pour traiter des entrées multimodales (presque) synchrones, telles que la vidéo + l’audio, et combiner les entrées en temps opportun.
« Combiner » extrait la représentation spatio-temporelle principale de l’entrée modale d’origine, capture les caractéristiques dynamiques de la vidéo et les combine avec les fonctions audio synchroniques, de sorte que le modèle puisse recevoir des entrées multimodales à des vitesses différentes et fonctionne bien lors du traitement de vidéos plus longues.
« Combiner » répond efficacement aux besoins d’une représentation modale à la fois efficace et informative. Il peut couvrir entièrement les événements et les activités de la vidéo et d’autres modalités qui se produisent en même temps, et peut être utilisé dans les modèles autorégressifs ultérieurs pour apprendre les dépendances à long terme.
Le composant d’apprentissage Vidéo + Audio a 3 paramètres B, tandis que le composant sans audio est 2,9 B. La plupart des semi-paramètres sont utilisés pour le modèle autorégressif audio + vidéo. Mirasol3B gère généralement des vidéos à 128 images, mais il peut également gérer des vidéos plus longues (par exemple, 512 images).
En raison de la conception de la partition et de l’architecture du modèle « Combiner », l’ajout de plus d’images ou l’augmentation de la taille et du nombre de blocs n’augmentera que légèrement les paramètres, ce qui résout le problème que les vidéos plus longues nécessitent plus de paramètres et une plus grande mémoire.
Expériences et résultats
L’étude a testé et évalué Mirasol3B sur le benchmark standard VideoQA, le benchmark vidéo longue durée VideoQA et le benchmark Audio+Video.
Comme le montre le tableau 1 ci-dessous, les résultats des tests sur l’ensemble de données VideoQA MSRVTTQA montrent que Mirasol3B surpasse le modèle SOTA actuel, ainsi que des modèles plus grands tels que PaLI-X et Flamingo.