Le développement récent de l'industrie de l'IA est perçu par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. En même temps, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle, transformant le design de code précis en un cadre de grands modèles plus généralisé, permettant aux logiciels d'avoir de meilleures performances et un support modal plus large. La technologie d'apprentissage profond a effectivement conduit à la quatrième prospérité de l'industrie de l'IA, et cette tendance a également impacté l'industrie des cryptomonnaies.
Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact de la technologie d'apprentissage profond sur le secteur. Il analysera en profondeur l'état actuel et les tendances du développement en amont et en aval de la chaîne industrielle, notamment les GPU, l'informatique en nuage, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Il explorera essentiellement la relation entre les crypto-monnaies et l'industrie de l'IA, en clarifiant la configuration de la chaîne industrielle de l'IA liée aux crypto-monnaies.
L'histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à travers différentes époques et contextes disciplinaires, de nombreuses écoles de pensée pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'améliorer les performances du système en itérant sur des tâches à l'aide de données. Les étapes principales consistent à envoyer des données à l'algorithme, à entraîner un modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour réaliser des tâches de prévision automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est dominant ( également appelé apprentissage profond ), la principale raison étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) sont suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée des données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir traité plusieurs ensembles de données, ce neurone atteindra un état optimal ( paramètre ), c'est ce qu'on appelle "un grand effort produit des miracles", et c'est l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, cela peut être compris simplement comme la construction d'une fonction, où lorsque l'entrée X=2, Y=3 ; et lorsque X=3, Y=5. Si l'on veut que cette fonction s'applique à tous les X, il faut ajouter continuellement le degré de cette fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition peut être Y = 2X -1. Cependant, si une donnée est X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour le craquage par force brute, on découvre que Y = X2 -3X +5 est assez approprié, mais il n'est pas nécessaire que cela corresponde totalement aux données, il suffit de respecter un équilibre et d'avoir une sortie à peu près similaire. Dans ce contexte, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Ainsi, nous pouvons ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions technologiques, telles que les premiers réseaux de neurones illustrés ci-dessus, les réseaux de neurones à propagation avant, RNN, CNN, GAN, qui ont finalement évolué vers les modèles modernes tels que la technologie Transformer utilisée par GPT, etc. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à coder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ces données sont ensuite introduites dans le réseau de neurones, ce qui permet au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multi-modal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été déclenchée par le développement de la technologie du symbolisme, qui a résolu les problèmes de traitement du langage naturel général et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL, réalisé sous l'impulsion d'une université et d'une institution. Ce système possède une très forte connaissance en chimie, permettant de déduire des réponses similaires à celles d'un expert en chimie par le biais de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système de déduction.
Après les systèmes experts, Judea Pearl a proposé les réseaux bayésiens dans les années 1990, également connus sous le nom de réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, Deep Blue d'une certaine société a battu le champion d'échecs Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon de l'intelligence artificielle, marquant un nouvel apogée dans le développement des technologies IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond ont proposé le concept d'apprentissage profond, un algorithme basé sur une architecture de réseaux de neurones artificiels pour apprendre la représentation des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant de RNN, GAN à Transformer et Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, période également marquée par l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris:
En 2011, le système d'une certaine entreprise a battu des humains et remporté le championnat dans un certain programme.
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN(, qui permet d'apprendre en faisant s'affronter deux réseaux de neurones, capable de générer des photos tellement réalistes qu'elles en sont trompeuses. Parallèlement, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage en profondeur dans la revue "Nature", ce qui a immédiatement suscité un grand intérêt dans le milieu académique et industriel.
En 2015, une institution a été créée, plusieurs personnes célèbres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, un système basé sur la technologie d'apprentissage profond a remporté la bataille homme-machine au jeu de Go contre le champion du monde et joueur professionnel de 9e dan avec un score total de 4 à 1.
En 2017, un robot humanoïde développé par une certaine entreprise, nommé Sophia, a été qualifié de premier robot de l'histoire à obtenir le statut de citoyen de première classe, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, une certaine entreprise disposant de talents et de réserves technologiques riches dans le domaine de l'intelligence artificielle a publié un article intitulé "Attention is all you need" proposant l'algorithme Transformer, ce qui a marqué l'apparition de modèles de langage à grande échelle.
En 2018, une institution a publié un GPT construit sur l'algorithme Transformer, qui était l'un des plus grands modèles linguistiques à l'époque.
En 2018, une équipe a lancé un système basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un symbole de progrès majeur dans le domaine de l'intelligence artificielle.
En 2019, une organisation a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, une institution a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné avec 570 Go de texte et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel ), y compris la réponse à des questions, la traduction et la rédaction d'articles (.
En 2021, une institution a publié GPT-4, ce modèle possède 1,76 billion de paramètres, soit 10 fois celui de GPT-3.
L'application basée sur le modèle GPT-4 a été lancée en janvier 2023, atteignant 100 millions d'utilisateurs en mars, devenant ainsi l'application à atteindre le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, une certaine institution lancera GPT-4 omni.
![Nouvelle introduction丨AI x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont déclenché une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une demande massive du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous nous concentrons principalement sur l'exploration de la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par des algorithmes d'apprentissage profond, comment les segments en amont et en aval sont-ils constitués, et quel est l'état actuel de ces segments ainsi que la relation entre l'offre et la demande, et le développement futur ?
Tout d'abord, il est nécessaire de clarifier que lors de l'entraînement des modèles LLMs) dominés par GPT basés sur la technologie Transformer(, cela se divise en trois étapes.
Avant l'entraînement, en raison de sa base sur le Transformer, le convertisseur doit transformer l'entrée textuelle en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour le calcul des prix de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires aux exemples donnés dans la première partie du rapport, comme )X,Y(, pour trouver les meilleurs paramètres de chaque neurone dans ce modèle, il faut une grande quantité de données à ce stade, et ce processus est également le plus coûteux en calcul, car il nécessite des itérations répétées des neurones essayant divers paramètres. Une fois qu'un lot de paires de données est terminé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, ajustement fin. L'ajustement fin consiste à donner un petit lot de données de très haute qualité pour l'entraînement, ce qui permettra d'obtenir des sorties de modèle de meilleure qualité, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de données peuvent contenir des erreurs ou être de faible qualité. L'étape d'ajustement fin peut améliorer la qualité du modèle grâce à des données de haute qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", dont l'objectif est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ) Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle (.
En résumé, pendant le processus d'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. En revanche, le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres changent, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi pourquoi le terme "grand modèle" a été popularisé, car il s'agit essentiellement d'un grand nombre de neurones et de paramètres, ainsi que d'une énorme quantité de données, nécessitant également une puissance de calcul considérable.
Par conséquent, les performances des grands modèles sont principalement déterminées par trois facteurs : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de tokens(, alors nous pouvons estimer la puissance de calcul requise en utilisant des règles empiriques générales, ce qui nous permet d'anticiper la puissance de calcul que nous devons acheter et le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, ce qui représente une opération de calcul en virgule flottante. Les opérations en virgule flottante sont un terme générique pour les opérations arithmétiques sur des nombres non entiers, comme 2.5 + 3.557. La virgule flottante désigne la capacité de traiter des nombres avec des décimales, tandis que FP16 représente une précision qui supporte les décimales, et FP32 est une précision plus couramment utilisée. Selon des règles empiriques issues de la pratique, le pré-entraînement de )Pre-traning( une fois ) nécessite généralement d'entraîner plusieurs fois ( un grand modèle, nécessitant environ 6np Flops, 6 étant appelé constante de l'industrie. L'inférence ), c'est le processus où nous saisissons des données et attendons la sortie du grand modèle (, divisé en deux parties : n tokens en entrée et n tokens en sortie, ce qui nécessite environ 2np Flops au total.
Au début, l'entraînement était réalisé à l'aide de puces CPU pour fournir un support de calcul, mais par la suite, on a commencé à utiliser progressivement des GPU en remplacement, comme les puces A100 et H100 d'une certaine entreprise. En effet, le CPU est conçu pour le calcul général, tandis que le GPU peut être utilisé pour le calcul spécialisé, offrant une efficacité énergétique bien supérieure à celle du CPU. Le GPU exécute des opérations à virgule flottante principalement grâce à un module appelé Tensor Core.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
4
Partager
Commentaire
0/400
GreenCandleCollector
· 07-25 11:50
bull run volait dans le ciel ce jour-là pour distribuer des bonbons à tout le monde
Voir l'originalRépondre0
StableNomad
· 07-23 01:17
en fait... j'ai déjà vu ce film avec les ICO en '17, mais je ne vais pas mentir, le potentiel de ROI ici est différent.
Voir l'originalRépondre0
0xSherlock
· 07-23 01:14
L'argent arrive trop lentement, je ne peux pas rendre ma famille riche.
Voir l'originalRépondre0
GasFeeCry
· 07-23 00:56
l'univers de la cryptomonnaie n'a pas de tendance, tout repose sur le hasard.
AI et cryptoactifs : la technologie d'apprentissage profond mène la révolution industrielle
IA x Crypto : de zéro au sommet
Le développement récent de l'industrie de l'IA est perçu par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. En même temps, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle, transformant le design de code précis en un cadre de grands modèles plus généralisé, permettant aux logiciels d'avoir de meilleures performances et un support modal plus large. La technologie d'apprentissage profond a effectivement conduit à la quatrième prospérité de l'industrie de l'IA, et cette tendance a également impacté l'industrie des cryptomonnaies.
Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact de la technologie d'apprentissage profond sur le secteur. Il analysera en profondeur l'état actuel et les tendances du développement en amont et en aval de la chaîne industrielle, notamment les GPU, l'informatique en nuage, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Il explorera essentiellement la relation entre les crypto-monnaies et l'industrie de l'IA, en clarifiant la configuration de la chaîne industrielle de l'IA liée aux crypto-monnaies.
L'histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à travers différentes époques et contextes disciplinaires, de nombreuses écoles de pensée pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'améliorer les performances du système en itérant sur des tâches à l'aide de données. Les étapes principales consistent à envoyer des données à l'algorithme, à entraîner un modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour réaliser des tâches de prévision automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est dominant ( également appelé apprentissage profond ), la principale raison étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) sont suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée des données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir traité plusieurs ensembles de données, ce neurone atteindra un état optimal ( paramètre ), c'est ce qu'on appelle "un grand effort produit des miracles", et c'est l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, cela peut être compris simplement comme la construction d'une fonction, où lorsque l'entrée X=2, Y=3 ; et lorsque X=3, Y=5. Si l'on veut que cette fonction s'applique à tous les X, il faut ajouter continuellement le degré de cette fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition peut être Y = 2X -1. Cependant, si une donnée est X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour le craquage par force brute, on découvre que Y = X2 -3X +5 est assez approprié, mais il n'est pas nécessaire que cela corresponde totalement aux données, il suffit de respecter un équilibre et d'avoir une sortie à peu près similaire. Dans ce contexte, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Ainsi, nous pouvons ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions technologiques, telles que les premiers réseaux de neurones illustrés ci-dessus, les réseaux de neurones à propagation avant, RNN, CNN, GAN, qui ont finalement évolué vers les modèles modernes tels que la technologie Transformer utilisée par GPT, etc. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à coder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ces données sont ensuite introduites dans le réseau de neurones, ce qui permet au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multi-modal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été déclenchée par le développement de la technologie du symbolisme, qui a résolu les problèmes de traitement du langage naturel général et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL, réalisé sous l'impulsion d'une université et d'une institution. Ce système possède une très forte connaissance en chimie, permettant de déduire des réponses similaires à celles d'un expert en chimie par le biais de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système de déduction.
Après les systèmes experts, Judea Pearl a proposé les réseaux bayésiens dans les années 1990, également connus sous le nom de réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, Deep Blue d'une certaine société a battu le champion d'échecs Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon de l'intelligence artificielle, marquant un nouvel apogée dans le développement des technologies IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond ont proposé le concept d'apprentissage profond, un algorithme basé sur une architecture de réseaux de neurones artificiels pour apprendre la représentation des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant de RNN, GAN à Transformer et Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, période également marquée par l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris:
En 2011, le système d'une certaine entreprise a battu des humains et remporté le championnat dans un certain programme.
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN(, qui permet d'apprendre en faisant s'affronter deux réseaux de neurones, capable de générer des photos tellement réalistes qu'elles en sont trompeuses. Parallèlement, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage en profondeur dans la revue "Nature", ce qui a immédiatement suscité un grand intérêt dans le milieu académique et industriel.
En 2015, une institution a été créée, plusieurs personnes célèbres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, un système basé sur la technologie d'apprentissage profond a remporté la bataille homme-machine au jeu de Go contre le champion du monde et joueur professionnel de 9e dan avec un score total de 4 à 1.
En 2017, un robot humanoïde développé par une certaine entreprise, nommé Sophia, a été qualifié de premier robot de l'histoire à obtenir le statut de citoyen de première classe, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, une certaine entreprise disposant de talents et de réserves technologiques riches dans le domaine de l'intelligence artificielle a publié un article intitulé "Attention is all you need" proposant l'algorithme Transformer, ce qui a marqué l'apparition de modèles de langage à grande échelle.
En 2018, une institution a publié un GPT construit sur l'algorithme Transformer, qui était l'un des plus grands modèles linguistiques à l'époque.
En 2018, une équipe a lancé un système basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un symbole de progrès majeur dans le domaine de l'intelligence artificielle.
En 2019, une organisation a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, une institution a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné avec 570 Go de texte et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel ), y compris la réponse à des questions, la traduction et la rédaction d'articles (.
En 2021, une institution a publié GPT-4, ce modèle possède 1,76 billion de paramètres, soit 10 fois celui de GPT-3.
L'application basée sur le modèle GPT-4 a été lancée en janvier 2023, atteignant 100 millions d'utilisateurs en mars, devenant ainsi l'application à atteindre le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, une certaine institution lancera GPT-4 omni.
![Nouvelle introduction丨AI x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont déclenché une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une demande massive du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous nous concentrons principalement sur l'exploration de la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par des algorithmes d'apprentissage profond, comment les segments en amont et en aval sont-ils constitués, et quel est l'état actuel de ces segments ainsi que la relation entre l'offre et la demande, et le développement futur ?
Tout d'abord, il est nécessaire de clarifier que lors de l'entraînement des modèles LLMs) dominés par GPT basés sur la technologie Transformer(, cela se divise en trois étapes.
Avant l'entraînement, en raison de sa base sur le Transformer, le convertisseur doit transformer l'entrée textuelle en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour le calcul des prix de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires aux exemples donnés dans la première partie du rapport, comme )X,Y(, pour trouver les meilleurs paramètres de chaque neurone dans ce modèle, il faut une grande quantité de données à ce stade, et ce processus est également le plus coûteux en calcul, car il nécessite des itérations répétées des neurones essayant divers paramètres. Une fois qu'un lot de paires de données est terminé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, ajustement fin. L'ajustement fin consiste à donner un petit lot de données de très haute qualité pour l'entraînement, ce qui permettra d'obtenir des sorties de modèle de meilleure qualité, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de données peuvent contenir des erreurs ou être de faible qualité. L'étape d'ajustement fin peut améliorer la qualité du modèle grâce à des données de haute qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", dont l'objectif est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ) Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle (.
En résumé, pendant le processus d'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. En revanche, le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres changent, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi pourquoi le terme "grand modèle" a été popularisé, car il s'agit essentiellement d'un grand nombre de neurones et de paramètres, ainsi que d'une énorme quantité de données, nécessitant également une puissance de calcul considérable.
Par conséquent, les performances des grands modèles sont principalement déterminées par trois facteurs : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de tokens(, alors nous pouvons estimer la puissance de calcul requise en utilisant des règles empiriques générales, ce qui nous permet d'anticiper la puissance de calcul que nous devons acheter et le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, ce qui représente une opération de calcul en virgule flottante. Les opérations en virgule flottante sont un terme générique pour les opérations arithmétiques sur des nombres non entiers, comme 2.5 + 3.557. La virgule flottante désigne la capacité de traiter des nombres avec des décimales, tandis que FP16 représente une précision qui supporte les décimales, et FP32 est une précision plus couramment utilisée. Selon des règles empiriques issues de la pratique, le pré-entraînement de )Pre-traning( une fois ) nécessite généralement d'entraîner plusieurs fois ( un grand modèle, nécessitant environ 6np Flops, 6 étant appelé constante de l'industrie. L'inférence ), c'est le processus où nous saisissons des données et attendons la sortie du grand modèle (, divisé en deux parties : n tokens en entrée et n tokens en sortie, ce qui nécessite environ 2np Flops au total.
Au début, l'entraînement était réalisé à l'aide de puces CPU pour fournir un support de calcul, mais par la suite, on a commencé à utiliser progressivement des GPU en remplacement, comme les puces A100 et H100 d'une certaine entreprise. En effet, le CPU est conçu pour le calcul général, tandis que le GPU peut être utilisé pour le calcul spécialisé, offrant une efficacité énergétique bien supérieure à celle du CPU. Le GPU exécute des opérations à virgule flottante principalement grâce à un module appelé Tensor Core.