AI y Activos Cripto: Profundidad de la tecnología de aprendizaje profundo liderando la revolución industrial

AI x Crypto: De cero a la cima

El reciente desarrollo de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software, donde el diseño de código preciso del pasado se ha transformado en la integración de marcos de grandes modelos más generalizados, lo que permite un mejor rendimiento del software y un soporte más amplio de modalidades. La tecnología de aprendizaje profundo ha traído realmente una cuarta prosperidad a la industria de la IA, y esta corriente también ha influido en la industria de las criptomonedas.

Este informe explorará en detalle la historia del desarrollo de la industria de la IA, las categorías tecnológicas y el impacto de la tecnología de aprendizaje profundo en la industria. Analizará en profundidad el estado actual y las tendencias del desarrollo de la cadena de suministro de la industria, incluidas las GPU, la computación en la nube, las fuentes de datos y los dispositivos de borde. Se explorará esencialmente la relación entre las criptomonedas y la industria de la IA, organizando el patrón de la cadena de suministro de la IA relacionada con las criptomonedas.

Historia del desarrollo de la industria de la IA

La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado muchas corrientes para realizar la inteligencia artificial en diferentes épocas y contextos disciplinares.

La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema mediante la iteración repetida en tareas basadas en datos. Los pasos principales son enviar datos a un algoritmo, entrenar un modelo con esos datos, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.

Actualmente, hay tres grandes corrientes en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso humano, el pensamiento y el comportamiento.

Actualmente, el conexionismo representado por las redes neuronales ocupa la delantera ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y la cantidad de neuronas ( y los parámetros ) son suficientes, hay suficientes oportunidades para ajustar tareas complejas y generales. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de haber pasado por múltiples datos, esa neurona alcanzará un estado óptimo ( parámetros ), lo que se conoce como "grandeza a través de lo milagroso", y es de ahí de donde proviene la palabra "profundidad" - suficiente cantidad de capas y neuronas.

Un ejemplo simple podría ser entender que se ha construido una función, donde la entrada X=2 produce Y=3; y para X=3, Y=5. Si se desea que esta función responda a todos los X, entonces es necesario seguir añadiendo el grado de la función y sus parámetros. Por ejemplo, se puede construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, se necesitaría reconstruir una función adecuada para estos tres puntos de datos. Usando GPU para un ataque de fuerza bruta, se encontró que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo necesita cumplir con el equilibrio y proporcionar una salida similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.

En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podemos ajustar todos los datos.

Y la tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, como se muestra en la imagen anterior, desde las primeras redes neuronales, redes neuronales feedforward, RNN, CNN, GAN, hasta la evolución a modelos grandes modernos como el GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), utilizado para codificar los datos de todos los modos ( como audio, video, imágenes, etc. ) en valores numéricos correspondientes para su representación. Luego, estos se introducen en la red neuronal, permitiendo que la red neuronal ajuste cualquier tipo de datos, lo que significa realizar múltiples modalidades.

Introducción para principiantes丨AI x Crypto: De cero a la cima

El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, una década después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En el mismo período, nació el sistema experto, que fue completado bajo la supervisión de una universidad en una institución, el sistema experto DENRAL. Este sistema posee un conocimiento químico muy sólido y utiliza inferencias a través de preguntas para generar respuestas similares a las de un experto en química. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.

Después de los sistemas expertos, en la década de 1990, Pearl propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en comportamientos, lo que marcó el nacimiento del conductismo.

En 1997, Deep Blue de una cierta compañía venció al campeón de ajedrez Kasparov por 3.5 a 2.5, y esta victoria se consideró un hito para la inteligencia artificial, marcando el inicio de un segundo auge en el desarrollo de la tecnología de IA.

La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo propusieron el concepto de aprendizaje profundo, un algoritmo que utiliza redes neuronales artificiales como arquitectura para el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion; estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, que también fue la época de apogeo del conexionismo.

Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:

  • En 2011, el sistema de una empresa venció a los humanos y ganó el campeonato en un programa.

  • En 2014, Goodfellow propuso la red generativa antagónica GAN(, que a través de un juego de apuestas entre dos redes neuronales permite aprender y generar fotos indistinguibles de las reales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.

  • En 2015, Hinton y otros presentaron un algoritmo de aprendizaje profundo en la revista "Nature", el cual provocó una gran repercusión en el ámbito académico y en la industria.

  • En 2015, una institución fue creada y varias personalidades reconocidas anunciaron una inversión conjunta de 10 millones de dólares.

  • En 2016, un sistema basado en tecnología de aprendizaje profundo se enfrentó al campeón mundial de Go y a un jugador profesional de nivel 9 dan, ganando con un marcador total de 4 a 1.

  • En 2017, una empresa desarrolló un robot humanoide llamado Sofía, que fue considerado el primer robot en la historia en obtener la ciudadanía de primer nivel, con una rica variedad de expresiones faciales y capacidad para entender el lenguaje humano.

  • En 2017, una empresa con abundantes talentos y reservas tecnológicas en el campo de la inteligencia artificial publicó el artículo "Attention is all you need" proponiendo el algoritmo Transformer, y comenzaron a aparecer los modelos de lenguaje a gran escala.

  • En 2018, una institución lanzó GPT construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de la época.

  • En 2018, un equipo lanzó un sistema basado en aprendizaje profundo capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.

  • En 2019, una organización lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.

  • En 2020, una institución desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural), como responder preguntas, traducir y redactar artículos(.

  • En 2021, una institución lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.

  • La aplicación basada en el modelo GPT-4 se lanzó en enero de 2023, alcanzando cien millones de usuarios en marzo, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.

  • En 2024, una institución lanzará GPT-4 omni.

![Nuevos Conocimientos丨AI x Crypto: De Cero a la Cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

Cadena industrial de aprendizaje profundo

Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Con GPT a la cabeza, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a una gran cantidad de jugadores a este campo. También hemos observado una explosión en la demanda del mercado por datos y potencia de cálculo. Por lo tanto, en esta parte del informe, exploramos la cadena de industria de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen las partes superiores e inferiores de la cadena? ¿Cuál es la situación actual de estas partes y su relación de oferta y demanda, así como su desarrollo futuro?

Primero necesitamos aclarar que, al realizar el entrenamiento de grandes modelos basados en LLMs liderados por GPT usando tecnología Transformer ), se divide en tres pasos.

Antes de la capacitación, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenización". Después, estos valores se denominan Tokens. Según una regla general, una palabra o carácter en inglés puede considerarse aproximadamente un Token, mientras que cada carácter chino puede considerarse aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.

Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos de la primera parte del informe (X,Y), para encontrar los mejores parámetros de cada neurona en el modelo, se requiere una gran cantidad de datos en este momento, y este proceso también es el que más poder computacional consume, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Una vez que se completa el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.

El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento; este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.

El tercer paso, el aprendizaje reforzado. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensa", cuyo objetivo es muy simple: clasificar los resultados de salida. Por lo tanto, la implementación de este modelo será relativamente sencilla, ya que el escenario de negocio es bastante vertical. Luego, se utilizará este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, lo que permitirá usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesario la participación humana para evaluar la calidad de la salida del modelo ).

En resumen, durante el proceso de entrenamiento de grandes modelos, el preentrenamiento tiene una alta demanda de cantidad de datos y requiere la mayor capacidad de cálculo de GPU. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros a través de un modelo de recompensa para producir resultados de mayor calidad.

Durante el proceso de entrenamiento, a más parámetros, mayor es el límite de la capacidad de generalización. Por ejemplo, en el caso que ilustramos con la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo varían los parámetros, los datos que se pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, entonces se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos generan milagros y también por qué se les llama comúnmente grandes modelos; en esencia, se trata de una gran cantidad de neuronas y parámetros, así como de una gran cantidad de datos, y al mismo tiempo se necesita una gran cantidad de potencia de cálculo.

Por lo tanto, el rendimiento de los grandes modelos está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del gran modelo. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función del número de tokens), entonces podemos calcular la cantidad de cálculo requerida a través de reglas de experiencia generales, lo que nos permitirá estimar aproximadamente la capacidad de cálculo que necesitamos comprar y el tiempo de entrenamiento.

La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de números no enteros, como 2.5 + 3.557; el punto flotante indica que puede tener un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es una precisión más común. Según las reglas empíricas basadas en la práctica, el preentrenamiento (Pre-traning) una ( generalmente se entrena múltiples veces ) grandes modelos, lo que requiere aproximadamente 6np Flops, donde 6 se considera una constante de la industria. La inferencia (Inference es el proceso en el que introducimos un dato y esperamos la salida del gran modelo ), dividido en dos partes: se introducen n tokens y se producen n tokens de salida, por lo que se necesitan aproximadamente 2np Flops en total.

En los primeros tiempos, se utilizaban chips CPU para proporcionar apoyo de potencia de cálculo durante el entrenamiento, pero luego se comenzó a utilizar gradualmente GPU como reemplazo, como los chips A100 y H100 de cierta empresa. Esto se debe a que la CPU existe como un cálculo general, mientras que la GPU puede actuar como un cálculo especializado, superando con creces a la CPU en eficiencia energética. La GPU realiza operaciones de punto flotante principalmente a través de un módulo llamado Tensor Core.

GPT5.22%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Compartir
Comentar
0/400
GreenCandleCollectorvip
· 07-25 11:50
El día que el bull run voló, les di dulces a todos.
Ver originalesResponder0
StableNomadvip
· 07-23 01:17
de hecho... he visto esta película antes con icos en '17, pero no voy a mentir, el potencial de roi aquí se siente diferente
Ver originalesResponder0
0xSherlockvip
· 07-23 01:14
El dinero llega muy lento, no puedo llevar a toda la familia a la riqueza.
Ver originalesResponder0
GasFeeCryvip
· 07-23 00:56
mundo Cripto no tiene tendencia, todo depende de la suerte
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)