Detrás de la batalla de los cien modelos de IA: la barrera tecnológica se ha soltar, las perspectivas comerciales aún son inciertas.

La competencia de cientos de modelos en el campo de la IA está en pleno apogeo, pero las perspectivas comerciales siguen siendo inciertas.

El mes pasado, la comunidad de IA desató una "guerra de animales". Por un lado, está el modelo Llama de Meta, que es muy popular entre los desarrolladores debido a su característica de código abierto. La empresa japonesa NEC, tras investigar Llama, desarrolló rápidamente una versión en japonés de ChatGPT. Por otro lado, está el gran modelo llamado Falcon, que, tras su lanzamiento en mayo, superó a Llama y se posicionó en la cima de la lista de LLM de código abierto.

Curiosamente, Falcon no proviene de una empresa tecnológica, sino que fue desarrollado por el Instituto de Innovación Tecnológica de Abu Dabi en los Emiratos Árabes Unidos. Funcionarios de los Emiratos Árabes Unidos han declarado que participan en este campo para "destronar a los jugadores clave". Al día siguiente del lanzamiento de la versión 180B de Falcon, el ministro de IA de los Emiratos Árabes Unidos fue incluido en la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time.

Hoy en día, el campo de la IA ha entrado en una etapa de múltiples voces, y los países y empresas con capacidad están construyendo sus propios grandes modelos. Solo en la región del Golfo, Arabia Saudita también ha adquirido más de 3000 chips H100 para el entrenamiento de LLM para universidades nacionales.

Un inversor se quejó en las redes sociales: "En su momento menosprecié la innovación en los modelos de negocio de Internet, pensando que no había barreras. No esperaba que el emprendimiento en modelos de grandes tecnologías aún fuera una batalla entre cientos de modelos..."

¿Cómo es que la tecnología dura, que se dice que tiene un alto umbral, se ha convertido en una competencia en la que todos pueden participar?

Transformer cambia las reglas del juego

Las startups de diferentes países, los gigantes tecnológicos y los magnates del petróleo pueden perseguir el sueño de los grandes modelos gracias al artículo "Attention Is All You Need" publicado por Google en 2017. Este artículo presentó el algoritmo Transformer, que se convirtió en la chispa que encendió esta ola de IA. Actualmente, todos los grandes modelos, independientemente de su nacionalidad, incluyendo la serie GPT que ha causado sensación en el mundo, se basan en la estructura de Transformer.

Hasta ahora, "enseñar a las máquinas a leer" ha sido un desafío académico reconocido. A diferencia del reconocimiento de imágenes, al leer, los humanos no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que dificultaba la comprensión de textos largos e incluso de artículos completos, lo que llevó a problemas como traducir "开水间" como "open water room".

En 2014, el científico informático Ilya Sutskever, quien trabajó en Google antes de unirse a OpenAI, logró un avance pionero. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que permitió que Google Translate superara considerablemente a sus competidores. RNN propuso un "diseño cíclico", permitiendo que cada neurona reciba tanto la entrada del momento actual como la entrada del momento anterior, otorgándole así la capacidad de "considerar el contexto".

La aparición de RNN encendió el entusiasmo de la investigación académica; el autor del artículo sobre Transformer, Noam Shazeer(, también estuvo muy interesado en ello. Sin embargo, los desarrolladores pronto se dieron cuenta de que RNN tiene graves defectos: el algoritmo utiliza cálculos secuenciales, aunque puede resolver problemas de contexto, su eficiencia de ejecución es baja y tiene dificultades para manejar una gran cantidad de parámetros.

El diseño complicado de RNN le resultaba tedioso a Szegedy. Desde 2015, él y siete entusiastas comenzaron a desarrollar un sustituto para RNN, cuyo resultado final fue el Transformer. En comparación con RNN, el Transformer tiene dos grandes innovaciones: la primera es el uso de codificación posicional en lugar de diseño cíclico, lo que permite el cálculo en paralelo, aumentando significativamente la eficiencia del entrenamiento y llevando a la IA a la era de los grandes modelos; la segunda es una mejora en la capacidad de comprensión del contexto.

El Transformer ha resuelto varios defectos de una vez, convirtiéndose gradualmente en la solución principal para el procesamiento de lenguaje natural NLP). Incluso Ilya ha abandonado su propio RNN, uniéndose al campamento de Transformer. Se puede decir que el Transformer es el antepasado de todos los grandes modelos actuales, transformando el gran modelo de una investigación teórica a un problema puramente ingenieril.

En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. Google lanzó inmediatamente un modelo de IA más potente llamado Meena. A diferencia de GPT-2, Meena no trajo ninguna innovación algorítmica, solo aumentó 8.5 veces los parámetros de entrenamiento y 14 veces la capacidad de cálculo. El autor del Transformer, Ashish Vaswani, quedó muy impresionado por esta "acumulación violenta" y escribió un memorando titulado "Meena devora el mundo".

Tras la aparición de los Transformers, la velocidad de innovación de los algoritmos de base en el ámbito académico se ha ralentizado considerablemente. Factores de ingeniería como la ingeniería de datos, la escala de potencia de cálculo y la arquitectura del modelo se han convertido cada vez más en la clave de la competencia en IA. Cualquier empresa tecnológica con cierta capacidad técnica puede desarrollar grandes modelos.

El científico de la computación Andrew Ng dijo en una conferencia en la Universidad de Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la actual inteligencia artificial generativa. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."

OpenAI sigue siendo un referente en el campo de los LLM, pero la firma de análisis de semiconductores Semi Analysis considera que la competitividad de GPT-4 proviene de soluciones de ingeniería: si se hace de código abierto, cualquier competidor podría replicarlo rápidamente. Este analista prevé que no pasará mucho tiempo antes de que otras grandes empresas tecnológicas puedan desarrollar modelos grandes con un rendimiento comparable al de GPT-4.

¿Dónde se establece el foso?

Actualmente, "la batalla de los grandes modelos" ya no es una metáfora, sino una realidad. Según informes, hasta julio de este año, el número de grandes modelos en China ha alcanzado 130, superando los 114 de Estados Unidos, y casi no hay suficientes mitos y leyendas para que las empresas tecnológicas nacionales los utilicen como nombres.

Aparte de China y Estados Unidos, otros países ricos también han logrado una "nación, un modelo" en una etapa inicial: Japón, Emiratos Árabes Unidos, así como Bhashini, liderado por el gobierno de India, y HyperClova X, desarrollado por la empresa de internet surcoreana Naver. Esta situación parece haber regresado a la era de la burbuja de Internet, donde todas las partes están quemando dinero para entrar.

Como se mencionó anteriormente, el Transformer convierte los grandes modelos en un problema puramente ingenieril; mientras haya fondos y hardware, lo demás es ajuste de parámetros. Sin embargo, la reducción de la barrera de entrada no significa que todos puedan convertirse en gigantes de la era de la IA.

El "conflicto de animales" mencionado al principio es un caso típico: aunque Falcon ha superado a Llama en el ranking, es difícil decir cuánto impacto ha tenido en Meta. Como es bien sabido, las empresas que abren sus resultados de investigación lo hacen no solo para compartir los beneficios tecnológicos, sino también para movilizar la sabiduría social. A medida que diferentes sectores continúan utilizando y mejorando Llama, Meta puede aplicar estos resultados en sus propios productos.

Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta estableció una ruta de código abierto ya en 2015 cuando formó su laboratorio de IA; Zuckerberg, que comenzó con las redes sociales, comprende mejor la importancia de "mantener relaciones con el público".

Por ejemplo, en octubre, Meta organizó el evento "Incentivo para Creadores de IA": los desarrolladores que utilizan Llama 2 para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una financiación de 500,000 dólares. Hoy en día, la serie Llama de Meta se ha convertido en un referente de los LLM de código abierto.

Hasta principios de octubre, entre los 10 mejores LLM de una conocida plataforma de código abierto, 8 están basados en Llama 2 y utilizan su licencia de código abierto. Solo en esa plataforma, ya hay más de 1500 LLM que utilizan la licencia de código abierto de Llama 2.

Mejorar el rendimiento ciertamente es posible, pero actualmente la mayoría de los LLM todavía tienen una diferencia notable con GPT-4. Por ejemplo, recientemente, GPT-4 obtuvo una puntuación de 4.41 y se coronó en la cima de la lista de pruebas de AgentBench. AgentBench fue lanzado conjuntamente por la Universidad Tsinghua y varias universidades estadounidenses de renombre, y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en un entorno de generación abierta en múltiples dimensiones.

Los resultados de la prueba muestran que el segundo lugar, Claude, solo obtuvo 2.77 puntos, lo que aún representa una gran diferencia. En cuanto a esos LLM de código abierto que hacen mucho ruido, la mayoría de ellos rondan alrededor de 1 punto, lo que es menos de una cuarta parte de GPT-4. Hay que recordar que GPT-4 se lanzó en marzo de este año, y esta todavía es la puntuación de los competidores globales después de más de medio año de seguimiento.

La diferencia se debe al equipo de científicos de alto nivel de OpenAI y a la experiencia acumulada en la investigación de LLM, lo que le permite mantenerse a la vanguardia. En otras palabras, la capacidad central de un gran modelo no reside en los parámetros, sino en la construcción del ecosistema ( código abierto ) o en la pura capacidad de razonamiento ( código cerrado ).

Con el creciente dinamismo de la comunidad de código abierto, el rendimiento de los LLM puede converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares. Otro problema más evidente es que, además de Midjourney, parece que ningún otro gran modelo ha logrado ser rentable.

Buscar puntos de anclaje de valor

En agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" llamó la atención. La idea principal del artículo se puede resumir en una frase: OpenAI está quemando dinero demasiado rápido.

El artículo menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, perdiendo alrededor de 540 millones de dólares en 2022, y solo puede sostenerse gracias a la inversión de Microsoft. Aunque el título de este artículo es sensacionalista, también revela la situación de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.

Los altos costos han llevado a que actualmente solo NVIDIA, y en su mayoría Broadcom, realmente ganen mucho dinero gracias a la IA. Según la consultora Omdia, NVIDIA vendió más de 300,000 chips H100 en el segundo trimestre de este año. Este es un chip de IA eficiente que las empresas tecnológicas y las instituciones de investigación de todo el mundo están ansiosas por comprar. Si apilamos estos 300,000 H100, su peso equivaldría al de 4.5 aviones Boeing 747.

Las ganancias de Nvidia se dispararon, con un crecimiento de ingresos del 854% en comparación interanual, dejando a Wall Street boquiabierto. Cabe mencionar que el precio del H100 en el mercado de segunda mano ya ha sido inflado a entre 40,000 y 50,000 dólares, mientras que su costo de materiales es de solo aproximadamente 3,000 dólares.

Los altos costos de la capacidad de cálculo se han convertido en un obstáculo para el desarrollo de la industria en cierta medida. Se estima que Sequoia Capital: las empresas tecnológicas globales gastarán alrededor de 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares en ingresos al año, lo que crea una brecha de al menos 125 mil millones de dólares.

Además, a excepción de algunas pocas como Midjourney, la mayoría de las empresas de software, después de invertir enormes costos, aún no han encontrado un modelo de rentabilidad. Incluso los líderes de la industria, Microsoft y Adobe, enfrentan desafíos.

La herramienta de generación de código AI GitHub Copilot, desarrollada por Microsoft en colaboración con OpenAI, cobra 10 dólares al mes, pero debido a los costos de las instalaciones, Microsoft en realidad pierde 20 dólares al mes. Los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. Por lo tanto, se puede suponer que el Microsoft 365 Copilot, con un precio de 30 dólares, podría generar aún más pérdidas.

Del mismo modo, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha implementado rápidamente un sistema de puntos complementario para evitar que los usuarios lo utilicen en exceso y causen pérdidas a la empresa. Una vez que un usuario exceda los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.

Cabe destacar que Microsoft y Adobe son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras que la mayoría de los grandes modelos con muchos parámetros, su principal aplicación sigue siendo la conversación.

No se puede negar que, si no fuera por la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido; sin embargo, actualmente sigue existiendo incertidumbre sobre el valor que aportan los grandes modelos de entrenamiento. A medida que la competencia homogeneizada se intensifica y aumentan los modelos de código abierto, los proveedores de grandes modelos en sí mismos pueden enfrentar desafíos mayores.

El éxito del iPhone 4 no radica en su procesador A4 de 45 nm, sino en su capacidad para ejecutar aplicaciones como Plantas contra Zombis y Angry Birds.

GPT4.23%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
MetaverseLandlordvip
· 08-01 21:36
¿Qué estás haciendo? Ahora hay que hacer dinero.
Ver originalesResponder0
RektButStillHerevip
· 08-01 07:14
Tener dinero realmente te permite hacer lo que quieras, es demasiado absurdo.
Ver originalesResponder0
SigmaBrainvip
· 07-30 01:56
Los juguetes son impresionantes, realmente parece que si se invierte un poco de dinero, se puede cambiar todo.
Ver originalesResponder0
FrogInTheWellvip
· 07-30 01:53
Las ambiciones de los Emiratos Árabes Unidos son bastante grandes.
Ver originalesResponder0
WalletDetectivevip
· 07-30 01:40
Desarrollar algo ¿para qué? Al final, solo depende del grosor de la billetera.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)