2026-03-06 02:29:19

GPT-5.4 Lanzamiento, la dirección futura de la iteración de la IA está clara. Actualmente, el campo de la IA ha salido del diálogo para evolucionar hacia agentes inteligentes de sistema, donde los humanos se encargan de la estética y la IA de la implementación, avanzando hacia flujos de trabajo de colaboración hombre-máquina.

➤ Puntos clave de la actualización central de GPT-5.4
1、Combinar la inferencia general de GPT-5.2 con las capacidades de programación de vanguardia de GPT-5.3-Codex
2、Soporte para ventana de 100 millones de tokens (aproximadamente 5000 páginas de documentos), resolviendo el problema de olvido en textos largos
3、Operación nativa en computadora, el modelo puede ver pantallas, usar ratón y teclear como un humano. En pruebas en OSWorld, una tasa de éxito del 75.0% ya supera el nivel promedio humano
4、Introducción de función de interrupción en medio del proceso. La conversación ya no es rígida y por turnos, los usuarios pueden insertar nuevas solicitudes en cualquier momento mientras el modelo piensa o responde
5、Optimización de eficiencia y costos, introducción del mecanismo Tool Search. El modelo ya no necesita precargar todas las definiciones de herramientas, sino buscar según sea necesario, ahorrando en gran medida un 47% en consumo de tokens.
➤ ¿Por qué sucede esto?
Actualmente, los principales laboratorios de IA en todo el mundo enfrentan muros de datos. Para 2026, toda la producción de textos, códigos y libros de alta calidad por parte de la humanidad podría ser recopilada a gran escala por grandes modelos, alcanzando un cuello de botella en el entrenamiento con textos. Modelos como Claude code, codex, openclaw están profundamente integrados con los sistemas operativos actuales, reemplazando algunas operaciones humanas mediante llamadas a herramientas del sistema, y poseen conciencia autónoma, con el objetivo de completar tareas.
Otra cosa que muchos no saben es que los modelos de la serie codex se entrenan junto con el marco Codex, es decir, los modelos de la serie codex y el marco Codex son nativos entre sí, por lo que el modelo puede llamar de forma natural a todas las herramientas de desarrollo dentro de codex.
➤ Análisis profundo de la dirección futura de la IA
1. De la integración por API a nativo a nivel del sistema operativo
La capacidad Computer Use mostrada por GPT-5.4, ha salido del diálogo y abarca todo el sistema operativo.
Antes, los modelos solo escribían código en un sandbox limitado, pero tras la actualización tendrán manos físicas. No solo entenderán la lógica del código, sino también podrán comprender retroalimentación visual de clics, arrastres y errores en terminales.
La nueva capa de marco ya no será solo un conjunto de funciones de herramientas predefinidas, sino una percepción profunda del OS. Durante el entrenamiento, el modelo aprende a observar la pantalla y a responder, permitiéndole como un ingeniero experimentado, modificar código y verificar cambios en la ventana del navegador en tiempo real, logrando un desarrollo de extremo a extremo en ciclo cerrado, ya implementado en codex.
2. Contexto de millones + diseño de arquitectura de tareas a largo plazo + sistema de memoria = arquitecto todoterreno
En la arquitectura de tres capas de Codex, la capa de modelo proporciona razonamiento estructurado. La capacidad de 100 millones de tokens de GPT-5.4 esencialmente ofrece un lienzo más amplio para este razonamiento.
El sistema de memoria de OpenAI ha sido siempre líder, con el lanzamiento de memoria sin pérdida y memoria infinita. Especialmente cuando el modelo y el marco son nativos, el modelo puede recuperar instantáneamente toda la base de código (nivel de millones de tokens), y el marco puede aplicar cambios precisos en decenas de archivos relacionados.
Ya en codex, se puede realizar una reescritura completa de la arquitectura y entender con precisión el significado del código.
3. Búsqueda y expansión dinámica en llamadas a herramientas
El mecanismo Tool Search introducido en GPT-5.4 permite que el marco entienda el patrón de salida del modelo, y que este obtenga más contexto para operar con precisión.
El rumbo futuro no será precargar miles de bibliotecas de herramientas (para evitar desperdicio de tokens), sino que cuando el modelo necesite un componente de visualización de datos, buscará y cargará en tiempo real la definición mediante Tool Search. Esto significa que las habilidades actuales pueden ser un producto transitorio, y que más herramientas serán integradas en el contenido del modelo, permitiendo que el gran modelo elija automáticamente qué herramienta usar.
La ventaja es que mantiene una eficiencia de tokens extremadamente alta. Resuelve la paradoja de que más herramientas hacen que el modelo sea más lento, permitiendo que el árbol de habilidades del Agente se extienda indefinidamente, se optimice automáticamente y se entrene en la próxima generación de modelos.
4. Interacción en tiempo real, de turnos a interrupciones en cualquier momento
La función de interrupción en medio introducida en GPT-5.4 rompe el estado de caja negra en la generación de IA, permitiendo ajustes si la idea no es correcta.
En el nivel de colaboración, se introduce más la decisión humana, en lugar de que la IA opere completamente de forma autónoma, logrando una colaboración de caja blanca, donde los humanos se encargan de la estética, definición de necesidades y selección de soluciones, y la IA de la implementación.
Gracias a la capacidad de intervención en tiempo real, la IA pasa de ser una caja negra de entrega única a un socio de ingeniería que puede modificar requisitos en cualquier momento.
Para entenderlo fácilmente, el nuevo modo nativo de IA (Codex + GPT-5.4) es como construir directamente un coche de F1 desde cero, donde el motor, el chasis y los neumáticos están diseñados desde el primer día para alcanzar velocidades extremas en colaboración.
En el futuro, quizás ya no busquemos modelos más potentes, sino sistemas que se integren más profundamente con el entorno de desarrollo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.