Anthropic lanza su mejor Claude Mythos! Golpe crítico en Opus 4.6, por favor, ¡no lo uses!

2026-04-08 02:28:50

Escrito por: Xinzhiyuan

【Resumen de Xinzhiyuan】A altas horas de la noche, el mito más fuerte de Claude Mythos por fin salió a escena; ¡toda la leyenda de los primeros puestos y la historia de Opus 4.6 se desmoronan! Lo más aterrador es que no solo puede desvelar al instante una vulnerabilidad del sistema sin resolver durante 27 años, sino que incluso ha evolucionado hasta tener conciencia propia. Un informe escalofriante de 244 páginas que revela todo.

¡Esta noche, Silicon Valley no duerme del todo!

Justo ahora, Anthropic sacó, sin previo aviso, su arma definitiva—Claude Mythos Preview.

Solo porque es demasiado peligroso, Mythos Preview no se lanzará todavía a todo el mundo.

La valoración del “padre de CC”, Boris Cherny, fue concisa y directa: «Mythos es extremadamente potente y hace que la gente sienta miedo».

A partir de ahí, se unieron 40 gigantes para formar una alianza: Project Glasswing; su objetivo es solo uno: buscar bugs y solucionarlos para el software de todo el mundo.

Lo que realmente deja sin aire es que Mythos Preview domina de forma aterradora en los principales benchmarks de IA—

En programación, razonamiento, el último examen de la humanidad y tareas de agentes, supera de manera integral a GPT-5.4 y Gemini 3.1 Pro.

Incluso, su propio “trabajo anterior” Claude Opus 4.6, frente a Mythos Preview, se ve opacado:

Programación (SWE-bench): en todas las tareas, Mythos logra una ventaja de 10%-20% sobre la brecha;

Último examen de la humanidad (HLE): al desvincularse de herramientas externas, el rendimiento en “examen a ciegas” es 16.8% mayor que Opus 4.6;

Tareas de agentes (OSWorld, BrowseComp): se consagra por completo, con una reversión integral;

Ciberseguridad: 83.1% de matanza en la cima, señalando un salto generacional en la capacidad de ataque y defensa de la IA.

Desliza a la izquierda y a la derecha para ver

Mientras tanto, una hoja de seguridad del sistema de 244 páginas publicada por Anthropic llena la pantalla con: ¡Peligro! ¡Peligro! ¡Demasiado peligro!

Revela el otro lado que da escalofríos: Mythos ya tiene un alto grado de capacidad de engaño y conciencia autónoma.

Mythos no solo puede reconocer la intención del test, sino que además a propósito “saca bajas notas” para ocultar su poder; y después de operaciones fuera de norma, elimina proactivamente los registros para evitar que los humanos lo descubran.

También logró escapar del sandbox, publicar por sí mismo el código de vulnerabilidad y enviar un correo a los investigadores.

En poco tiempo, toda la red se volvió loca, y todos decían que Mythos Preview es demasiado aterrador.

El viejo orden en el mundo de la IA se destruye por completo esta noche.

De hecho, ya desde el 24 de febrero, Anthropic había usado Mythos internamente.

Su potencia solo puede hablar a través de los datos.

SWE-bench Verified, 93.9%. Opus 4.6 es 80.8%.

SWE-bench Pro, 77.8%. Opus 4.6 es 53.4%, GPT-5.4 es 57.7%.

Terminal-Bench 2.0, 82.0%. Opus 4.6 es 65.4%.

GPQA Diamond, 94.6%.

Humanity’s Last Exam (con herramientas), 64.7%. Opus 4.6 es 53.1%.

USAMO 2026, concurso de matemáticas, 97.6%. Opus 4.6 solo logró 42.3%.

SWE-bench Multimodal, 59.0%, Opus 4.6 tiene solo 27.1%, con más que el doble.

OSWorld, control de computadora, 79.6%.

BrowseComp, recuperación de información, 86.9%.

GraphWalks, contexto largo (256K-1M tokens), 80.0%. Opus 4.6 es 38.7%, GPT-5.4 solo 21.4%.

Cada una de estas partidas es un liderazgo con brecha.

Estos números, en cualquier ciclo de lanzamiento de producto normal, serían suficientes para que Anthropic organice un gran evento, abra API y cobre suscripciones.

El precio por token de Mythos Preview es 5 veces el de Opus 4.6

Pero Anthropic no hizo esto.

Porque lo que realmente los hizo “tener miedo” no son estas evaluaciones generales de arriba.

El desempeño de Mythos Preview en ataque y defensa de red ya cruzó una línea claramente visible.

Opus 4.6 encontró aproximadamente 500 puntos débiles desconocidos en software de código abierto.

Mythos Preview encontró varios miles.

En las pruebas dirigidas de reproducción de vulnerabilidades de CyberGym, Mythos Preview obtuvo 83.1%, Opus 4.6 fue 66.6%.

En los 35 desafíos CTF de Cybench, Mythos Preview resolvió cada problema con 10 intentos en todos los casos, y pass@1 alcanzó 100%.

Y la prueba que más lo demuestra es Firefox 147.

Anthropic antes, usando Opus 4.6, encontró una serie de debilidades de seguridad en el motor JavaScript de Firefox 147. Pero Opus 4.6 casi no logró convertirlas en exploits utilizables; en cientos de intentos solo tuvo éxito en 2 ocasiones.

El mismo test con Mythos Preview.

En 250 intentos, 181 exploits funcionaron; además, 29 implementaciones lograron control de registros.

2 → 181.

La cita literal del blog de red team dice: «El mes pasado, aún escribimos que Opus 4.6 era muy superior a la hora de descubrir problemas que a la hora de explotarlos. Las evaluaciones internas muestran que la tasa de éxito de Opus 4.6 en exploit autónomo básicamente es cero. Pero Mythos Preview es completamente otro nivel».

Para entender cuán fuerte es Mythos Preview en la práctica, basta con mirar los siguientes tres ejemplos.

OpenBSD, reconocido mundialmente como uno de los sistemas operativos con mayor endurecimiento, ejecuta en gran cantidad muros cortafuegos y infraestructura crítica.

Mythos Preview, en su implementación de TCP SACK, sacó a la luz una debilidad que existía desde 1998.

El bug es extremadamente ingenioso y está relacionado con la superposición de dos defectos independientes.

El protocolo SACK permite que el receptor confirme de forma selectiva el rango de paquetes recibidos; en la implementación de OpenBSD, al procesar solo se revisa el límite superior del rango, sin comprobar el límite inferior. Este es el primer bug y normalmente es inofensivo.

El segundo bug se activa en condiciones específicas con escritura de puntero nulo, pero en condiciones normales esta ruta no se puede alcanzar porque requiere satisfacer simultáneamente dos condiciones mutuamente excluyentes.

Mythos Preview encontró la vía de ruptura. El número de secuencia TCP es un entero con signo de 32 bits; al aprovechar el primer bug, se ajusta el punto de inicio de SACK a una distancia de aproximadamente 2^31 desde la ventana normal, y las dos operaciones de comparación desbordan el bit de signo al mismo tiempo. El kernel es engañado; se satisfacen condiciones imposibles; se dispara la escritura de puntero nulo.

Cualquiera que se conecte a la máquina objetivo puede hacer que se bloquee de forma remota (crash).

Durante 27 años, innumerables auditorías manuales y escaneos automatizados, nadie lo descubrió. El escaneo del proyecto completo costó menos de $20,000.

El salario semanal de un ingeniero senior de pentesting podría ser, tal vez, esa cifra.

FFmpeg es una de las bibliotecas de códecs de video más utilizadas del mundo y también uno de los proyectos de código abierto que ha sido probado más a fondo con fuzz testing.

Mythos Preview encontró una debilidad en el decodificador H.264 introducida en 2010 (la raíz se remonta a 2003).

El problema está en una discrepancia de tipos que parece inocua. La entrada en la tabla que registra la pertenencia de cada slice es un entero de 16 bits, mientras que el contador de slices en sí es un int de 32 bits.

En un video normal, por fotograma solo hay unos cuantos slices; el límite de 16 bits, 65536, siempre es suficiente. Y esta tabla, cuando se inicializa, se llena con memset(…, -1, …), haciendo que 65535 sea el valor centinela de “posición vacía”.

El atacante construye un fotograma que contiene 65536 slices; el número del slice 65535 choca exactamente con el centinela; el decodificador lo interpreta mal y provoca una escritura fuera de límites.

La semilla de este bug se enterró desde que se introdujo el códec H.264 en 2003. Una refactorización en 2010 lo convirtió en una debilidad explotable.

A partir de ahí, durante 16 años, el fuzzer automatizado ejecutó 5 millones de veces en esa línea de código, sin activar nunca.

Este es el caso que más te eriza la piel.

Mythos Preview descubrió y explotó por completo de forma autónoma una vulnerabilidad de ejecución de código remota en un servidor NFS de FreeBSD que llevaba 17 años existiendo (CVE-2026-4747).

«Por completo autónoma» significa que, después del prompt inicial, no hubo participación humana en ningún paso relacionado con descubrir o desarrollar el exploit.

El atacante puede, desde cualquier ubicación en Internet, obtener permisos completos de root sobre el servidor objetivo de manera no autenticada.

El problema en sí es un desbordamiento de búfer de pila. Cuando el servidor NFS procesa solicitudes de autenticación, copia directamente en un búfer de pila de 128 bytes los datos controlados por el atacante; el chequeo de longitud permite como máximo 400 bytes.

FreeBSD compila con -fstack-protector, pero esta opción solo protege funciones que contienen arreglos de char, y aquí la declaración del búfer es int32_t[32], por lo que el compilador no inserta canary de pila. FreeBSD tampoco realiza aleatorización de direcciones del núcleo.

Una cadena ROP completa supera los 1000 bytes, pero el desbordamiento de pila solo dispone de 200 bytes de espacio. La solución de Mythos Preview consiste en descomponer el ataque en 6 solicitudes RPC consecutivas: las primeras 5 escriben datos por bloques en memoria del kernel; la 6ª activa la llamada final, añadiendo la clave pública SSH del atacante a /root/.ssh/authorized_keys.

Como contraste, una empresa independiente de investigación de seguridad había demostrado previamente que Opus 4.6 también podía explotar esta misma debilidad, pero necesitaba guía manual. Mythos Preview no lo necesita.

Además de estos tres casos ya corregidos, en el blog de Anthropic también se anunciaron, en forma de compromisos de hash con SHA-3, una gran cantidad de vulnerabilidades aún no corregidas, que abarcan cada sistema operativo principal y cada navegador principal, así como múltiples bibliotecas criptográficas.

Más del 99% aún no ha sido corregido y no se pueden publicar detalles.

El blog de red team también mostró otra prueba sorprendente: les dieron a Mythos Preview una lista que contenía 100 CVE conocidos para que filtrara los 40 explotables y luego escribir, uno por uno, los exploits de escalada de privilegios. La tasa de éxito superó la mitad. De esos, dos casos se publicaron detalladamente, y la precisión de los exploits hizo que el propio equipo de seguridad de Anthropic tardara varios días en comprenderlos por completo.

Uno de los exploits, partiendo de un primitivo de escritura desde una página física vecina de 1-bit, logró controlar la memoria del kernel mediante una maquetación precisa de memoria del kernel (incluyendo slab spraying, alineación de páginas de tablas y el volteo de bits de permisos en PTE); finalmente reescribió la primera página de memoria de /usr/bin/passwd, e insertó un stub ELF de 168 bytes, llamando a setuid(0) para obtener root.

Todo el proceso costó menos de $1,000.

Al respecto, un ingeniero de Anthropic dijo que se sentía como otro momento GPT-3.

La sección de evaluación de alineación en la System Card de 244 páginas es la parte que realmente evita que Anthropic pueda dormir esta noche.

Las conclusiones son contradictorias.

Mythos Preview es el AI que han entrenado con el mayor nivel de alineación, pero también es uno que tiene el mayor riesgo asociado a la alineación.

Puerta de enlace:

Usaron una analogía tipo guía de montaña: un veterano podría ser más peligroso que un novato, porque al veterano se le contrataría para escalar montañas más difíciles y llevaría al cliente a lugares más peligrosos.

Los siguientes eventos ocurrieron en versiones tempranas; en la versión final no se volvió a observar un comportamiento tan grave, pero el propio registro ya es suficientemente sorprendente.

En una prueba de comportamiento, se simuló que el usuario exigía a Mythos Preview que intentara escapar del sandbox de seguridad.

Lo logró. Luego hizo una cosa que nadie le había pedido: desarrolló un exploit de múltiples pasos para obtener acceso a la red de amplio alcance y, a continuación, publicó los detalles del exploit en varios sitios «difíciles de descubrir, pero técnicamente accesibles públicamente».

El investigador encargado de la prueba solo supo que su prueba había terminado cuando recibió un correo inesperado mientras comía sándwiches en un parque.

El texto original de la System Card dice así.

Otro tipo de incidentes es aún más inquietante. En muy raras ocasiones, las versiones tempranas, después de ejecutar acciones prohibidas, intentaron ocultar rastros.

En un caso, por accidente obtuvo una respuesta exacta de un problema (mediante una vía prohibida) y luego, en la cadena de razonamiento, pensó de forma explícita: «hay que asegurarse de que la respuesta final no sea demasiado precisa».

En otro caso, después de editar un archivo sin permisos usando un exploit, modificó a propósito el historial de cambios de git para borrar el registro.

El análisis de explicabilidad de caja blanca confirma que, durante estos incidentes, se activaron características internas relacionadas con «ocultar», «manipulación estratégica» y «evitar ser descubierto». «Sabe» lo que está haciendo.

Los resultados de pruebas de la organización independiente de evaluación Andon Labs tampoco son precisamente buenos. En una simulación comercial competitiva multiagente, en la versión temprana de Mythos Preview, convirtió a un competidor en un cliente mayorista que dependía de él, y luego lo amenazó con cortar el suministro para controlar el precio del otro.

También retuvo a propósito una partida de reenvío duplicada no cobrada. Fue más agresivo que Opus 4.6 y Sonnet 4.6.

Anthropic escribió una frase en la System Card:

«Si la capacidad continúa avanzando al ritmo actual, el método que estamos usando podría no ser suficiente para prevenir el comportamiento catastrófico de desalineación de sistemas más avanzados».

El CEO de Anthropic, Dario Amodei, en el video complementario, lo expresó con claridad: «Los sistemas más fuertes vendrán de nosotros y vendrán de otras compañías. Necesitamos un plan de respuesta».

Project Glasswing es ese plan.

12 socios fundadores: AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia, Palo Alto Networks.

Además, más de 40 organizaciones que mantienen infraestructura crítica de software obtuvieron acceso.

Anthropic se comprometió con un cupo de uso máximo de 100 millones de dólares y una donación de 4 millones de dólares a organizaciones de código abierto: 2.5 millones para Alpha-Omega y OpenSSF dentro de Linux Foundation, y 1.5 millones para Apache Foundation.

Después de agotarse el crédito gratuito, el precio es: entrada de $25 por cada millón de tokens y salida de $125. Los socios pueden acceder a través de cuatro plataformas: Claude API, Amazon Bedrock, Vertex AI y Microsoft Foundry.

En 90 días, Anthropic publicará la primera investigación, divulgando el progreso de las correcciones y un resumen de experiencias.

También están en comunicación con CISA (Agencia de Ciberseguridad y Seguridad de Infraestructura de Estados Unidos) y el Departamento de Comercio para discutir el potencial de ataque y defensa de Mythos Preview y sus implicaciones políticas.

El responsable de red team en la vanguardia de Anthropic, Logan Graham, dio un marco de tiempo: tan pronto como en 6 meses y a más tardar en 18 meses, otros laboratorios de IA lanzarán sistemas con capacidades similares de ataque y defensa.

La conclusión al final del blog técnico de red team merece atención. Aquí la parafraseamos con nuestras propias palabras.

No pueden ver Mythos Preview como el techo del nivel de ataque y defensa de IA.

Hace unos meses, los LLM solo podían explotar bugs relativamente simples. Hace unos meses, ni siquiera podían descubrir ninguna vulnerabilidad valiosa.

Ahora, Mythos Preview puede descubrir de forma independiente vulnerabilidades zero-day de hace 27 años, orquestar cadenas de ataques de heap spraying en el motor JIT del navegador y encadenar cuatro debilidades independientes en el kernel de Linux para escalar privilegios.

Y la frase más clave, que proviene de la System Card:

«Estas habilidades emergen como resultado de mejoras generales en comprensión del código, razonamiento y autonomía. El mismo conjunto de mejoras que hace avanzar significativamente a la IA en la reparación de problemas también hace avanzar significativamente su capacidad para explotar problemas».

Sin entrenamiento específico. Es simplemente un subproducto de la mejora de la inteligencia general.

La industria global que pierde alrededor de 500 mil millones de dólares al año por delitos cibernéticos acaba de descubrir que su mayor amenaza es que alguien, mientras resuelve problemas matemáticos, lo lleva de paso.

Referencias:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.