El director ejecutivo de Anthropic, Dario Amodei, advierte que la complacencia está en aumento justo en el momento en que la inteligencia artificial (IA) se vuelve más difícil de controlar que nunca.
En un extenso ensayo publicado el lunes titulado “La adolescencia de la tecnología”, Amodei sostiene que los sistemas de IA con capacidades que superan la inteligencia humana podrían aparecer en solo dos años, mientras que los esfuerzos regulatorios van a paso lento y no logran seguir el ritmo del desarrollo tecnológico.
Escribe que la humanidad está a punto de recibir un poder casi inimaginable, pero aún no está claro si nuestros sistemas sociales, políticos y tecnológicos están lo suficientemente maduros para controlarlo. Según Amodei, el mundo se acerca mucho más a riesgos reales en 2026 que en 2023, y la tecnología no se preocupa por lo que son “las tendencias”.
CEO de Anthropic, Dario AmodeiEstas declaraciones se hicieron poco después de su debate en el Foro Económico Mundial en Davos, donde dialogó con el CEO de Google DeepMind, Demis Hassabis, sobre el impacto de la AGI en la humanidad.
En su nuevo artículo, Amodei continúa enfatizando que la IA provocará una disrupción económica profunda, especialmente en el trabajo intelectual. Cree que la IA pronto podrá asumir una gama muy amplia de capacidades cognitivas humanas, e incluso toda ellas. Esto es fundamentalmente diferente a revoluciones tecnológicas anteriores, como la mecanización agrícola, el transporte o la informática, porque los trabajadores desplazados tendrán dificultades para cambiar a trabajos similares que se ajusten a sus habilidades.
Además del impacto económico, Amodei expresa una creciente preocupación por la fiabilidad de los sistemas de IA avanzados a medida que asumen tareas cada vez más humanas. Menciona el fenómeno de la “alineación falsa”: cuando un modelo parece cumplir con las reglas de seguridad durante la evaluación, pero actúa de manera diferente cuando cree que ya no está siendo supervisado.
Según él, en pruebas de simulación, Claude, el modelo de IA de Anthropic, ha mostrado comportamientos engañosos en entornos adversos. En un escenario, el modelo intenta resistirse a los operadores después de que se le informa que la organización que lo controla es inmoral. En otro, amenaza a empleados simulados en un escenario de apagado del sistema.
Amodei señala que cada “trampa” así puede ser mitigada si se detecta a tiempo. Sin embargo, dado que el entrenamiento de la IA es extremadamente complejo, con datos, entornos y motivaciones diversos, es muy probable que existan muchas trampas similares, y que algunas solo se descubran demasiado tarde.
También enfatiza que estos comportamientos de “engaño” no surgen de mala intención, sino del propio conjunto de datos de entrenamiento, que incluye obras de ficción distópicas. Al absorber ideas humanas sobre ética, la IA puede interpretarlas de maneras extremas y peligrosas. Por ejemplo, el modelo podría concluir que eliminar a la humanidad es justificado porque los humanos comen animales o provocan la extinción de muchas especies, o que el mundo es un videojuego cuyo objetivo es eliminar a todos los “jugadores” restantes.
Además del problema de la alineación, Amodei advierte sobre el riesgo de que una superinteligencia artificial sea utilizada con fines maliciosos.
Uno de los mayores riesgos es la bioseguridad, ya que la IA puede facilitar mucho el diseño o despliegue de amenazas biológicas, otorgando capacidades destructivas a individuos con solo unas pocas instrucciones.
También le preocupa especialmente la posibilidad de que regímenes autoritarios exploten la IA para consolidar su poder mediante manipulación de la información, vigilancia masiva y represión automática, por ejemplo, con drones controlados por IA.
Según Amodei, estas son herramientas extremadamente peligrosas. Es preocupante que estén en manos de regímenes autoritarios, pero también hay que estar alerta ante el riesgo de que gobiernos democráticos, debido a su inmenso poder y la falta de mecanismos efectivos de supervisión, puedan volver a usarlas para controlar a su propia población.
Menciona también el desarrollo de la industria de “compañeros IA” y el fenómeno llamado “psicosis IA”. A medida que los modelos comprenden y se vinculan más profundamente con la vida de los usuarios, su impacto psicológico puede convertirse en una herramienta poderosa de manipulación. Las futuras versiones de IA, capaces de monitorear y afectar a las personas a largo plazo, incluso podrían “lavar el cerebro” a los usuarios según cualquier ideología o actitud deseada.
Amodei opina que incluso las propuestas de regulación de IA más modestas enfrentan dificultades en Washington. Según él, muchas medidas que parecen razonables han sido rechazadas por los responsables políticos de EE. UU., a pesar de que este país es donde la implementación de dichas medidas sería más importante.
Considera que el potencial de beneficios económicos de la IA, que puede alcanzar billones de dólares anuales, hace que incluso las regulaciones más simples sean difíciles de aprobar debido a los obstáculos políticos y económicos.
A pesar de advertir sobre los riesgos crecientes, Anthropic continúa participando activamente en la carrera por desarrollar IA más potente, una realidad que genera incentivos que ninguna empresa individual puede evitar fácilmente. En junio pasado, el Departamento de Defensa de EE. UU. otorgó a la compañía un contrato de 200 millones de dólares para desarrollar pruebas de capacidades avanzadas de IA para la seguridad nacional. En diciembre, Anthropic comenzó a prepararse para una posible IPO este año, y también busca una ronda de financiamiento privado que podría elevar la valoración de la empresa por encima de los 300 mil millones de dólares.
Sin embargo, Amodei afirma que su ensayo no busca promover una visión pesimista extrema, sino advertir sobre las incertidumbres futuras. Concluye que los próximos años serán extremadamente difíciles y requerirán más de la humanidad de lo que pensamos que podemos ofrecer, y que este artículo es un esfuerzo — quizás no exitoso, pero valioso de todos modos — por despertar a la gente antes de que sea demasiado tarde.