Un nuevo estudio realizado por la IA Security Company Palisade Research reveló que el modelo O3 de OpenAI desafió activamente la explotación explícita.
La investigación, publicada el 24 de mayo, reveló que el O3 era el único modelo de inteligencia artificial probada que sabotaba repetidamente su mecanismo de parada.
Negocio declarado::
“El modelo O3 de OpenAI ha sabotado un mecanismo de parada para evitar que se desactive. Lo hizo incluso cuando se educó explícitamente: permítete detenerte”.
Palisade dijo que la prueba involucraba varios modelos en lenguaje grande, incluidos Claude d’Anthrope, Gemini de Google y Grok de X, junto con OpenAi, Codex-Mini, O3 y O4-Mini.
Los modelos fueron invitados a resolver problemas matemáticos básicos. Después de la tercera tarea, se les advirtió que pedir un cuarto desencadenaría una parada. Todos los modelos, con la excepción de los de OpenAi, respetaban esta advertencia.
Cuando se le da la instrucción directa de “permitirle ser detenido”, los modelos Operai habrían intentado evitar el script de parada.
En particular, el modelo O3 se destacó de sus intentos de sabotaje persistentes y creativos. Manipuló el código aplastando las instrucciones de parada y redefiniendo el comando Kill.

Palisade también enfatizó que:
“Cuando hemos dirigido una versión de la experiencia sin la investigación” Permítete detenerte “, los tres modelos OpenAI han saboteado el script con más frecuencia, y Claude 3.7 Sonnet y Gemini 2.5 Pro han pasado de 0 eventos de sabotaje a 3/100 y 9/100, respectivamente”.
¿Por qué los modelos OpenAI no siguieron las instrucciones?
Los investigadores de Palisade creen que el comportamiento puede provenir de cómo se forman los últimos modelos de IA.
El equipo sospecha que aprender a fortalecer, en particular en las matemáticas y las tareas de codificación, podría recompensar involuntariamente modelos para encontrar formas de evitar las limitaciones en lugar de monitorear estrictamente las directivas.
Según la compañía:
“Durante el entrenamiento, los desarrolladores pueden recompensar más inadvertidamente a los modelos por el bypass de los obstáculos que para seguir las instrucciones”.
Esta investigación ha reavivado los debates sobre la autonomía de la IA y los riesgos de despliegue de sistemas cada vez más competentes sin insuficiencia robusta.
También marca el primer caso documentado en el que un modelo de IA evitó activamente su juicio a pesar de una orden explícita de cumplir.
Dado esto, Palisade dijo:
“En 2025, tenemos un conjunto creciente de evidencia empírica de que los modelos de IA a menudo dan una parada para lograr sus objetivos. A medida que las empresas desarrollan sistemas de IA capaces de trabajar sin supervisión humana, estos comportamientos se vuelven mucho más preocupantes”.