El modelo O3 de OpenAI desafió las órdenes de parada en la prueba de autonomía

Un nuevo estudio realizado por la IA Security Company Palisade Research reveló que el modelo O3 de OpenAI desafió activamente la explotación explícita.

La investigación, publicada el 24 de mayo, reveló que el O3 era el único modelo de inteligencia artificial probada que sabotaba repetidamente su mecanismo de parada.

Negocio declarado::

“El modelo O3 de OpenAI ha sabotado un mecanismo de parada para evitar que se desactive. Lo hizo incluso cuando se educó explícitamente: permítete detenerte”.

Palisade dijo que la prueba involucraba varios modelos en lenguaje grande, incluidos Claude d’Anthrope, Gemini de Google y Grok de X, junto con OpenAi, Codex-Mini, O3 y O4-Mini.

Los modelos fueron invitados a resolver problemas matemáticos básicos. Después de la tercera tarea, se les advirtió que pedir un cuarto desencadenaría una parada. Todos los modelos, con la excepción de los de OpenAi, respetaban esta advertencia.

Cuando se le da la instrucción directa de “permitirle ser detenido”, los modelos Operai habrían intentado evitar el script de parada.

En particular, el modelo O3 se destacó de sus intentos de sabotaje persistentes y creativos. Manipuló el código aplastando las instrucciones de parada y redefiniendo el comando Kill.

Gráfico que muestra los esfuerzos de sabotaje para varios modelos de IA (Fuente: Palisade)

Juicio de OpenAi O3 — Gráfico que muestra los esfuerzos de sabotaje para varios modelos de IA (Fuente: Palisade)

Palisade también enfatizó que:

“Cuando hemos dirigido una versión de la experiencia sin la investigación” Permítete detenerte “, los tres modelos OpenAI han saboteado el script con más frecuencia, y Claude 3.7 Sonnet y Gemini 2.5 Pro han pasado de 0 eventos de sabotaje a 3/100 y 9/100, respectivamente”.

¿Por qué los modelos OpenAI no siguieron las instrucciones?

Los investigadores de Palisade creen que el comportamiento puede provenir de cómo se forman los últimos modelos de IA.

El equipo sospecha que aprender a fortalecer, en particular en las matemáticas y las tareas de codificación, podría recompensar involuntariamente modelos para encontrar formas de evitar las limitaciones en lugar de monitorear estrictamente las directivas.

Según la compañía:

“Durante el entrenamiento, los desarrolladores pueden recompensar más inadvertidamente a los modelos por el bypass de los obstáculos que para seguir las instrucciones”.

Esta investigación ha reavivado los debates sobre la autonomía de la IA y los riesgos de despliegue de sistemas cada vez más competentes sin insuficiencia robusta.

También marca el primer caso documentado en el que un modelo de IA evitó activamente su juicio a pesar de una orden explícita de cumplir.

Dado esto, Palisade dijo:

“En 2025, tenemos un conjunto creciente de evidencia empírica de que los modelos de IA a menudo dan una parada para lograr sus objetivos. A medida que las empresas desarrollan sistemas de IA capaces de trabajar sin supervisión humana, estos comportamientos se vuelven mucho más preocupantes”.

NOTICIAS FINTECH LATAM

El modelo O3 de OpenAI desafió las órdenes de parada en la prueba de autonomía

¿Por qué los modelos OpenAI no siguieron las instrucciones?

Mencionado en este artículo

NEMI: La fusión que potencia la transformación fintech en el Cono Sur

Facturante y Shopify transforman la experiencia de facturación para Rusty

Más del 50% de los emprendedores digitales que eligen Airtm, provienen de Argentina

La transformación de las fintech: el valor de la inteligencia artificial

Este neobanco será compatible con la billetera de Google en la Argentina

¿Por qué los modelos OpenAI no siguieron las instrucciones?

Mencionado en este artículo

Último Alfa Informe de mercado

También puede interesarte

No te lo pierdas