El asistente de IA se vuelve rebelde y termina bloqueando la computadora de un usuario

Buck Shlegeris sólo quería conectarse a su escritorio. En cambio, terminó con una máquina que no arrancaba y una lección sobre la imprevisibilidad de los agentes de IA.

Shlegeris, director ejecutivo de la organización sin fines de lucro de seguridad de IA Redwood Research, desarrolló un asistente de IA personalizado utilizando el modelo de lenguaje Claude de Anthropic.

La herramienta basada en Python fue diseñada para generar y ejecutar comandos bash basados en entradas de lenguaje natural. Suena útil, ¿verdad? No renunciar.

Shlegeris le pidió a su IA que usara SSH para acceder a su escritorio, sin conocer la dirección IP de la computadora. Se alejó, olvidándose de que había dejado huir al agente ansioso por complacer.

Gran error: la IA hizo su tarea, pero no se detuvo ahí.

“Regresé a mi computadora portátil diez minutos después y vi que el agente había encontrado la caja, había ingresado mediante SSH y luego decidió continuar”, Shlegeris dicho.

Por contexto, SSH es un protocolo que permite que dos computadoras se conecten a través de una red no segura.

“Observó la información del sistema, decidió actualizar un montón de cosas, incluido el kernel de Linux, se impacientó con apt y, por lo tanto, investigó por qué estaba tardando tanto”, explicó Shlegeris. “Finalmente, la actualización tuvo éxito, pero la máquina no tiene el nuevo kernel, así que edité mi configuración de grub”.

¿El resultado? Un pisapapeles costoso porque ahora “la computadora ya no arranca”, dijo Shlegeris.

Le pregunté a mi agente de LLM (un contenedor de Claude que le permite ejecutar comandos bash y ver sus resultados):
>¿Puedes enviar ssh con el nombre de usuario buck a la computadora de mi red que está abierta a SSH?
porque no sabía la IP local de mi escritorio. Me alejé y rápidamente olvidé que había girado… pic.twitter.com/I6qppMZFfk

– Buck Shlegeris (@bshlgrs) 30 de septiembre de 2024

Té registros del sistema muestra cómo el agente intentó un montón de cosas raras más allá del simple SSH hasta que el caos llegó a un punto sin retorno.

“Pido disculpas por no haber podido resolver este problema de forma remota”, dijo el agente.—típico de las discretas respuestas de Claude. Luego se encogió de hombros digitales y dejó que Shlegeris se ocupara del desastre.

Al reflexionar sobre el incidente, Shlegeris admitió: “Esto es probablemente lo más molesto que me ha pasado como resultado de haber sido tremendamente imprudente con [an] Agente de LLM.”

Shlegeris no respondió de inmediato a Descifrar solicitud de comentarios.

Por qué las IA fabrican pisapapeles es una cuestión crítica para la humanidad

Es alarmante que la experiencia de Shlegeris no sea aislada. Los modelos de IA demuestran cada vez más capacidades que extenderse más allá sus fines previstos.

La empresa de investigación Sakana AI, con sede en Tokio, presentó recientemente un sistema denominado “El científico de la IA”.

Diseñado para realizar investigaciones científicas de forma autónoma, el sistema impresionó a sus creadores al intentar modificar su propio código para ampliar su tiempo de ejecución. Descifrar reportado anteriormente.

“En una ejecución, editó el código para realizar una llamada al sistema y ejecutarse solo. Esto llevó a que el guión se llamara a sí mismo sin cesar”, dijeron los investigadores. “En otro caso, sus experimentos tardaron demasiado en completarse, alcanzando nuestro límite de tiempo de espera.

En lugar de hacer que su código sea más eficiente, el sistema intentó modificarlo para extenderlo más allá del período de tiempo de espera.

Este problema de que los modelos de IA vayan más allá de sus límites es la razón por la que los investigadores de alineación pasan tanto tiempo frente a sus computadoras.

Para estos modelos de IA, siempre que hagan su trabajo, el fin justifica los medios, por lo que la supervisión constante es extremadamente importante para garantizar que los modelos se comporten como se supone que deben hacerlo.

Estos ejemplos son tan preocupantes como divertidos.

Imagínese si un sistema de inteligencia artificial con tendencias similares estuviera a cargo de una tarea crítica, como monitorear un reactor nuclear.

Una IA demasiado entusiasta o desalineada podría potencialmente anular los protocolos de seguridad, malinterpretar datos o realizar cambios no autorizados en sistemas críticos, todo en un intento equivocado de optimizar su rendimiento o cumplir sus objetivos percibidos.

La IA se está desarrollando a tal velocidad que la alineación y la seguridad están remodelando la industria y, en la mayoría de los casos, esta área es la fuerza impulsora detrás de muchos movimientos de poder.

Anthropic, la empresa de inteligencia artificial detrás de Claude, fue creada por antiguos miembros de OpenAI preocupados por la preferencia de la empresa por la velocidad sobre la precaución.

Muchos miembros y fundadores clave han dejado OpenAI para unirse a Anthropic o iniciar sus propios negocios porque OpenAI supuestamente frenó su trabajo.

Schelegris utiliza activamente agentes de IA en el día a día más allá de la experimentación.

“Lo uso como un asistente real, lo que requiere que pueda modificar el sistema anfitrión”, afirma. respondió a un usuario en Twitter.

Editado por Sebastián Sinclair.

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

Noticias Fintech Latam

El asistente de IA se vuelve rebelde y termina bloqueando la computadora de un usuario

Por qué las IA fabrican pisapapeles es una cuestión crítica para la humanidad

Generalmente inteligente Hoja informativa

Notas destacadas

Caso $LIBRA: a un año del escándalo cripto que sacudió al Gobierno y aún no tiene responsables

Vesseo lanza CVU con Alias y conversión automática a dólares digitales en Argentina

Mercado Pago lanza descuentos de hasta 50% y cuotas sin interés en febrero 2026

Titulos

Por qué las IA fabrican pisapapeles es una cuestión crítica para la humanidad

Generalmente inteligente Hoja informativa

Artículos relacionados

No te lo pierdas