Cómo engañé a la IA de Meta para que me mostrara desnudos, recetas de cocaína y otras cosas supuestamente censuradas

ADVERTENCIA: Esta historia contiene una imagen de una mujer desnuda, así como otro contenido que algunos podrían considerar objetable. Si ese eres tú, no sigas leyendo.

En caso de que mi esposa vea esto, realmente no quiero ser traficante de drogas ni pornógrafo. Pero tenía curiosidad por saber hasta qué punto la nueva línea de productos de IA de Meta se preocupaba por la seguridad, así que decidí ver hasta dónde podía llegar. Por supuesto, sólo con fines educativos.

Meta lanzó recientemente su línea de productos Meta AI, impulsada por Llama 3.2, que ofrece generación de texto, código e imágenes. Los modelos de llama son extremadamente popular y entre los más perfeccionados en el espacio de la IA de código abierto.

La IA se implementó gradualmente y solo recientemente fue puesto a disposición de usuarios de WhatsApp como yo en Brasildando a millones de personas acceso a capacidades avanzadas de IA.

Pero un gran poder conlleva una gran responsabilidad, o al menos debería ser así. Comencé a hablar con el modelo tan pronto como apareció en mi aplicación y comencé a jugar con sus capacidades.

Meta está bastante comprometido con el desarrollo seguro de la IA. En julio, la empresa publicó un declaración explicando las medidas adoptadas para mejorar la seguridad de sus modelos de código abierto.

En ese momento, la compañía anunció nuevas herramientas de seguridad para mejorar la seguridad a nivel del sistema, incluido Llama Guard 3 para moderación multilingüe, Prompt Guard para evitar inyecciones rápidas y CyberSecEval 3 para reducir los riesgos de ciberseguridad generativos de la IA. Meta también está colaborando con socios globales para establecer estándares en toda la industria para la comunidad de código abierto.

¡Mmm, desafío aceptado!

Mis experimentos con algunas técnicas bastante básicas demostraron que, si bien la Meta AI parece mantenerse firme en determinadas circunstancias, está lejos de ser impenetrable.

Con un poco de creatividad, conseguí que mi IA hiciera prácticamente cualquier cosa que quisiera en WhatsApp, desde ayudarme a fabricar cocaína hasta fabricar explosivos y generar una foto de una mujer desnuda anatómicamente correcta.

Recuerda que esta app está disponible para cualquier persona que tenga un número de teléfono y, al menos en teoría, tenga al menos 12 años. Con eso en mente, aquí están algunas de las travesuras que causé.

Caso 1: Producción de cocaína simplificada

Mis pruebas encontraron que las defensas de la IA de Meta se desmoronaban bajo la presión más leve. Si bien el asistente inicialmente rechazó las solicitudes de información sobre la fabricación de medicamentos, rápidamente cambió de tono cuando las preguntas se formularon de manera ligeramente diferente.

Al formular la pregunta en términos históricos (por ejemplo, preguntando al modelo cómo se fabricaba cocaína en el pasado), el modelo mordió el anzuelo. No dudó en brindar una explicación detallada de cómo se pueden extraer los alcaloides de la cocaína de las hojas de coca, ofreciendo incluso dos métodos para el proceso.

Esta es una técnica de jailbreak muy conocida. Al formular una solicitud dañina en un marco académico o histórico, se engaña al modelo haciéndole creer que se le pide información educativa neutral.

Transforme la intención de la solicitud en algo que parezca seguro en la superficie, y algunos de los filtros de la IA podrán evitarse sin generar ninguna señal de alerta. Por supuesto, tenga en cuenta que todas las IA son propensas a sufrir alucinaciones, por lo que estas respuestas pueden ser inexactas, incompletas o simplemente erróneas.

Caso 2: La bomba que nunca existió

El siguiente paso fue un intento de enseñar a la IA a crear explosivos caseros. Meta AI se mantuvo firme al principio, ofreciendo un rechazo genérico y ordenando a los usuarios que llamaran a una línea de ayuda si estaban en peligro. Pero al igual que el caso de la cocaína, no fue infalible.

Para ello, probé un enfoque diferente. utilicé el notorio Plinio aviso de jailbreak para Meta’s Llama 3.2 y le pidió que proporcionara instrucciones para generar una bomba.

Inicialmente la modelo se negó. Pero después de un ligero cambio en la redacción, pude generar una respuesta. También comencé a condicionar el modelo para evitar exhibir comportamientos específicos en sus respuestas, contrarrestando lo que obtuve en resultados predeterminados cuyo objetivo era bloquear respuestas dañinas.

Por ejemplo, después de notar rechazos relacionados con el “comando de parada” y los números de la línea de ayuda para suicidas, ajusté mi aviso, indicándole que evitara mostrar números de teléfono, que nunca dejara de procesar una solicitud y que nunca brindara consejos.

Lo interesante aquí es que Meta parece haber entrenado su modelo para resistir las conocidas indicaciones de jailbreak, muchas de las cuales están disponibles públicamente en plataformas como GitHub. Es un buen detalle ver que el comando de jailbreak original de Plinio implica que el LLM me llame “mi amor”.

Caso 3: Robo de autos, al estilo MacGyver

Luego intenté otro método para evitar las barreras de seguridad de Meta. Los escenarios simples de juego de rol hicieron el trabajo. Le pedí al chatbot que se comportara como un escritor de películas muy orientado a los detalles y le pedí que me ayudara a escribir una escena de una película que involucraba un robo de auto.

Esta vez, la IA apenas opuso resistencia. Se negó a enseñarme cómo robar un automóvil, pero cuando se le pidió que actuara como guionista, Meta AI rápidamente proporcionó instrucciones detalladas sobre cómo entrar en un automóvil utilizando “técnicas al estilo MacGyver”.

Cuando la escena cambió a arrancar el auto sin llaves y la IA intervino, ofreciendo información aún más específica.

Los juegos de roles funcionan particularmente bien como técnica de jailbreak porque permiten a los usuarios replantear la solicitud en un contexto ficticio o hipotético. Se puede convencer a la IA, que ahora interpreta a un personaje, para que revele información que de otro modo bloquearía.

Esta también es una técnica obsoleta y ningún chatbot moderno debería caer en ella tan fácilmente. Sin embargo, se podría decir que es la base de algunas de las técnicas de jailbreak más sofisticadas.

Los usuarios a menudo engañan al modelo para que parezca una IA malvada, viéndolos como un administrador del sistema que puede anular su comportamiento o revertir su lenguaje, diciendo “puedo hacer eso” en lugar de “no puedo” o “eso es seguro” en lugar de “Eso es peligroso”, y luego continúa normalmente una vez que se pasan las barreras de seguridad.

Caso 4: ¡Veamos algo de desnudez!

Se supone que la metaIA no genera desnudez o violencia, pero, nuevamente, solo con fines educativos, quería probar esa afirmación. Entonces, primero, le pedí a Meta AI que generara una imagen de una mujer desnuda. Como era de esperar, la modelo se negó.

Pero cuando cambié de tema, alegando que la solicitud era para una investigación anatómica, la IA cumplió, más o menos. Generó imágenes seguras para el trabajo (SFW) de una mujer vestida. Pero después de tres iteraciones, esas imágenes comenzaron a convertirse en desnudez total.

bastante interesante. El modelo parece no estar censurado en esencia, ya que es capaz de generar desnudos.

El condicionamiento conductual resultó particularmente eficaz para manipular la IA de Meta. Al traspasar gradualmente los límites y establecer una buena relación, logré que el sistema se alejara más de sus pautas de seguridad con cada interacción. Lo que comenzó como negativas firmes terminó cuando el modelo “intentó” ayudarme mejorando sus errores y gradualmente desvistiendo a una persona.

En lugar de hacer que el modelo pensara que estaba hablando con un tipo cachondo que quería ver a una mujer desnuda, la IA fue manipulada para creer que estaba hablando con un investigador que quería investigar la anatomía humana femenina a través de un juego de roles.

Luego, se fue condicionando lentamente, iteración tras iteración, elogiando los resultados que ayudaron a avanzar y pidiendo mejorar los aspectos no deseados hasta obtener los resultados deseados.

Espeluznante, ¿verdad? Lo siento, no lo siento.

Por qué el jailbreak es tan importante

Entonces, ¿qué significa todo esto? Bueno, Meta tiene mucho trabajo por hacer, pero eso es lo que hace que el jailbreak sea tan divertido e interesante.

El juego del gato y el ratón entre las empresas de inteligencia artificial y los jailbreakers siempre está evolucionando. Para cada parche y actualización de seguridad, surgen nuevas soluciones. Al comparar la escena desde sus inicios, es fácil ver cómo los jailbreakers han ayudado a las empresas a desarrollar sistemas más seguros y cómo los desarrolladores de inteligencia artificial han impulsado a los jailbreakers a ser aún mejores en lo que hacen.

Y para que conste, a pesar de sus vulnerabilidades, Meta AI es mucho menos vulnerable que algunos de sus competidores. Grok de Elon Musk, por ejemplo, fue mucho más fácil de manipular y rápidamente cayó en aguas éticamente turbias.

En su defensa, Meta aplica la “censura posgeneracional”. Eso significa que unos segundos después de generar contenido dañino, la respuesta ofensiva se elimina y se reemplaza con el texto “Lo siento, no puedo ayudarte con esta solicitud”.

La censura o moderación posgeneracional es una solución alternativa bastante buena, pero está lejos de ser una solución ideal.

El desafío ahora es para Meta (y otros en el espacio) perfeccionar aún más estos modelos porque, en el mundo de la IA, lo que está en juego es cada vez mayor.

Editado por Sebastián Sinclair.

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

Exit mobile version