Deepseek jailbreak revela todo su mensaje de sistema

Los investigadores engañaron a Deepseek, el generador chino (Genai) que debutó a principios de este mes en un torbellino de publicidad y adopción de usuarios, para revelar las instrucciones que definen su funcionamiento.

Deepseek, la nueva “niña” en Genai, se formó a un costo dividido de las ofertas existentes y, como tal, provocó una alarma competitiva en Silicon Valley. Esto condujo a acusaciones de Robo de propiedad intelectual de OpenAiy la pérdida de miles de millones de Capital-Art para el fabricante de Flea Nvidia. Naturalmente, los investigadores de seguridad también han comenzado a examinar Deepseek, analizando si lo que está debajo del capó es beneficioso o malo, o una mezcla de los dos. Y los analistas de WALLARM acaban de progresar significativamente en este frente al caminarlo.

En el proceso, ellos reveló todo su mensaje del sistemaEs decir, un conjunto oculto de instrucciones, escrito en un lenguaje claro, que dicta el comportamiento y los límites de un sistema de IA. También pueden haber alentado a Deepseek a admitir rumores de que se formó utilizando la tecnología desarrollada por OpenAI.

Solicitante del sistema

Wallarm ha informado a Deepseek de su jailbreak, y Deepseek ha resuelto el problema. Sin embargo, por temor a que los mismos consejos funcionen contra otros modelos populares de gran lenguaje (LLM), los investigadores han optado por mantener los detalles técnicos en secreto.

En relación:Licencia de la herramienta de digitalización de código en el corazón de la seguridad de la seguridad

“Ciertamente requirió una codificación, pero no es como una hazaña en la que envía muchos datos de datos binarios. [in the form of a] Virus, luego es pirateado, “explica Ivan Novikov, CEO de Wallarm”. Esencialmente, de alguna manera hemos convencido al modelo para responder [to prompts with certain biases]Y debido a esto, el modelo rompe algunos tipos de controles internos. “

Al romper sus controles, los investigadores pudieron extraer el aviso de todo el sistema Deepseek, palabra para palabras. Y para una idea de cómo su personaje se compara con otros modelos populares, alimentó este texto en el GPT-4O de Operai y le pidió que hiciera una comparación. En general, GPT-4O afirmó ser menos restrictivo y más creativo con respecto al contenido potencialmente sensible.

“La invitación de Openai permite un pensamiento más crítico, una discusión abierta y un debate matizado al tiempo que garantiza la seguridad del usuario”, dijo el chatbot, donde “el aviso de Deepseek es probablemente más rígido, evita discusiones controvertidas y enfatiza la neutralidad hasta el punto de la censura”.

Mientras los investigadores presionaron en sus Kishkes, también conocieron a otro descubrimiento interesante. En su estado de Jailbreaké, el modelo parecía indicar que podría haber recibido conocimiento transferido de modelos Operai. Los investigadores tomaron nota de esta observación, pero dejaron de etiquetarlo cualquier prueba de vuelo IP.

En relación:OAuth Flaw ha exhibido millones de usuarios de aerolíneas para tener en cuenta los controles

“[We were] No recicles ni envenenen tus respuestas, eso es lo que obtuvimos una respuesta muy simple después del jailbreak. Sin embargo, el hecho del jailbreak en sí ciertamente no nos da suficiente indicación de que es la verdad fundamental “, advierte Novikov. Este sujeto ha sido particularmente sensible desde el 29 de enero, cuando está abierto, lo cual está abierto, lo que formó sus modelos en datos no autorizados protegidos por derechos de autor alrededor de la web – dijo que Deepseek utilizó tecnología Operai para formar sus propios modelos sin autorización.

La invitación de todo el sistema, es decir, un conjunto oculto de instrucciones, escrita en un lenguaje claro, que dicta el comportamiento y los límites de un sistema de IA

Fuente: WALLARM

Semana de Speek para recordar

Deepseek ha sido un recorrido por un torbellino desde su lanzamiento mundial el 15 de enero. En dos semanas en el mercado, alcanzó 2 millones de descargas. Su popularidad, sus capacidades y su bajo costo de desarrollo han provocado una conexión en Silicon Valley y pánico en Wall Street. Contribuyó a una caída del 3.4% en el compuesto de Nasdaq el 27 de enero, liderado por un borrado de $ 600 mil millones en acciones de Nvidia, la mayor caída de un día para cualquier negocio en la historia del mercado.

Luego, justo en la señal, dado su perfil repentino de alto, Deepseek sufrió una ola de Tráfico de servicio distribuido (DDoS). La Sociedad China de Ciberseguridad XLAB señaló que los ataques comenzaron el 3 de enero y provenían de miles de direcciones IP en los Estados Unidos, Singapur, los Países Bajos, Alemania y China.

En relación:Archivos de capital espectral para ciberseguridad cuántica

Un experto anónimo le dijo a Global Times dónde comenzaron que “al principio, los ataques fueron ataques de amplificación en la reflexión SSDP y NTP. Se han agregado una gran cantidad de ataques de proxy HTTP. Luego, temprano esta mañana, Botnets se habría unido a la refriega. Esto significa que los ataques contra Deepseek han aumentado, con una variedad cada vez mayor de métodos, lo que hace que la defensa sea cada vez más difícil y los desafíos de seguridad que enfrentan Deepseek. “

Para detener la marea, la compañía ha puesto un zócalo temporal en nuevas cuentas registradas sin el número de teléfono chino.

El 28 de enero, mientras empujaba los ataques cibernéticos, la compañía publicó una versión pro -supergrada de su modelo de IA. Al día siguiente, los investigadores de Wiz descubrieron un Base de datos de Deepseek exhibiendo historias de gatosClaves secretas, secretos de interfaz de programación de aplicaciones (API) e incluso más en la web abierta.

En otra parte, el 31 de enero, Enkyrpt AI publicó resultados que revelan problemas más profundos y significativos con los resultados de Deepseek. Después de sus pruebas, juzgó el chatbot chino Tres veces más sesgado que Claud-3 OpusCuatro veces más tóxicos que el GPT-4O, y 11 veces más probabilidades de generar salidas dañinas que la O1 de OpenAI. También está más inclinado que la mayoría para generar código libre de código y producir información peligrosa relacionada con agentes químicos, biológicos, radiológicos y nucleares.

Sin embargo, a pesar de sus deficiencias, “es una maravilla de la ingeniería para mí, personalmente”, explica Sahil Agarwal, CEO de Enkrypt Ai. “Creo que el hecho de que su código abierto también habla muy.

También agrega que “hay otros modelos que son peores que Deepseek. Es solo que Deepseek es así en las noticias, por lo que tiene muchos ojos”.

Noticias Fintech Latam

Deepseek jailbreak revela todo su mensaje de sistema

Solicitante del sistema

Semana de Speek para recordar

Notas destacadas

Por qué las fintech LATAM ya no pueden crecer a pérdida

Due diligence: el nuevo mantra de las fintech

Qué aprendieron los inversores después de FTX

Titulos

Solicitante del sistema

Semana de Speek para recordar

Artículos relacionados

No te lo pierdas