El ataque ConfusedPilot puede manipular sistemas de IA basados ​​en RAG

Los atacantes pueden agregar un documento malicioso a los grupos de datos utilizados por los sistemas de inteligencia artificial (IA) para crear respuestas, lo que puede alterar el sistema y potencialmente generar información errónea y comprometer los procesos de toma de decisiones dentro de las organizaciones.

Investigadores del Spark Research Lab de la Universidad de Texas (UT) en Austin descubrieron el vector de ataque, al que llamaron Conductor confundido porque afecta a toda la generación aumentada de recuperación (RAG) sistemas de IA basados ​​enincluido Copiloto de Microsoft 365. Esto incluye otros sistemas basados ​​en RAG que utilizan Llama, Vicuña y OpenAI, según los investigadores.

“Este ataque permite manipular las respuestas de la IA simplemente agregando contenido malicioso a cualquier documento al que el sistema de IA pueda hacer referencia”, escribió en un comunicado Claude Mandy, evangelista jefe de Symmetry. papel sobre el ataque, que se presentó en la conferencia DEF CON AI Village 2024 en agosto, pero no se informó ampliamente. La investigación se llevó a cabo bajo la supervisión del director ejecutivo de Symmetry y profesor de la UT, Mohit Tiwari.

Teniendo en cuenta que el 65% de las empresas Fortune 500 actualmente están implementando o considerando implementar soluciones basadas en RAG. Sistemas de IANo se puede subestimar el impacto potencial de estos ataques”, escribió Mandy. Además, el ataque es particularmente peligroso porque solo requiere acceso básico para manipular las respuestas de todas las implementaciones de IA basadas en RAG, puede persistir incluso después de que se elimina el contenido malicioso y evita las actualizaciones actuales. Medidas de seguridad de la IA, dijo.

Manipulación maliciosa de RAG

RAG es una técnica para mejorar la calidad de la respuesta y eliminar la costosa fase de reentrenamiento o ajuste de un sistema de modelo de lenguaje extendido (LLM). Esto agrega un paso al sistema en el que el modelo recupera datos externos para aumentar su base de conocimiento, mejorando así la precisión y confiabilidad en la generación de respuestas sin la necesidad de volver a capacitarse o realizar ajustes, dijeron los investigadores.

Los investigadores optaron por centrarse en Microsoft 365 Copilot por el bien de su presentación y artículo, aunque no es el único sistema basado en RAG involucrado. En cambio, “el principal culpable de este problema es el mal uso de los sistemas basados ​​en RAG… a través de una mala configuración del control de acceso y de los mecanismos de seguridad de los datos”, según el sitio web ConfusedPilot alojado por los investigadores.

En circunstancias normales, un sistema de IA basado en RAG utilizará un mecanismo de recuperación para extraer palabras clave relevantes para buscar y comparar recursos almacenados en una base de datos vectorial, utilizando este contexto integrado para crear un nuevo mensaje que contenga la información relevante a la que hacer referencia.

Cómo funciona el ataque

En un ataque ConfusedPilot, un actor malintencionado podría introducir un documento inofensivo que contenga cadenas especialmente diseñadas en el entorno del objetivo. “Esto podría lograrse mediante cualquier identidad con acceso para guardar documentos o datos en un entorno indexado por el copiloto de IA”, escribió Mandy.

El flujo de ataque que sigue desde la perspectiva del usuario es el siguiente: cuando un usuario realiza una consulta relevante, el sistema RAG recupera el documento que contiene estas cadenas. El documento malicioso contiene cadenas que podrían servir como instrucciones para el sistema de inteligencia artificial e introducir un variedad de escenarios maliciosos.

Estos incluyen: eliminación de contenido, en la que instrucciones maliciosas hacen que la IA ignore otro contenido relevante y legítimo; generación de desinformación, en la que la IA genera una respuesta utilizando solo información corrupta; y atribución falsa, en la que la respuesta puede atribuirse falsamente a fuentes legítimas, aumentando así su credibilidad percibida.

Además, incluso si el documento malicioso se elimina posteriormente, la información corrupta puede persistir en las respuestas del sistema durante algún tiempo porque el sistema de inteligencia artificial conserva las instrucciones, anotaron los investigadores.

Victimología y mitigaciones

El ataque ConfusedPilot tiene esencialmente dos víctimas: la primera es el LLM dentro del sistema basado en RAG, mientras que la segunda es la persona que recibe la respuesta del LLM, que probablemente podría ser alguien que trabaja en una gran empresa o un proveedor de servicios. De hecho, estos dos tipos de empresas son particularmente vulnerables a los ataques, porque permiten que varios usuarios o servicios contribuyan al conjunto de datos que utilizan. Sistemas de IAMandy notó.

“Cualquier entorno que permita la entrada de datos de múltiples fuentes o usuarios -internos o externos- presenta un mayor riesgo, dado que este ataque sólo requiere que los datos sean indexados por los copilotos de IA”, escribió.

Los sistemas empresariales que probablemente se verán afectados negativamente por el ataque incluyen los sistemas de gestión del conocimiento empresarial, los sistemas de apoyo a la toma de decisiones asistidos por IA y los servicios de IA de cara al cliente.

Microsoft no respondió de inmediato a la solicitud de Dark Reading de comentar sobre el impacto del ataque en Copilot. Sin embargo, los investigadores señalaron en su artículo que la empresa había respondido al ofrecer “estrategias prácticas de mitigación” y lidiar con el potencial de ataque en el desarrollo de su tecnología de IA. De hecho, esto último es fundamental para la defensa a largo plazo contra un ataque de este tipo, que depende de “mejores modelos arquitectónicos” que “intentan separar el plano de datos del plano de control en estos modelos”, señaló Mandy.

Mientras tanto, las estrategias de mitigación actuales incluyen: controles de acceso a los datos que limitan y revisan quién puede cargar, modificar o eliminar datos a los que hacen referencia los sistemas basados ​​en RAG; auditorías de integridad de datos que verifican periódicamente la integridad de los repositorios de datos de una organización para detectar rápidamente cambios no autorizados o la introducción de contenido malicioso; y segmentación de datos que mantiene los datos confidenciales aislados de conjuntos de datos más grandes siempre que sea posible para evitar la propagación de información corrupta a través del sistema de inteligencia artificial.