Cientos de servidores de modelado de lenguajes grandes (LLM) de código abierto y docenas de bases de datos vectoriales filtran información altamente confidencial a través de la web abierta.
A medida que las empresas se apresuran a integrar la IA en sus flujos de trabajo, no siempre prestan suficiente atención a cómo proteger estas herramientas y la información que les confían. En un nuevo informe, el investigador de seguridad de Legit, Naphtali Deutsch, lo demostró escaneando la web en busca de dos tipos de IA. Servicios de IA de código abierto (OSS) potencialmente vulnerables: bases de datos vectoriales, que almacenan datos para herramientas de inteligencia artificial, y creadores de aplicaciones LLM, en particular el programa de código abierto Flowise. La investigación descubrió una multitud de datos personales y profesionales sensiblesrevelado sin saberlo por organizaciones que luchan por participar en la revolución generativa de la IA.
“Muchos programadores ven estas herramientas en Internet y luego intentan instalarlas en su entorno”, afirma Deutsch, pero esos mismos programadores dejan de lado las consideraciones de seguridad.
Cientos de servidores Flowise sin parches
Flowise es una herramienta de bajo código para crear todo tipo de aplicaciones LLM. Está respaldado por Y Combinator y tiene decenas de miles de estrellas en GitHub.
Ya sea un robot de atención al cliente o una herramienta de generación y extracción de datos para programación posterior y otras tareas, los programas que los desarrolladores crean con Flowise tienden a acceder a grandes cantidades de datos y administrarlos. Por tanto, no sorprende que la mayoría de los servidores de Flowise estén protegidos con contraseña.
Sin embargo, una contraseña no es suficiente para brindar seguridad. A principios de este año, un investigador indio descubrió una vulnerabilidad de omisión de autenticación en las versiones 1.6.2 y anteriores de Flowise, que puede activarse simplemente poniendo en mayúscula algunos caracteres en los puntos finales de la API del programa. Registrado como CVE-2024-31621, el problema recibió una puntuación “alta” de 7,6 en la escala CVSS versión 3.
Al explotar CVE-2024-31621, Deutsch de Legit hackeó 438 servidores Flowise. Dentro había tokens de acceso a GitHub, Claves API de OpenAIContraseñas de Flowise y claves API en texto sin formato, configuraciones e indicaciones asociadas con aplicaciones de Flowise y mucho más.
“Con un token API de GitHub, puedes acceder a repositorios privados”, señala Deutsch, que es sólo un ejemplo de los tipos de ataques de seguimiento que estos datos pueden permitir. “También encontramos claves API para otras bases de datos vectoriales, como Pinecone, una plataforma SaaS muy popular. Puede usarlos para acceder a una base de datos y transferir cualquier dato que encuentre, tal vez datos privados y confidenciales. »
Decenas de bases de datos vectoriales desprotegidas
De hecho, las bases de datos vectoriales almacenan cualquier tipo de datos que una aplicación de IA pueda necesitar recuperar, y aquellos a los que se puede acceder desde la web pueden atacarse directamente.
Utilizando herramientas de análisis, Deutsch descubrió alrededor de 30 servidores de bases de datos vectoriales en línea, sin controles de autenticación, que contenían información obviamente sensible: conversaciones electrónicas privadas de un proveedor de servicios de datos; documentos de una empresa de moda; información personal y financiera de clientes de una empresa de equipos industriales; y mucho más. Otras bases de datos contenían datos inmobiliarios, documentación de productos y hojas de datos, e información de pacientes utilizada por un chatbot médico.
Las bases de datos de vectores filtradas son incluso más peligrosas que los creadores de LLM con filtraciones, porque pueden ser manipuladas de manera que no alerten a los usuarios sobre las herramientas de inteligencia artificial que dependen de ellas. Por ejemplo, en lugar de simplemente robar información de una base de datos de vectores expuesta, un pirata informático puede eliminar o corromper sus datos para manipular sus resultados. También se podría colocar malware en una base de datos vectorial de modo que cuando un programa LLM la consulte, termine ingiriendo el malware.
Para mitigar el riesgo de exposición de las herramientas de IA, Deutsch recomienda que las organizaciones restrinjan el acceso a los servicios de IA de los que dependen, monitoreen y registren la actividad asociada con esos servicios, protejan los datos confidenciales transmitidos por las aplicaciones LLM y apliquen siempre actualizaciones de software cuando sea posible.
“[These tools] “Las bases de datos vectoriales son nuevas y la gente no tiene tantos conocimientos sobre cómo configurarlas”, advierte. “Y también es cada vez más fácil de hacer: con muchas de estas bases de datos vectoriales, solo se necesitan dos clics para configurarlas en su Docker o en su entorno AWS Azure. » La seguridad es más engorrosa y puede retrasarse.