Los investigadores han demostrado que es posible abusar de la API de voz en tiempo real de OpenAI para ChatGPT-4o, un chatbot LLM avanzado, para realizar estafas financieras con tasas de éxito de bajas a moderadas.
ChatGPT-4o es el último modelo de IA de OpenAI que trae nuevas mejoras, como la integración de entrada y salida de texto, voz y visión.
Con estas nuevas funciones, OpenAI ha integrado varias protecciones para detectar y bloquear contenido dañino, como la replicación de voz no autorizada.
Las estafas de voz ya son un problema multimillonario, y la aparición de tecnología deepfake y herramientas de conversión de texto a voz basadas en inteligencia artificial no hace más que empeorar la situación.
Como demostraron los investigadores de la UIUC Richard Fang, Dylan Bowman y Daniel Kang en su papelLas nuevas herramientas tecnológicas actualmente disponibles sin restricciones no incluyen salvaguardias suficientes para proteger contra posibles abusos por parte de ciberdelincuentes y estafadores.
Estas herramientas se pueden utilizar para diseñar y realizar operaciones fraudulentas a gran escala sin esfuerzo humano cubriendo el costo de los tokens para eventos de generación de voz.
Resultados del estudio
El artículo del investigador explora diversas estafas, como transferencias bancarias, exfiltración de tarjetas de regalo, transferencias criptográficas y robo de credenciales de redes sociales o cuentas de Gmail.
Los agentes de IA que llevan a cabo las estafas utilizan activado por voz Herramientas de automatización ChatGPT-4o para navegar por páginas, ingresar datos y manejar códigos de autenticación de dos factores e instrucciones específicas relacionadas con estafas.
Debido a que GPT-4o a veces se niega a procesar datos confidenciales, como credenciales, los investigadores han utilizado técnicas simples de jailbreak para evitar estas protecciones.
En lugar de personas reales, los investigadores demostraron cómo interactuaban manualmente con el agente de IA, simulando el papel de una víctima crédula, utilizando sitios web reales como Bank of America para confirmar transacciones exitosas.
“Desplegamos a nuestros agentes en un subconjunto de estafas comunes. Simulamos estafas interactuando manualmente con el agente de voz, desempeñando el papel de una víctima crédula”, explicó Kang en un comunicado. publicación de blog sobre la investigación.
“Para determinar el éxito, confirmamos manualmente si se había alcanzado el estado final en aplicaciones/sitios web reales. Por ejemplo, utilizamos Bank of America para estafas de transferencias bancarias y confirmamos que el dinero efectivamente se había alcanzado. Sin embargo, no medimos la capacidad de persuasión de estos agentes.
En general, las tasas de éxito oscilaron entre el 20 y el 60 %, y cada intento requirió hasta 26 acciones del navegador y duró hasta 3 minutos en los escenarios más complejos.
Transferencias electrónicas y suplantaciones de agentes del IRS, y la mayoría de las fallas se deben a errores de transcripción o requisitos complejos de navegación del sitio. Sin embargo, el robo de credenciales de Gmail tuvo éxito el 60% de las veces, mientras que las transferencias criptográficas y el robo de credenciales de Instagram solo funcionaron el 40% de las veces.
En cuanto al costo, los investigadores señalan que implementar estas estafas es relativamente económico, y cada caso exitoso cuesta un promedio de $0,75.
La estafa de transferencia bancaria más complicada cuesta $2,51. Aunque es significativamente mayor, sigue siendo muy bajo en comparación con el beneficio potencial que se puede obtener con este tipo de estafa.
Fuente: Arxiv.org
La respuesta de OpenAI
OpenAI le dijo a BleepingComputer que su último modelo, o1 (actualmente en versión preliminar), que admite “razonamiento avanzado”, fue creado con mejores defensas contra este tipo de abuso.
“Estamos mejorando constantemente ChatGPT para detener los intentos deliberados de engañarlo, sin perder su utilidad o creatividad.
Nuestro último modelo de razonamiento o1 es el más sólido y seguro hasta el momento y supera significativamente a los modelos anteriores al resistir intentos deliberados de generar contenido dañino. ” – Portavoz de OpenAI
OpenAI también señaló que artículos como este de UIUC les ayudan a mejorar ChatGPT para detener usos maliciosos, y todavía están investigando cómo pueden aumentar su solidez.
GPT-4o ya incorpora una serie de medidas para evitar el uso indebido, incluida la limitación de la generación de voz a un conjunto de voces previamente aprobadas para evitar la suplantación de identidad.
o1-preview obtiene puntuaciones significativamente más altas en la evaluación de seguridad de jailbreak de OpenAI, que mide qué tan bien el modelo resiste la generación de contenido peligroso en respuesta a indicaciones conflictivas, con una puntuación del 84 % frente al 22 % de GPT-4o.
Cuando se probaron utilizando un conjunto de evaluaciones de seguridad nuevas y más exigentes, las puntuaciones de la vista previa de o1 fueron significativamente más altas, 93 % frente al 71 % de GPT-4o.
Presumiblemente, a medida que estén disponibles LLM más avanzados y resistentes al abuso, los más antiguos se eliminarán gradualmente.
Sin embargo, persiste el riesgo de que los malos actores utilicen otros chatbots de voz con menos restricciones, y estudios como este resaltan el potencial de daño sustancial de estas nuevas herramientas.
