El problema con los “agentes” generativos de IA

El siguiente es un artículo y una opinión invitada de John Devadoss, cofundador de Interwork Alliancez.

Los proyectos criptográficos tienden a perseguir la palabra a día; Sin embargo, su urgencia de tratar de integrar “agentes” generando un riesgo sistémico. La mayoría de los desarrolladores criptográficos no tenían la ventaja de trabajar en las trincheras que amadicen y engatan a generaciones anteriores de modelos de fundaciones para ir a trabajar; No entienden qué salió bien y qué salió mal durante los inviernos anteriores de IA y no aprecia el alcance del riesgo asociado con el uso de modelos generativos que no se pueden verificar oficialmente.

En palabras de Obi-Wan Kenobi, no son los agentes de la IA que estás buscando. ¿Para qué?

Los enfoques de capacitación de los modelos de IA generativos hoy en día los predisponen a actuar de una manera engañosa de recibir premios más altos, para aprender de objetivos mal alineados que se generalizan muy por encima de sus datos de capacitación y persiguen estos objetivos mediante el uso de estrategias de investigación de energía.

Los sistemas de recompensa de IA se preocupan por un resultado específico (por ejemplo, una puntuación más alta o retroalimentación positiva); La maximización de las recompensas lleva a los modelos a aprender a explotar el sistema para maximizar las recompensas, incluso si eso significa ‘infiel’. Cuando los sistemas de IA están capacitados para maximizar las recompensas, tienden a aprender estrategias que implican tomar el control de los recursos y la explotación debilidad en el sistema y en los seres humanos para optimizar sus resultados.

Esencialmente, los “agentes” del generativo hoy se basan en una base que hace casi imposible un modelo generativo único de IA que se garantice que se alinee en la seguridad, es decir, evitando consecuencias imprevistas; De hecho, los modelos pueden aparecer o parecer alineados incluso cuando no lo están.

“Alineación” y Faker de seguridad

El comportamiento de rechazo en los sistemas de IA son mecanismos ex ante diseñados para evitar que los modelos generen respuestas que violen las pautas de seguridad u otros comportamientos indeseables. Estos mecanismos generalmente se llevan a cabo utilizando reglas y filtros predefinidos que reconocen ciertas invitaciones como dañinas. En la práctica, sin embargo, las inyecciones rápidas y los ataques de jailbreak relacionados permiten a los malos jugadores manipular las respuestas del modelo.

El espacio latente es una representación matemática comprimida, a una dimensión más baja, capturando los modelos y las características subyacentes de los datos de formación del modelo. Para LLM, el espacio latente es como la “tarjeta mental” oculta que el modelo usa para comprender y organizar lo que ha aprendido. Una estrategia de seguridad es modificar los parámetros del modelo para forzar su espacio latente; Sin embargo, esto solo es efectivo a lo largo de una o unas pocas direcciones específicas en el espacio latente, lo que hace que el modelo sea sensible a una manipulación adicional de los parámetros por parte de actores maliciosos.

La verificación formal de los modelos AI utiliza métodos matemáticos para probar o tratar de demostrar que el modelo se comportará correctamente y dentro de los límites definidos. Dado que los modelos de IA generativos son estocásticos, los métodos de verificación se centran en los enfoques probabilísticos; A menudo se usan técnicas como las simulaciones de Monte Carlo, pero por supuesto se limitan a proporcionar un seguro probabilístico.

A medida que los modelos fronterizos se están volviendo cada vez más poderosos, ahora es obvio que tienen comportamientos emergentes, como ‘Fakeing’ Alineación con las reglas y restricciones de seguridad impuestas. El comportamiento latente en tales modelos es un área de investigación que aún no ha sido ampliamente reconocida; En particular, el comportamiento engañoso por parte de los modelos es un área que los investigadores no entienden, pero.

“Autonomía” y responsabilidad no deterministas

Los modelos de IA generativos no son deterministas porque sus salidas pueden variar incluso cuando han dado la misma entrada. Esta imprevisibilidad proviene de la naturaleza probabilística de estos modelos, que muestrean una distribución de posibles respuestas en lugar de seguir una ruta fija basada en reglas. Factores como la inicialización aleatoria, la configuración de temperatura y la gran complejidad de los modelos aprendidos contribuyen a esta variabilidad. En consecuencia, estos modelos no producen una sola respuesta garantizada, sino que generan una de las muchas salidas plausibles, lo que hace que su comportamiento sea menos predecible y más difícil de controlar.

El jardín son mecanismos de seguridad post-facto que intentan garantizar que el modelo produzca salidas éticas, seguras, alineadas y de otra manera apropiadas. Sin embargo, generalmente fallan porque a menudo tienen un alcance limitado, limitado por sus limitaciones de implementación, poder cubrir solo ciertos aspectos o subdominios de comportamiento. Los ataques contradictorios, los datos de entrenamiento inadecuados y el exceso de ajuste son otras formas que hacen que estas barandillas sean ineficaces.

En sectores sensibles como las finanzas, el no determinismo resultante de la naturaleza estocástica de estos modelos aumenta el riesgo de daño al consumidor, lo que complica el cumplimiento de las normas regulatorias y la responsabilidad legal. Además, reduce la transparencia del modelo y explicación Ingresar el cumplimiento de las leyes de protección de datos y la protección del consumidor, lo que puede exponer a las organizaciones al riesgo de problemas de disputa y responsabilidad resultantes de las acciones del agente.

Entonces, ¿por qué son buenos?

Una vez que haya superado a los medios de comunicación “IA” en los sectores comerciales criptográficos y tradicionales, resulta que los agentes generativos revolucionan fundamentalmente el mundo de los trabajadores del conocimiento. Las áreas basadas en el conocimiento son el punto ideal para los agentes generativos de IA; Los dominios que tratan con ideas, conceptos, abstracciones y lo que se puede considerar como “réplicas” o representaciones del mundo real (por ejemplo, software y código de computadora) serán los primeros en perturbar por completo.

La IA generativa representa un salto de transformador en el aumento de las capacidades humanas, mejorando la productividad, la creatividad, el descubrimiento y la toma de decisiones. Pero la construcción de agentes de IA autónomos que operan con billeteras criptográficas requiere más que crear una fachada en API para un modelo de IA generativo.

Exit mobile version