Un nuevo ataque de tokenbreak pasa la moderación de la IA con cambios de texto con una sola característica


Los investigadores de ciberseguridad han descubierto una nueva técnica de ataque llamada Tokenbreak que puede usarse para evitar la seguridad y la barandilla de contenido de un modelo de lenguaje grande con un solo cambio de carácter. “El ataque de Tokenbreak se dirige a la estrategia de tokenización de un modelo de clasificación de texto para inducir falsos negativos, dejando a los objetivos finales vulnerables a los ataques que implementan

Exit mobile version