zach anderson
17 de enero de 2025 14:11
NVIDIA presenta nuevas optimizaciones de caché KV en TensorRT-LLM, mejorando el rendimiento y la eficiencia de modelos de lenguaje grandes en GPU mediante la administración de memoria y recursos informáticos.
En un avance significativo para la implementación del modelo de IA, NVIDIA ha introducido nuevas optimizaciones de caché de valores clave (KV) en su plataforma TensorRT-LLM. Estas mejoras están diseñadas para mejorar la eficiencia y el rendimiento de los modelos de lenguajes grandes (LLM) que se ejecutan en las GPU de NVIDIA, según el blog oficial de NVIDIA.
Estrategias innovadoras de reutilización de caché KV
Los modelos de lenguaje generan texto prediciendo el siguiente token en función de los anteriores, utilizando elementos clave y valiosos como contexto histórico. Las nuevas optimizaciones de NVIDIA TensorRT-LLM tienen como objetivo equilibrar las crecientes demandas de memoria con la necesidad de evitar costosos recalculos de estos elementos. La caché KV crece con el tamaño del modelo de lenguaje, la cantidad de consultas por lotes y la longitud del contexto de secuencia, lo que plantea un desafío que las nuevas funciones de NVIDIA abordan.
Las optimizaciones incluyen soporte para caché KV paginado, caché KV cuantificado, caché KV con búfer en anillo y reutilización de caché KV. Estas características son parte de la biblioteca TensorRT-LLM de código abierto, que admite LLM populares en GPU NVIDIA.
Desalojo de caché de KV según la prioridad
Una característica notable introducida es el desalojo de caché KV basado en prioridades. Esto permite a los usuarios influir en qué bloques de caché se conservan o desalojan en función de los atributos de prioridad y duración. Al utilizar la API TensorRT-LLM Executor, los implementadores pueden especificar prioridades de retención, asegurando que los datos críticos permanezcan disponibles para su reutilización, lo que potencialmente aumenta las tasas de aciertos de caché en aproximadamente un 20 %.
La nueva API ayuda a afinar la gestión de la caché al permitir a los usuarios establecer prioridades para diferentes rangos de tokens, lo que garantiza que los datos esenciales permanezcan almacenados en la caché durante más tiempo. Esto es particularmente útil para consultas de latencia crítica, ya que permite una mejor gestión de recursos y optimización del rendimiento.
API de eventos de KV Cache para un enrutamiento eficiente
NVIDIA también introdujo una API de eventos de caché KV, que facilita el enrutamiento inteligente de solicitudes. En aplicaciones a gran escala, esta característica ayuda a determinar qué instancia debe manejar una consulta según la disponibilidad de la caché, maximizando así la reutilización y la eficiencia. La API permite el seguimiento de eventos de caché, lo que permite la gestión y la toma de decisiones en tiempo real para mejorar el rendimiento.
Al aprovechar la API de eventos de caché de KV, los sistemas pueden rastrear qué instancias han almacenado en caché o desalojado bloques de datos, lo que permite enrutar las consultas a la instancia más óptima, maximizando la utilización de recursos y minimizando la latencia.
Conclusión
Estos avances en NVIDIA TensorRT-LLM brindan a los usuarios un mayor control sobre la administración de la caché KV, lo que permite un uso más eficiente de los recursos informáticos. Al mejorar la reutilización de la caché y reducir la necesidad de volver a calcular, estas optimizaciones pueden generar importantes aceleraciones y ahorros de costos en la implementación de aplicaciones de IA. A medida que NVIDIA continúa mejorando su infraestructura de IA, se espera que estas innovaciones desempeñen un papel crucial en el avance de las capacidades de los modelos de IA generativa.
Para obtener más detalles, puede leer el anuncio completo en el Blog de NVIDIA.
Fuente de la imagen: Shutterstock