NVIDIA mejora el rendimiento de Llama 3.1 405B con TensorRT Model Optimizer


Lorenzo Jengar
29 de agosto de 2024 16:10 h.

El optimizador de modelos TensorRT de NVIDIA mejora significativamente el rendimiento del modelo de lenguaje grande Llama 3.1 405B de Meta en GPU H200.



NVIDIA mejora el rendimiento de Llama 3.1 405B con TensorRT Model Optimizer

El modelo de lenguaje extendido (LLM) Llama 3.1 405B de Meta alcanza nuevos niveles de rendimiento con TensorRT Model Optimizer de NVIDIA, según Blog de tecnología de NVIDIALas mejoras dieron como resultado un aumento en el rendimiento de hasta 1,44 veces cuando se ejecuta en GPU NVIDIA H200.

Rendimiento de inferencia excepcional de Llama 3.1 405B con TensorRT-LLM

TensorRT-LLM ya ha brindado un rendimiento de inferencia notable para Llama 3.1 405B desde el lanzamiento del modelo. Esto se logró mediante varias optimizaciones, incluido el procesamiento por lotes en vuelo, el almacenamiento en caché de KV y los núcleos de atención optimizados. Estas técnicas aceleraron el rendimiento de la inferencia manteniendo al mismo tiempo un cálculo de menor precisión.

TensorRT-LLM agregó soporte para la receta de cuantización oficial Llama FP8, que calcula factores de escala estáticos y dinámicos para preservar la máxima precisión. Además, los núcleos definidos por el usuario, como las multiplicaciones de matrices de FBGEMM, se optimizan mediante complementos insertados en el gráfico de red en el momento de la compilación.

Aumente el rendimiento hasta 1,44 veces con TensorRT Model Optimizer

La receta personalizada de cuantización post-entrenamiento (PTQ) FP8 de NVIDIA, disponible a través de la biblioteca TensorRT Model Optimizer, mejora el rendimiento de Llama 3.1 405B y reduce la latencia sin sacrificar la precisión. Esta receta integra la cuantificación de caché FP8 KV y la cuantificación de autoatención estática, reduciendo así la carga computacional de inferencia.

La Tabla 1 ilustra el rendimiento máximo y muestra mejoras significativas en diferentes longitudes de secuencia de entrada y salida en un sistema HGX H200 de 8 GPU. El sistema está equipado con ocho GPU NVIDIA H200 Tensor Core con 141 GB de memoria HBM3e cada una y cuatro conmutadores NVLink, que proporcionan un ancho de banda de GPU a GPU de 900 GB/s.








Rendimiento máximo de rendimiento: tokens de salida/segundo
8 GPU NVIDIA H200 Tensor Core
Longitudes de secuencias de entrada | salida2.048 | 12832.768 | 2.048120.000 | 2.048
Optimizador de modelos TensorRT FP8463.1320.171,5
Receta oficial de Llama FP8399,9230,849,6
Aceleración1,16x1,39x1,44x

Tabla 1. Rendimiento máximo de rendimiento de Llama 3.1 405B con mediciones internas de NVIDIA

De manera similar, la Tabla 2 muestra el rendimiento de latencia mínima utilizando las mismas longitudes de secuencia de entrada y salida.








Tamaño de lote = 1 Rendimiento – Tokens de salida/segundo
8 GPU NVIDIA H200 Tensor Core
Longitudes de secuencias de entrada | salida2.048 | 12832.768 | 2.048120.000 | 2.048
Optimizador de modelos TensorRT FP849,644.227.2
Receta oficial de Llama FP837,433.122.8
Aceleración1,33x1,33x1,19x

Tabla 2. Rendimiento de latencia mínima de Llama 3.1 405B con mediciones internas de NVIDIA

Estos resultados indican que las GPU H200 con TensorRT-LLM y TensorRT Model Optimizer ofrecen un rendimiento superior tanto en escenarios de latencia como de rendimiento optimizado. La receta TensorRT Model Optimizer FP8 también logró una precisión comparable a la receta oficial Llama 3.1 FP8 en los puntos de referencia Massively Multitask Language Understanding (MMLU) y MT-Bench.

Montaje de Llama 3.1 405B en sólo dos GPU H200 con INT4 AWQ

Para los desarrolladores con limitaciones de recursos de hardware, la técnica INT4 AWQ de TensorRT Model Optimizer comprime el modelo, lo que permite que Llama 3.1 405B quepa en solo dos GPU H200. Este método reduce significativamente la huella de memoria requerida al comprimir los pesos a enteros de 4 bits mientras codifica las activaciones usando FP16.

Las tablas 4 y 5 muestran las métricas de rendimiento máximo y latencia mínima, lo que demuestra que el método INT4 AWQ proporciona puntuaciones de precisión comparables a la receta oficial FP8 Llama 3.1 de Meta.






Rendimiento máximo de rendimiento: tokens de salida/segundo
2 GPU NVIDIA H200 Tensor Core
Longitudes de secuencias de entrada | salida2.048 | 12832.768 | 2.04860.000 | 2.048
Optimizador de modelos TensorRT INT4 AWQ75,628,716.2

Tabla 4. Rendimiento máximo de rendimiento de Llama 3.1 405B con mediciones internas de NVIDIA






Tamaño de lote = 1 Rendimiento – Tokens de salida/segundo
2 GPU NVIDIA H200 Tensor Core
Longitudes de secuencias de entrada | salida2.048 | 12832.768 | 2.04860.000 | 2.048
Optimizador de modelos TensorRT INT4 AWQ21.618.712.8

Tabla 5. Rendimiento de latencia mínima de Llama 3.1 405B con mediciones internas de NVIDIA

Los avances de NVIDIA en TensorRT Model Optimizer y TensorRT-LLM allanan el camino para un mayor rendimiento y eficiencia en la ejecución de modelos de lenguaje grandes como Llama 3.1 405B. Estas mejoras brindan a los desarrolladores una mayor flexibilidad y rentabilidad, ya sea que tengan importantes recursos de hardware o entornos más restringidos.

Fuente de la imagen: Shutterstock