NVIDIA GH200 NVL32: revolucionando el primer rendimiento Token Time con el conmutador NVLink


Pedro Zhang
27 de septiembre de 2024 09:43

El sistema GH200 NVL32 de NVIDIA presenta importantes mejoras de rendimiento en el tiempo hasta el primer token para modelos de lenguaje grandes, lo que mejora las aplicaciones de IA en tiempo real.



NVIDIA GH200 NVL32: revolucione el rendimiento del primer token time con el conmutador NVLink

El último sistema GH200 NVL32 de NVIDIA demuestra un salto notable en el tiempo hasta el rendimiento del primer token (TTFT), satisfaciendo las crecientes necesidades de modelos de lenguajes grandes (LLM) como Llama 3.1 y 3.2. Según el Blog de tecnología de NVIDIASe espera que este sistema tenga un impacto significativo en aplicaciones en tiempo real, como robots de voz interactivos y asistentes de codificación.

Importancia del tiempo hasta el primer token (TTFT)

TTFT es el tiempo que tarda un LLM en procesar un mensaje de usuario y comenzar a generar una respuesta. A medida que los LLM se vuelven cada vez más complejos, con modelos como Llama 3.1 que ahora tienen cientos de miles de millones de parámetros, la necesidad de un TTFT más rápido se vuelve crítica. Esto es especialmente cierto para las aplicaciones que requieren respuestas inmediatas, como la atención al cliente basada en inteligencia artificial y los asistentes digitales.

El sistema GH200 NVL32 de NVIDIA, impulsado por 32 superchips NVIDIA GH200 Grace Hopper y conectado a través del sistema NVLink Switch, está diseñado para satisfacer estas demandas. El sistema aprovecha las mejoras en TensorRT-LLM para proporcionar TTFT excepcional para inferencia de contexto largo, lo que lo hace ideal para los últimos modelos Llama 3.1.

Casos de uso y rendimiento en tiempo real

Aplicaciones como los robots de voz con IA y los asistentes digitales requieren TTFT del orden de cientos de milisegundos para simular conversaciones naturales y similares a las humanas. Por ejemplo, un TTFT de medio segundo es significativamente más fácil de usar que un TTFT de cinco segundos. El TTFT rápido es especialmente crucial para los servicios que dependen de información actualizada, como los flujos de trabajo de los agentes que utilizan la generación de recuperación aumentada (RAG) para mejorar las indicaciones de LLM con datos relevantes.

El sistema NVIDIA GH200 NVL32 logra el TTFT publicado más rápido para los modelos Llama 3.1, incluso con longitudes de contexto extendidas. Este rendimiento es esencial para aplicaciones en tiempo real que exigen respuestas rápidas y precisas.

Especificaciones técnicas y logros.

El sistema GH200 NVL32 conecta 32 superchips NVIDIA GH200 Grace Hopper, cada uno de los cuales combina una CPU NVIDIA Grace y una GPU NVIDIA Hopper a través de NVLink-C2C. Esta configuración permite una comunicación de gran ancho de banda y baja latencia, esencial para minimizar el tiempo de sincronización y maximizar el rendimiento informático. El sistema proporciona hasta 127 petaFLOP de informática de IA de vanguardia del FP8, lo que reduce significativamente el TTFT para modelos exigentes con contextos prolongados.

Por ejemplo, el sistema puede lograr un TTFT de sólo 472 milisegundos para Llama 3.1 70B con una longitud de secuencia de entrada de 32.768 tokens. Incluso para modelos más complejos como el Llama 3.1 405B, el sistema proporciona un TTFT de alrededor de 1,6 segundos utilizando una entrada de 32.768 tokens.

Innovaciones en curso en inferencia

La inferencia sigue siendo un foco de innovación, con avances en técnicas de servicio, optimizaciones del tiempo de ejecución y más. Técnicas como el procesamiento por lotes en vuelo, la decodificación especulativa y FlashAttention permiten implementaciones más eficientes y rentables de potentes modelos de IA.

La plataforma informática acelerada de NVIDIA, respaldada por un amplio ecosistema de desarrolladores y una gran base instalada de GPU, está a la vanguardia de estas innovaciones. La compatibilidad de la plataforma con el modelo de programación CUDA y el profundo compromiso con la comunidad de desarrolladores garantizan rápidos avances en las capacidades de IA.

Perspectivas de futuro

De cara al futuro, la plataforma NVIDIA Blackwell GB200 NVL72 promete avances aún mayores. Con Transformer Engine de segunda generación y Tensor Cores de quinta generación, Blackwell ofrece hasta 20 petaFLOP de cómputo de IA FP4, lo que mejora significativamente el rendimiento. El NVLink de quinta generación de la plataforma proporciona 1.800 GB/s de ancho de banda de GPU a GPU, ampliando el dominio NVLink a 72 GPU.

A medida que los modelos de IA sigan creciendo y los flujos de trabajo de los agentes se vuelvan más frecuentes, la necesidad de soluciones informáticas de alto rendimiento y baja latencia como GH200 NVL32 y Blackwell GB200 NVL72 no hará más que aumentar. Las continuas innovaciones de NVIDIA garantizan que la empresa se mantenga a la vanguardia de la IA y la computación acelerada.

Fuente de la imagen: Shutterstock