Peter Zhang
04 de junio de 2025 18:17
NVIDIA describe el proceso para reproducir los puntajes de entrenamiento MLPERF V5.0 para los puntos de referencia de LLM, enfatizando las condiciones del material y paso a paso.
NVIDIA detalló el proceso de reproducción para los puntajes de capacitación MLPERF V5.0 Benchmars, centrándose específicamente en el Llama 2 70B Lora Fineding y Llama 3.1 405B pretor. Esta iniciativa sigue el anuncio anterior de NVIDIA para lograr un rendimiento hasta 2.6 veces mayor en MLPERF Training v5.0, según lo informado por Sukru Burc Eryilmaz en el blog NVIDIA. Los puntos de referencia son parte del conjunto de evaluación MLPERF completo para medir el rendimiento de los modelos de aprendizaje automático.
Prerrequisitos para el análisis comparativo
Para ejecutar estos puntos de referencia, se deben cumplir los requisitos específicos de hardware y software. Para LLAMA 2 70B Lora, un sistema NVIDIA DGX B200 o GB200 NVL72 es necesario, mientras que LLAMA 3.1 405B requiere al menos cuatro sistemas NVL72 GB 200 conectados a través de InfiniBand. Además, se requiere un espacio de disco sustancial: 2.5 TB para el LAMA de 3.1 y 300 GB para el ajuste del Lora.
Configuración de clúster y entorno
NVIDIA utiliza una configuración de clúster administrada por el NVIDIA Base Command Manager (BCM), que requiere un entorno basado en SLURM, PYXIS y ROOOT. Se recomienda un almacenamiento local rápido configurado en RAID0 para minimizar los estrangulamientos de datos. La red debe incorporar NVIDIA NVLINK e InfiniBand para un rendimiento óptimo.
Ejecutar puntos de referencia
El proceso de ejecución implica varios pasos, comenzando con la construcción de un contenedor Docker y la descarga de los datos y puntos de control necesarios. Los puntos de referencia se ejecutan utilizando SLURM, con un archivo de configuración que detalla hiperparametros y configuraciones del sistema. El proceso está diseñado para ser flexible, permitiendo ajustes dependiendo de diferentes tamaños y requisitos del sistema.
Análisis de periódicos de referencia
Durante el proceso de análisis comparativo, se generan periódicos que incluyen marcadores clave MLPERF. Estos periódicos proporcionan una visión general de la inicialización, el progreso en la capacitación y la precisión final. El objetivo final es lograr una pérdida objetivo de evaluación, lo que indica el éxito de la referencia.
Para obtener instrucciones más detalladas, incluidos scripts específicos y ejemplos de configuración, consulte Blog nvidia.
Fuente de la imagen: Shutterstock