Joerg Hiller
07 de mayo de 2025 15:38
NVIDIA presenta Nemotron-CC, un conjunto de datos de billones de datos para modelos de grandes idiomas, integrados en el conservador de Nemo. Esta innovadora tubería optimiza la calidad y la cantidad de datos para una mayor capacitación en modelo de IA.
NVIDIA ha integrado su tubería Nemotron-CC en el NEMO conservador, ofreciendo un enfoque revolucionario para organizar conjuntos de datos de alta calidad para modelos de idiomas grandes (LLM). Los datos Nemotron-CC establecen una colección de idioma inglés de 6.300 millones de personas de una rampa común, dirigida a mejorar considerablemente la precisión de LLMS, según Nvidia.
Progreso del almacenamiento de datos
La tubería Nemotron-CC aborda los límites de los métodos tradicionales de preservación de datos, que a menudo arrojan datos potencialmente útiles debido al filtrado heurístico. Utilizando conjuntos de datos clasificadores y de reformulación sintética, la tubería genera 2 mil millones de chips de datos sintéticos de alta calidad, recuperando hasta el 90% del contenido perdido por el filtrado.
Características innovadoras de la tubería
El proceso de almacenamiento de datos de la tubería comienza con la extracción de texto HTML utilizando herramientas como Justxt y FastText para la identificación del lenguaje. Luego aplica la deduplicación para eliminar datos redundantes, utilizando las bibliotecas Nvidia Rapids para un tratamiento efectivo. El proceso incluye 28 filtros heurísticos para garantizar la calidad de los datos y un módulo PerplexityFilter para un refinamiento adicional.
El etiquetado de calidad se lleva a cabo gracias a un conjunto de clasificadores que evalúan y clasifican los documentos en los niveles de calidad, facilitando la generación de datos sintéticos específicos. Este enfoque permite la creación de varios pares de AQ, contenido destilado y listas de conocimiento organizadas desde el texto.
Impacto en el entrenamiento de LLM
El entrenamiento LLM con el conjunto de datos Nemotron-CC ofrece mejoras significativas. Por ejemplo, un modelo LLAMA 3.1 formado en un subconjunto de mil millones de Nemotron-CC alcanzó un aumento de 5.6 puntos en la puntuación MMLU en comparación con los modelos formados en los conjuntos de datos tradicionales. Además, los modelos formados en tokens en un horizonte largo, incluido Nemotron-CC, han aumentado 5 puntos en puntajes de referencia.
Comience con Nemotron-CC
La tubería Nemotron-CC está disponible para que los desarrolladores predecan los modelos de base o realicen un pre-entrenamiento adaptativo en el campo en varios campos. NVIDIA proporciona un tutorial de paso por paso y API para la personalización, lo que permite a los usuarios optimizar la tubería para necesidades específicas. La integración en el curador NEMO permite el desarrollo transparente de conjuntos de datos de pre-entrenamiento y ajuste fino.
Para más información, visite el Blog nvidia.
Fuente de la imagen: Shutterstock