NVIDIA anunció el lanzamiento de Tensorrt para RTX, un nuevo kit de desarrollo de software (SDK) diseñado para mejorar las aplicaciones de IA en las GPU NVIDIA RTX. Este SDK, que puede integrarse en aplicaciones C ++ y Python, está disponible para plataformas de Windows y Linux. El anuncio se realizó en el evento de compilación de Microsoft, destacando el potencial del SDK para racionalizar la inferencia de alto rendimiento de IA en varias cargas de trabajo, como redes neuronales convolucionales, modelos de voz y modelos de difusión, según Blog oficial de NVIDIA.
Tensorrt para RTX se posiciona para reemplazar la biblioteca de inferencia NVIDIA TENSORT NVIDIA existente, simplificando la implementación de modelos AI en NVIDIA RTX GPU. Presenta un optimizador justo en el tiempo (JIT) en su tiempo de ejecución, mejorando los motores de inferencia directamente en la PC acelerado por el RTX del usuario. Esta innovación elimina las largas etapas previas a la compilación, mejorando la portabilidad de las aplicaciones y el rendimiento de la ejecución. El SDK admite la integración de aplicaciones de luz, lo que lo hace adecuado para entornos relacionados con la memoria con su tamaño compacto, menos de 200 MB.
El paquete SDK incluye soporte para Windows y Linux, archivos de encabezado de desarrollo de C ++, enlaces de Python para prototipos rápidos, un optimizador y biblioteca de ejecución para la implementación, una biblioteca de analizadores para la importación de modelos ONNX y varias herramientas de desarrolladores para simplificar el análisis de implementación y comparación.
Tensorrt para RTX aplica optimizaciones en dos fases: optimización por adelantado (AOT) y optimización de ejecución. Durante AOT, el modelo del modelo se mejora y se convierte en un motor desplegable. En el momento de la ejecución, el JIT Optimizer especializa el motor para la ejecución en la GPU RTX instalada, lo que permite una generación rápida del motor y un mejor rendimiento.
En particular, Tensorrt para RTX introduce formas dinámicas, lo que permite a los desarrolladores diferir la especificación de las dimensiones del tensor hasta la ejecución. Esta característica permite la flexibilidad para administrar las entradas y salidas de la red, optimizando el rendimiento del motor en función de casos de uso específicos.
El SDK también tiene un caché de ejecución para almacenar núcleos compilados JIT, que pueden ser serializarse para la persistencia a través de invocaciones de aplicaciones, reduciendo el tiempo de inicio. Además, Tensorrt para RTX admite los motores AOT optimizados que están disponibles en las GPU de Nvidia Ampère, ADA y Blackwell Generation, sin requerir GPU para la construcción.
Además, el SDK permite la creación de motores sin peso, minimizando el tamaño del paquete de aplicación cuando se envían pesas al lado del motor. Esta característica, así como la capacidad de reconstruir los pesos durante la inferencia, ofrece a los desarrolladores una mayor flexibilidad en la implementación de modelos de IA de manera efectiva.
Con estos avances, NVIDIA tiene como objetivo permitir a los desarrolladores crear aplicaciones de IA de tiempo real y reactivos para varios dispositivos de consumo, mejorando la productividad de las aplicaciones creativas y de juego.
Fuente de la imagen: Shutterstock