Google Cloud Run integra GPU NVIDIA L4 para implementaciones mejoradas de inferencia de IA


Luisa Crawford
22 de agosto de 2024 07:50

Google Cloud Run ahora admite GPU NVIDIA L4, NVIDIA NIM e implementaciones de inferencia de IA sin servidor, lo que maximiza el rendimiento y la escalabilidad de las aplicaciones de IA.



Google Cloud Run integra GPU NVIDIA L4 para implementaciones mejoradas de inferencia de IA

Google Cloud Run anunció la integración de las GPU NVIDIA L4 Tensor Core, los microservicios NVIDIA NIM y las capacidades de implementación de inferencia de IA sin servidor, según el Blog de tecnología de NVIDIAEsta colaboración tiene como objetivo abordar los desafíos que enfrentan las empresas al implementar aplicaciones basadas en IA, incluida la optimización del rendimiento, la escalabilidad y la complejidad de la infraestructura.

Mejorar las implementaciones de inferencia de IA

Cloud Run, el tiempo de ejecución de contenedores sin servidor totalmente administrado de Google Cloud, ahora admite las GPU NVIDIA L4 Tensor Core en versión preliminar. Esto permite a las empresas ejecutar aplicaciones de IA en tiempo real bajo demanda sin tener que administrar la infraestructura. La integración de los microservicios NVIDIA NIM simplifica aún más la optimización y la implementación de modelos de IA, maximizando el rendimiento de las aplicaciones y reduciendo la complejidad.

Aplicaciones en tiempo real impulsadas por IA

Cloud Run simplifica la gestión de la infraestructura mediante la asignación dinámica de recursos en función del tráfico entrante, lo que garantiza un escalamiento y una utilización de recursos eficientes. La compatibilidad con las GPU NVIDIA L4 representa una mejora significativa con respecto a las ofertas anteriores solo para CPU, ya que ofrece un rendimiento de video de IA hasta 120 veces mejor en comparación con las soluciones de CPU y un rendimiento de inferencia de IA generativa 2,7 veces mayor que la generación anterior.

En particular, empresas como Let’s Enhance, Wombo, Writer, Descript y AppLovin aprovechan las GPU NVIDIA L4 para impulsar sus aplicaciones de IA generativa, brindando experiencias de usuario mejoradas.

Inferencia de IA sin servidor optimizada para el rendimiento

Optimizar el rendimiento de los modelos de IA es esencial para la eficiencia de los recursos y la gestión de costos. NVIDIA NIM ofrece un conjunto de microservicios nativos de la nube optimizados que simplifican y aceleran la implementación de modelos de IA. Estos modelos preoptimizados y en contenedores se integran perfectamente con las aplicaciones, lo que reduce el tiempo de desarrollo y maximiza la eficiencia de los recursos.

NVIDIA NIM on Cloud Run permite la implementación de aplicaciones de IA de alto rendimiento utilizando motores de inferencia optimizados que desbloquean todo el potencial de las GPU NVIDIA L4, ofreciendo mayor rendimiento y latencia sin requerir experiencia especializada en la optimización del rendimiento de inferencia.

Despliegue de microservicio NIM Llama3-8B-Instruct

Implementar modelos como Llama3-8B-Instruct con Cloud Run en GPU NVIDIA L4 es simple. Los usuarios deben instalar el SDK de Google Cloud y seguir una serie de pasos para clonar el repositorio, configurar variables de entorno, modificar el Dockerfile, crear el contenedor e implementarlo utilizando los scripts proporcionados.

para empezar

La integración de la plataforma NVIDIA AI, incluidas NVIDIA NIM y NVIDIA L4 GPU, con Google Cloud Run aborda desafíos clave en la implementación de aplicaciones de IA. Esta sinergia acelera la implementación, mejora el rendimiento y garantiza la eficiencia operativa y la rentabilidad.

Los desarrolladores pueden crear prototipos con microservicios NIM de NVIDIA a través del catálogo de API de NVIDIA y luego cargar contenedores NIM para seguir desarrollándolos en Google Cloud Run. Para seguridad y soporte de nivel empresarial, hay disponible una licencia NVIDIA AI Enterprise de 90 días.

Actualmente, Cloud Run con compatibilidad con GPU NVIDIA L4 está en versión preliminar en la región US-Central1 de Google Cloud. Más información y demostraciones están disponibles en la transmisión en vivo del evento de lanzamiento y en la página de registro.

Fuente de la imagen: Shutterstock