NVIDIA presenta agentes de IA visual impulsados ​​por IA generativa para la implementación perimetral


Timoteo Morano
17 de julio de 2024 18:22

NVIDIA presenta Vision Language Models (VLM) para análisis de video dinámico, mejorando las capacidades de IA en el borde con la plataforma Jetson Orin.





Según el blog de tecnología de NVIDIA, los modelos de lenguaje de visión (VLM) son un avance importante en la IA. Ofrecen un método más dinámico y flexible para el análisis de vídeo. Los VLM permiten a los usuarios interactuar con imágenes y vídeos utilizando lenguaje natural, lo que hace que la tecnología sea más accesible y adaptable. Estos modelos pueden ejecutarse en la plataforma de inteligencia artificial NVIDIA Jetson Orin o en GPU discretas a través de NIM.

¿Qué es un agente de IA visual?

Un agente de IA visual funciona con un VLM donde los usuarios pueden hacer una amplia gama de preguntas en lenguaje natural y obtener información que refleja la intención y el contexto del mundo real de un video grabado o en vivo. Estos agentes se pueden utilizar a través de API REST fáciles de usar e integrar con otros servicios y aplicaciones móviles. Esta nueva generación de agentes visuales de IA puede resumir escenas, crear una amplia gama de alertas y extraer información útil de videos utilizando lenguaje natural.

NVIDIA Metropolis ofrece flujos de trabajo de agentes de IA visual, que son soluciones de referencia que aceleran el desarrollo de aplicaciones de IA impulsadas por VLM para extraer información con comprensión contextual de los videos, ya sea que se implementen en el borde o en la nube.

Para la implementación en la nube, los desarrolladores pueden utilizar NVIDIA NIM, un conjunto de microservicios de inferencia que incluyen API estándar de la industria, código específico de dominio, motores de inferencia optimizados y un entorno de ejecución empresarial, para potenciar los agentes visuales de IA. Comience visitando el Catálogo API para explorar y probar los modelos básicos directamente desde un navegador.

Creación de agentes visuales de IA para el borde

Jetson Platform Services es un conjunto de microservicios prediseñados que brindan una funcionalidad llave en mano esencial para crear soluciones de visión por computadora en NVIDIA Jetson Orin. Estos microservicios incluyen servicios de IA con soporte para modelos de IA generativa, como detección de disparo cero y VLM de última generación. Los VLM combinan un modelo de lenguaje grande con un transformador de visión, lo que permite un razonamiento complejo a partir de entradas textuales y visuales.

El VLM elegido en Jetson es VILA, dadas sus capacidades de razonamiento de vanguardia y su velocidad para optimizar tokens por cuadro. Al combinar VLM con los servicios de la plataforma Jetson, se puede crear una aplicación de agente de IA visual basada en VLM que detecta eventos en una cámara de transmisión en vivo y envía notificaciones al usuario a través de una aplicación móvil.

Integración con aplicación móvil.

El sistema completo de extremo a extremo ahora se puede integrar con una aplicación móvil para crear el agente visual de IA impulsado por VLM. Para obtener entrada de video para VLM, el servicio de red Jetson Platform Services y VST detectan y procesan automáticamente las cámaras IP conectadas a la red. Estos se ponen a disposición del servicio VLM y de la aplicación móvil a través de las API REST de VST.

Desde la aplicación, los usuarios pueden configurar alertas personalizadas en lenguaje natural, como “¿Hay un incendio?” » en la transmisión en vivo seleccionada. Una vez definidas las reglas de alerta, el VLM evaluará la transmisión en vivo y notificará al usuario en tiempo real a través de un WebSocket conectado a la aplicación móvil. Esto activará una notificación emergente en el dispositivo móvil, lo que permitirá a los usuarios hacer preguntas de seguimiento en el modo de chat.

Conclusión

Este desarrollo destaca el potencial de los VLM combinados con los servicios de la plataforma Jetson para crear agentes visuales avanzados de IA. El código fuente completo del servicio VLM AI está disponible en GitHub, lo que proporciona una referencia para que los desarrolladores aprendan a utilizar VLM y crear sus propios microservicios.

Para más información visite Blog de tecnología de NVIDIA.

Fuente de la imagen: Shutterstock


Exit mobile version