
Mientras OpenAI continúa burlándose de Sora después de meses de retraso, Tencent ha abandonado silenciosamente un modelo que ya está mostrando resultados comparables a los principales generadores de video existentes.
Tencent presentó Hunyuan Video, un generador de video de IA gratuito y de código abierto, estratégicamente programado durante la campaña de anuncios de 12 días de OpenAI, que se espera que incluya el lanzamiento de Sora, su muy esperada herramienta de video.
“Presentamos Hunyuan Video, un nuevo modelo de núcleo de vídeo de código abierto que tiene un rendimiento de generación de vídeo comparable o mejor que los principales modelos de código cerrado”, dijo Tencent en su anuncio oficial.
El gigante tecnológico con sede en Shenzhen, China, afirma que su modelo “supera” a los de Runway Gen-3, Luma 1.6 y “tres modelos generativos de video chinos de alto rendimiento” según resultados de evaluaciones humanas profesionales.
El momento no podría ser más apropiado.
Antes de su generador de vídeo, en algún lugar entre las eras SDXL y Flux de generadores de imágenes de código abierto, Tencent lanzó un generador de imágenes con un nombre similar.
HunyuanDice proporcionó excelentes resultados y una mejor comprensión del texto bilingüe, pero no fue ampliamente adoptado. La familia la completaba un grupo de principales modelos lingüísticos.
Hunyuan Video utiliza un gran modelo de lenguaje multimodal solo decodificador como codificador de texto en lugar del combo CLIP y T5-XXL habitual que se encuentra en otras herramientas de video y generadores de imágenes de IA.
Tencent dice que esto ayuda al modelo a seguir mejor las instrucciones, capturar detalles de la imagen con mayor precisión y aprender nuevas tareas sobre la marcha sin capacitación adicional. Además, su configuración de atención causal se beneficia de un refinamiento especial del token que le ayuda a comprender las indicaciones con más profundidad que los métodos tradicionales. modelos.
También reescribe las indicaciones para enriquecerlas y aumentar la calidad de sus compilaciones. Por ejemplo, un mensaje que simplemente dice “Un hombre paseando a su perro” se puede mejorar, incluyendo detalles, configuración de la escena, condiciones de iluminación, calidad de los artefactos y raza, entre otros elementos.
Gratis para el público en general.
Al igual que LLaMA 3 de Meta, Hunyuan es de uso gratuito y se puede monetizar hasta alcanzar los 100 millones de usuarios, un umbral del que la mayoría de los desarrolladores no tendrán que preocuparse en el corto plazo.
¿La trampa? Necesitará una computadora robusta con al menos 60 GB de memoria GPU para ejecutar localmente su modelo de 13 mil millones de parámetros (piense en las tarjetas Nvidia H800 o H20). Eso es más vRAM que la que tienen la mayoría de las PC para juegos en total.
Para aquellos que no tienen una supercomputadora, los servicios en la nube ya se están incorporando.
FAL.ai, una plataforma de medios generativos diseñada para desarrolladores, ha integrado Hunyuan, cobra 0,5 dólares por vídeo. Otros proveedores de nube, incluidos Reproducir O Vamos Ehnance, También han comenzado a ofrecer acceso al modelo. El funcionario Vídeo de Hunyuan El servidor ofrece 150 créditos a 10 dólares, y cada generación de vídeo cuesta un mínimo de 15 créditos.
Y, por supuesto, los usuarios pueden ejecutar el modelo en una GPU alquilada utilizando servicios como Runpod o Vast.ai.
Las pruebas iniciales muestran que Hunyuan iguala la calidad de pesos pesados comerciales como Luma Labs Dream Machine o Kling AI. Los vídeos tardan aproximadamente 15 minutos en generarse y producen imágenes fotorrealistas con movimientos humanos y animales de aspecto natural.
Las pruebas revelan una debilidad actual: el dominio del modelo de las indicaciones en inglés puede ser mejor que el de sus competidores. Sin embargo, al ser de código abierto, los desarrolladores ahora pueden modificar y mejorar el modelo.
Tencent afirma que su codificador de texto logra tasas de alineación de hasta el 68,5 %, es decir, qué tan bien la salida coincide con lo que piden los usuarios, al tiempo que mantiene puntuaciones de calidad visual del 96,4 % según sus pruebas internas.
El código fuente completo y los pesos previamente entrenados están disponibles para descargar en GitHub Y cara de peluche plataformas.
Editado por Sébastien Sinclair.
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.
