Google lanza Imagen 3 y acelera la carrera por los generadores de imágenes con IA

Google está poniendo la guinda al pastel de una semana ocupada en IA generativa con el lanzamiento de Imagen 3, su nuevo modelo de conversión de texto a imagen. Esta versión se basa en el éxito de Imagen 2, lanzado en diciembre de 2023, que ya competía con pesos pesados ​​de la industria como Dall-E 3 y MidJourney v5.

Imagen 3, anunciado inicialmente en mayo, ofrece capacidades mejoradas para comprender y ejecutar indicaciones complejas, generar imágenes con detalles mejorados y una mejor adherencia a las indicaciones en comparación con su predecesor. Es bastante versátil y produce buenos resultados que van desde el fotorrealismo hasta el arte y las composiciones en 3D.

“Imagen 3 es nuestro modelo de conversión de texto a imagen de mayor calidad, capaz de generar imágenes con detalles aún mejores, iluminación más rica y menos artefactos que distraigan que nuestros modelos anteriores”, dijo Google en su comunicado de prensa oficial. anuncio.

Las mejoras en las indicaciones de Imagen 3 permiten a los usuarios describir las imágenes deseadas en lenguaje natural sin recurrir a ingeniería de indicaciones compleja. La capacitación del modelo también incorporó títulos de imágenes más ricos, lo que le permitió capturar detalles matizados, como ángulos o composiciones de cámara específicos y mensajes de texto extensos cuando fue necesario.

El gigante tecnológico ha estado enfatizando las capacidades mejoradas de representación de texto de Imagen 3. Si bien han mejorado notablemente, nuestras primeras pruebas muestran que sus capacidades no están a la altura de otros modelos como Dall -E 3, Auraflow o Flux.

Construido por Imagen 3 y Grok 2 usando el mismo mensaje

Google también destacó su compromiso con la seguridad y la responsabilidad en el desarrollo y la implementación de Imagen 3. La compañía implementó lo que describe como procesos de “etiquetado y filtrado de datos extensos” para minimizar el contenido dañino en los conjuntos de datos de entrenamiento del modelo. Además, Google dijo que realizó evaluaciones exhaustivas, incluidos ejercicios de equipos rojos, para identificar y remediar vulnerabilidades potenciales.

También es importante señalar que Imagen 3 integra SynthIDLa herramienta de marca de agua digital de Google. SynthID incorpora una firma digital directamente en los píxeles de las imágenes generadas. Esta marca de agua es imperceptible para el ojo humano pero detectable mediante software especializado, lo que proporciona una forma de identificar contenido generado por IA.

Actualmente, Imagen 3 está disponible a través de La plataforma ImageFX de Google y Vértice AI. En el futuro, Google planea introducir funciones de edición populares desde Imagen 2 a Imagen 3, como inpainting (editar elementos de la imagen) y outpainting (ampliar la imagen), en los próximos meses. La compañía también anunció planes para ampliar la disponibilidad de Imagen 3 en todo su ecosistema de productos, incluida la integración con la aplicación Gemini, Google Workspace y Google Ads.

Este lanzamiento es parte de una estrategia más amplia de Google que tiene como objetivo integrar la tecnología Gemini y la IA en prácticamente todos sus servicios y hardware. Esta semana, la compañía presentó su nueva línea Pixel 9, diseñada con capacidades de inteligencia artificial en su centro. Los nuevos teléfonos Pixel pueden manejar algunas tareas generativas de IA localmente, incluidas tareas basadas en texto y generaciones de imágenes pequeñas.

El lanzamiento de Imagen 3 se produce en medio de una intensa actividad en el campo de la generación de imágenes con IA. La compañía xAI de Elon Musk presentó recientemente Grok 2, que presenta el generador de imágenes Flux.1, que ha llamado la atención por su capacidad para producir imágenes muy realistas y sin censura, así como potentes capacidades de generación de texto.

Mientras tanto, MidJourney, otro actor clave del sector, anunció una inminente actualización de su modelo, la versión 6.2. La compañía también habló sobre el desarrollo de la versión 7 de MidJourney, cuyo lanzamiento está previsto para los próximos meses. Ideogram, otro competidor en el espacio de generación de imágenes de IA, también ha insinuado una próxima actualización de su modelo. Finalmente, Open Model Initiative eligió Flux.1 como base para el desarrollo de su modelo de generación de imágenes de código abierto de última generación.

Editado por Ryan Ozawa.

Generalmente inteligente Hoja informativa

Un viaje semanal de IA contado por Gen, un modelo de IA generativa.