Difusión estable 3.5: la IA de estabilidad se redime con nuevos modelos y funciones ampliadas

La Inteligencia Artificial podría estar iniciando su propio arco de redención. Después de la decepción que fue SD3 Medium, regresaron con el lanzamiento de dos nuevos modelos que se habían prometido en julio: Stable Diffusion 3.5 Large y Stable Diffusion 3.5 Large Turbo.

“En junio, lanzamos Stable Diffusion 3 Medium, la primera versión abierta de la serie Stable Diffusion 3. Este lanzamiento no cumplió completamente con nuestros estándares ni con las expectativas de nuestras comunidades”, dijo Stability en un publicación oficial del blog. “Después de escuchar los valiosos comentarios de la comunidad, en lugar de una solución rápida, nos tomamos el tiempo para desarrollar una versión que avance en nuestra misión de transformar los medios visuales”.

Generamos algunas imágenes para probarlo antes de apresurarnos a escribir esta noticia de última hora, y los resultados fueron bastante, muy buenos. Especialmente para un modelo base.

La familia SD 3.5 está diseñada para ejecutarse en sistemas de consumo (incluso de gama baja según algunos estándares), lo que hace que la generación de imágenes avanzada sea más accesible que nunca. Y sí, han escuchado las quejas sobre la versión anterior, por lo que esta promete ser mucho mejor, hasta el punto de que su imagen destacada es una mujer tumbada en el césped, una referencia irónica al espectáculo de terror que ocurrió antes cuando se les presentó la misma versión. desafío.

Imagen: Estabilidad AI

Otro aspecto importante de este lanzamiento es el nuevo modelo de licencia. Stable Diffusion 3.5 viene bajo una licencia más permisiva, que permite el uso tanto comercial como no comercial. Las pequeñas empresas y las personas que obtienen menos de 1.000.000 de dólares de ingresos con la herramienta pueden utilizar y desarrollar estos modelos de forma gratuita.

Aquellos con mayores ingresos deben comunicarse con Estabilidad para negociar las tarifas. En comparación, Black Forest Labs ofrece su Flux Schnell de gama baja de forma gratuita, su modelo mediano Flux Dev gratis con uso no comercial y su modelo SOTA Flux Pro es un modelo de código cerrado. (Como referencia, Flux generalmente se considera el mejor generador de imágenes de código abierto disponible actualmente, al menos en la era actual posterior a SDXL).

¿Qué hay sobre la mesa con Stable Diffusion 3.5?

Stability AI está lanzando tres versiones de Stable Diffusion 3.5, todas las cuales satisfacen diferentes necesidades:

  • Difusión estable 3,5 de ancho: Este es el más grande, con 8 mil millones de parámetros diseñados para brindar una calidad de imagen de primer nivel y una adhesión rápida y estricta. Está diseñado para uso profesional, particularmente con una resolución de 1 megapíxel, pero puede manejar una variedad de estilos y formatos visuales.

  • Difusión Estable 3.5 Turbo Grande: Para aquellos que quieran cambiar un poco de calidad por velocidad, esta versión destilada del modelo grande es su opción. Produce imágenes de alta calidad en sólo cuatro pasos, a diferencia del SD3.5 normal, que requiere alrededor de 30 pasos para generar una imagen de buena calidad. Sería el equivalente a Flux Schell.

  • Stable Diffusion 3.5 Medium: Próximamente, este modelo tiene 2.500 millones de parámetros y está optimizado para hardware de consumo. Es el término medio para los usuarios que necesitan un rendimiento sólido con resoluciones de entre 0,25 y 2 megapíxeles, sin sacrificar la facilidad de personalización.

Los modelos son mucho más flexibles, lo que permite a los usuarios ajustarlos para necesidades creativas específicas. Y si le preocupa si su GPU de consumo puede manejar esto, Stability AI lo respalda. Nuestras propias pruebas muestran que el Large Turbo escupe imágenes en unos 40 segundos en un modesto RTX 2060 con 6 GB de VRAM.

La versión completa no cuantificada necesita más de 3 minutos en el mismo hardware de gama baja, pero ese es el precio de la calidad.

Mejoras bajo el capó

La IA de estabilidad se está poniendo al día con Flux, que es el modelo de personalización. Para mejorar la experiencia del usuario, Stability reinventó cómo se comporta SD 3.5. “Al desarrollar los modelos, priorizamos la personalización para ofrecer una base flexible sobre la cual construir. Para lograr esto, integramos la normalización de clave de consulta en los bloques transformadores, estabilizando el proceso de entrenamiento del modelo y simplificando un mayor ajuste y desarrollo”, dijo Stability.

En otras palabras, puedes modificar y refinar estos modelos mucho más fácilmente que antes, ya seas un artista que desea crear estilos personalizados o un desarrollador que busca crear una aplicación impulsada por IA. La estabilidad incluso compartió una Guía de formación LoRA para ayudar a que las cosas comiencen mucho más rápido.

LoRA (adaptación de rango bajo) es una técnica para ajustar modelos para especializarlos en un concepto específico, ya sea un estilo o un tema, sin tener que volver a entrenar todo el modelo base grande.

Leyenda: La misma generación sin LoRA versus usando LoRA para agregar más detalles. Imagen: Civitai

Por supuesto, la flexibilidad conlleva algunas compensaciones. El modelo es ahora tan creativo que Stability advierte que “las indicaciones que carecen de especificidad podrían generar una mayor incertidumbre en el resultado y el nivel estético puede variar”.

Si todavía no está seguro acerca de Stable Diffusion 3.5 y su “incertidumbre” lo disuade, aquí tiene un poco de protección para el futuro: admite “indicaciones negativas”, lo que significa que su indicación puede incluir instrucciones. no para hacer cosas. Esta es una gran ayuda para aquellos que desean refinar la generación de texto e imágenes sin pasar por obstáculos.

Es una buena adición para aquellos que quieren un poco más de control sobre sus generaciones. Además, parece bastante bueno en el manejo del viejo estilo de indicaciones SDXL. De hecho, en cierto modo, el estilo de indicaciones de SD3.5 está más cerca de MidJourney que de Flux, lo que permite a los usuarios ser creativos sin necesidad de un Licenciatura en Lingüística.

Más allá de la personalización, Stable Diffusion 3.5 avanza en otras áreas:

  • Cumplimiento rápido: el modelo grande ahora rivaliza con modelos mucho más grandes en términos de qué tan bien sigue las entradas del usuario y lidera el grupo en el mundo de los generadores de imágenes. Hasta tal punto que Stability asegura que SD 3.5 supera a Flux.1 Dev en términos de rápida adhesión, aunque todavía no en calidad estética.
Imagen: Estabilidad AI
  • Calidad de imagen: estamos hablando de generar imágenes que resistan algunos de los modelos que más recursos consumen, sin consumir la memoria de su GPU. En los puntos de referencia de estabilidad, Flux.1 Dev es el rey por un poco, sin embargo, SD 3.5 Large es más eficiente y requiere menos recursos. El Sd 3.5 Large Turbo es comparable al Flux.1 Schnell tanto en adherencia como en calidad.

  • Versatilidad de estilo: ya sea que busque renderizados 3D, imágenes fotorrealistas, arte lineal o estilos de pintura, Stable Diffusion 3.5 puede manejarlo. Maneja una gama más amplia de estilos que Flux, al menos en nuestras pruebas rápidas.

Y sí, vale la pena mencionarlo: no está censurado. SD3.5 Large puede producir ciertos tipos de contenido, incluida la desnudez, sin demasiada dificultad, aunque no es perfecto. Para bien o para mal, el modelo no está restringido intencionalmente, por lo que ofrece a los usuarios total libertad creativa (aunque es posible que sea necesario realizar ajustes y algunas indicaciones específicas para obtener mejores resultados).

Esto fue muy criticado cuando se lanzó SD3 y se señaló como una de las principales razones por las que fracasó tanto en la comprensión de la anatomía. Podríamos confirmar su capacidad para generar imágenes NSFW; sin embargo, el modelo no está al mismo nivel que los mejores ajustes de Flux, pero es comparable a los modelos Flux originales.

Pero una advertencia: a pesar de lo poderoso que es SD3.5, los artistas NSFW Furry no deberían esperar un modelo Pony Diffusion en el corto plazo, o en absoluto. El creador del modelo NSFW más popular y potente confirmó que no está interesado en desarrollar un ajuste SD3.5. En cambio, optaron por construir sus modelos utilizando Auraflow como base. Una vez que hayan terminado, pueden considerar Flux.

Para los expertos, ComfyUI ahora es compatible con Stable Diffusion 3.5, lo que permite la inferencia local con flujos de trabajo basados ​​en nodos de firma. Hay muchos ejemplos de flujo de trabajo listos para usar, y si tiene problemas con una RAM más baja pero desea probar la experiencia SD3.5 completa, Comfy lanzó un experimento modelo a escala fp8 que reduce el uso de memoria.

¿Qué sigue?

El 29 de octubre, tendremos en nuestras manos Stable Diffusion 3.5 Medium, y poco después Stability prometió lanzar Control Nets para SD 3.5.

ControlNets promete ofrecer funciones de control avanzadas, diseñadas para casos de uso profesionales, y muy bien podrían llevar la potencia de SD3.5 al siguiente nivel. Si quieres saber más sobre ellos, puedes leer un resumen de nuestra breve guía para SD 1.5. Sin embargo, el uso de controles permitirá a los usuarios hacer cosas como elegir la pose del sujeto, jugar con mapas de profundidad, reimaginar una escena basada en un garabato y más.

difusión estable jose lanz 11
Imagen original versus generación usando Controlnet para influir en la pose del sujeto. Crédito: José Lanz

Entonces, ¿es Stable Diffusion 3.5 un eliminador de flujo? No del todo, pero definitivamente está empezando a parecer un contendiente. Algunos usuarios todavía quisquillosoespecialmente después del drama del fracaso de SD3 Medium. Pero con un mejor manejo de la anatomía, una licencia más clara y mejoras significativas en el cumplimiento rápido y la calidad de los resultados, es difícil argumentar que esto no es un gran paso adelante. Estabilidad La IA está aprendiendo de los errores del pasado y avanzando hacia un futuro en el que las herramientas avanzadas de IA sean más accesibles para todos.

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.