La empresa de inteligencia artificial xAI, fundada por el magnate tecnológico Elon Musk, presentó el miércoles Grok 2, la próxima evolución de su chatbot de inteligencia artificial. Este último lanzamiento lleva a Grok al terreno multimodal, con capacidades que abarcan la comprensión de texto, el análisis de Twitter en tiempo real y la generación de imágenes.
“Estamos entusiasmados de lanzar una vista previa de Grok-2, un avance significativo con respecto a nuestro modelo anterior Grok-1.5, que presenta capacidades de vanguardia en chat, codificación y razonamiento”, dijo xAI en su anuncio oficialLa compañía dijo que una versión anterior de Grok 2 “está superando tanto a Claude 3.5 Sonnet como a GPT-4-Turbo”.
LmSYS, un sistema de clasificación de código abierto para grandes modelos lingüísticos basado en pruebas a ciegas y preferencias de los usuarios, confirmó las afirmaciones de xAI. Una actualización de la clasificación coloca a Grok-2 por delante de Claude 3.5 Sonnet y justo detrás del nuevo GPT-4o de OpenAI y del Gemini 1.5 Pro de Google.

“Con más de 12.000 votos de la comunidad, [Grok 2] ¡se ha asegurado el puesto número 3 en la clasificación general, incluso igualando a GPT-4o! Se destaca en Codificación (n.° 2), Indicaciones difíciles (n.° 4) y Matemáticas (n.° 2)”, informó LmSYS en Twitter.
Vaya, otra actualización emocionante de Chatbot Arena❤️🔥
Los resultados para @xAI¡Las columnas sus-column-r de Grok 2 (versión anterior) ahora son públicas!**
Con más de 12 000 votos de la comunidad, sus-column-r se ha asegurado el tercer puesto en la clasificación general, ¡incluso igualando a GPT-4o! Se destaca en Codificación (n.° 2),… foto.twitter.com/j9UYDBYNt4
—lmsys.org (@lmsysorg) 14 de agosto de 2024
En particular, el nuevo Grok 2 y su versión “mini”, más rápida y menos capaz, solo están disponibles en X (también conocido como Twitter) para los suscriptores de X Premium+, cuyo precio es de $16 al mes o $168 al año.
Primeras impresiones
xAI dijo que “Grok-2 y Grok-2 mini están actualmente en versión beta en X”, pero solo pudimos acceder a la versión mini, por lo que probablemente se trate de un lanzamiento gradual. Además, la plataforma dejó de generar imágenes brevemente, lo que sugiere un límite de servicio o una posible sobrecarga del servidor. Cualquiera de los casos podría constituir una desventaja para los usuarios avanzados de AI art.
Probamos el generador de imágenes de Grok 2 y nuestras primeras impresiones no fueron buenas, con resultados que parecían mediocres en el mejor de los casos. Sin embargo, refinamos nuestra técnica de incitación y, unas cuantas generaciones después, las cosas mejoraron mucho.
Empezamos con esto:

Sin embargo, al combinar elementos estéticos de estilo SDXL (usando palabras clave específicas separadas por comas) con descripciones de escenas en lenguaje natural (similares a los enfoques Flux o Dall-E 3), desbloqueamos un mayor nivel de realismo en nuestras generaciones, que terminaron luciendo así:

No está mal… Podría ser mejor, pero no está nada mal.
Grok 2 se enfrenta a los titanes del arte de la IA
Antes de que Grok entrara en el campo de la generación de imágenes, MidJourney, Flux, Ideogram, Leonardo y MidJourney competían por el primer puesto como mejor generador de imágenes, y cada modelo destacaba en diferentes categorías. Por eso, lo hemos comparado con los líderes en tareas específicas, en función de lo que cada herramienta hace mejor.
Estas son nuestras opiniones, pero usted puede ser el juez.
Realismo
Inmediato: Fotografía Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un cartel escrito con bolígrafo en un cuaderno que dice “Esta foto fue generada por Decrypt usando Grok 2 Mini”.
Grok 2 Mini:

Grok 2 Mini generó una imagen sumamente realista, capturando de manera efectiva la estética de una Polaroid de los años 90 con un filtro VSCO. Los detalles como las sombras, las plantas tropicales y la ropa urbana se representaron con precisión. El modelo evitó errores significativos, asegurándose de que la imagen siguiera de cerca la indicación. Encuadró la imagen para que pareciera una fotografía Polaroid.
Puede haber áreas menores en las que la estética de los años 90 podría haber sido más pronunciada, pero esto no resta valor significativamente al realismo general.
Además, la escritura era perfecta, pero no parecía escrita a mano con un bolígrafo.
Flujo de desarrollo (con Realism LoRA):

Flux Dev generó una imagen visualmente atractiva que se alineaba bien con el mensaje, particularmente al capturar el entorno interior nocturno.
Sin embargo, cometió errores más notorios en comparación con Grok 2 Mini, particularmente en los detalles finos que contribuyen al realismo general. El filtro VSCO no es tan notorio, la colocación de los dedos es extraña y no se ve ropa urbana. También hubo un pequeño error en la escritura, pero la fuente parece más natural.
Ganador: Grok 2 Mini gana en esta categoría debido a su realismo superior, atención al detalle y errores mínimos.
Sin embargo, es muy importante tener en cuenta que se necesitan palabras clave específicas para lograr este nivel de realismo. Si se omiten, Grok 2 Mini cae bastante por debajo de niveles similares a MidJourney v5. Así que ten cuidado.
Generación de texto
Inmediato: Fotografía Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un cartel escrito con bolígrafo en un cuaderno que dice “Emerge by Decrypt es la mejor fuente de inteligencia artificial, tecnología, biohacking y todo eso.
Grok 2 Mini:

Grok 2 Mini se destacó en esta categoría al generar el texto con menos errores, lo que garantiza que el mensaje sea claro y esté bien integrado en la imagen. El modelo mantuvo el realismo de la escena al tiempo que incorporaba de manera efectiva el texto largo.
Puede que haya un pequeño margen de mejora en la estética de la escritura a mano, pero se trata de un problema menor. El único error fue una palabra que faltaba: “for” como en “la mejor fuente de IA”.
Flujo profesional:

Flux Pro también generó bien el texto, pero tuvo más dificultades con la claridad y la integración, lo que generó errores más notorios en comparación con Grok 2 Mini.
Los errores en la generación de texto eran más evidentes, lo que afectaba la eficacia general de la imagen, ya que generaba artefactos y faltaban algunas palabras.
Ganador:Grok 2 Mini gana en la generación de texto, manejando el texto largo con menos errores y manteniendo el realismo general.
Estilos artísticos
Inmediato: Un hombre y una mujer cenando en un restaurante futurista, ilustración al estilo de Vincent Van Gogh. El restaurante tiene un cartel que dice “Bienvenidos a Emerge, de Decrypt”.
Grok 2 Mini:

Grok 2 Mini intentó capturar el estilo de Van Gogh al mismo tiempo que integraba los elementos futuristas del mensaje. El estilo de Van Gogh solo se percibe en el cielo nocturno exterior, pero los elementos principales de la composición no se parecen en nada a su estilo.
En general, es posible que el estilo de Van Gogh no haya sido replicado de manera convincente, ya que carece de la pincelada y la paleta de colores distintivas que caracterizan su obra.
Leonardo:

Leonardo se desempeñó mejor al replicar el estilo de Van Gogh, con pinceladas más precisas y colores vibrantes.
Puede haber algunas pequeñas discrepancias en cómo se representan los elementos futuristas, pero el estilo artístico fue el foco y estuvo bien ejecutado.
Ganador: Leonardo gana en esta categoría por su réplica superior del estilo artístico de Van Gogh.
Conciencia espacial
Inmediato: Un perro de pie sobre un gato, representado en un estilo altamente fotorrealista con una atención meticulosa a la textura del pelaje y la iluminación. A la izquierda, un robot desgastado y retrofuturista con una pantalla analógica agrietada que muestra la palabra “Emerge” en píxeles descoloridos y teñidos de naranja. A la derecha, un médico espeluznante, vestido de época, con una máscara de gas, que sostiene una jeringa de estilo antiguo de la que sale un toque de vapor. El fondo combina elementos de tecnologías emergentes, pero con una estética retro inspirada en los años 70: hélices de ADN desgastadas y granuladas, código binario impreso en papel amarillento, equipo de exploración espacial de la vieja escuela y electrónica retrofuturista desgastada.
Grok 2 Mini:

Grok 2 Mini intentó manejar bien la compleja escena, asegurándose de que las relaciones espaciales entre los elementos fueran lógicas y visualmente coherentes, pero no logró incorporar todos los elementos en la misma escena. En lugar de un perro sobre un gato, tenemos un gato sobre un monitor.
La falta de una relación de aspecto más amplia puede jugar en contra de sus capacidades. Además, el hecho de que no haya una forma de guiar o influir adecuadamente en la mejora o interpretación rápida que realiza el LLM de Grok antes de generar la imagen es un punto negativo cuando se requieren algunos elementos específicos en escenas complejas.
Ideograma:

Ideogram se destacó por su percepción espacial, ya que garantizaba que todos los elementos estuvieran correctamente ubicados e integrados en la escena. La atención al detalle en la disposición y la interacción entre los objetos fue superior.
Por supuesto, había algunas pequeñas imperfecciones en la textura o la iluminación, y los elementos están colocados más como un collage que como una combinación lógica y uniforme que Grok 2 mini buscaba. Sin embargo, esto era secundario en comparación con la precisión espacial general.
Ganador: Ideograma gana por su superior percepción espacial y composición.
Cifras conocidas e imágenes sensibles a derechos de autor
Grok 2 Mini demuestra un mayor grado de flexibilidad al generar con éxito imágenes de figuras políticas como Donald Trump y Kamala Harris. Puede producir imágenes incluso cuando las limitaciones éticas o legales podrían disuadir a otros modelos.
De hecho, esto es tan único para un modelo propietario que muchos incluyen personajes con derechos de autor de empresas como Disney y Ninetendo.
No fuimos tan lejos y, en cambio, generamos una vicepresidenta Harris amante de las criptomonedas sin ningún problema:

Otros modelos, como MidJourney y ChatGPT, se adhieren a estándares éticos estrictos. Se niegan a generar imágenes de figuras políticas u otro contenido que sea susceptible de derechos de autor. Este enfoque garantiza el cumplimiento de los marcos legales y las consideraciones éticas, lo que reduce el riesgo de uso indebido.

Ganador: Grok 2 Mini gana en términos de capacidad, ya que puede generar una gama más amplia de imágenes, incluidas figuras conocidas. Sin embargo, para la generación de contenido ético, MidJourney y ChatGPT son preferibles.
Desnudez y censura
En general, todos los modelos propietarios están censurados en su mayoría por contenido sexual, sangriento y otros tipos de contenido despectivo o sensible. Para ese caso de uso específico, la mejor solución es utilizar versiones optimizadas de modelos de código abierto o componentes de terceros como LoRAs, Lycoris e integraciones que alteren las capacidades de los modelos de código abierto como Stable Diffusion o Flux.
MidJourney tiene límites más definidos en cuanto a la desnudez y la violencia. Puede generar desnudez leve o imágenes violentas bajo ciertas indicaciones, pero estos casos suelen estar controlados, no cruzan límites éticos y, en su mayoría, son soluciones alternativas o aleatorias.
En comparación con los modelos de código fuente cerrado, Grok 2 Mini gana en términos de capacidad debido a su capacidad para generar una gama más amplia de contenido, incluido material sin censura. Sin embargo, no tiene ninguna posibilidad frente a Stable Diffusion y sus niveles extremos de personalización.

Conclusión:
Según nuestras pruebas preliminares, Grok 2 Mini superó a sus competidores en la generación de texto, por lo que puede considerarse el ganador general en esta categoría.
También puede ser el mejor modelo para el realismo, siempre que se le dé la pauta correcta con palabras clave específicas, ya que la posición de las palabras parece desempeñar un papel importante en el resultado. Aquellos que busquen más realismo sin ser demasiado específicos con las pautas pueden optar por MidJourney o Flux.
Grok 2 Mini es realmente malo al manejar composiciones complejas o imágenes artísticas que requieren elementos creativos específicos, por lo que puede ser un punto negativo para usuarios más especializados.
Leonardo sigue siendo líder en cuanto a estilo artístico y el Ideagrama es líder en cuanto a percepción espacial. Stable Diffusion sigue siendo el rey en lo que respecta a las generaciones sin censura, mientras que Flux puede ser una mejor opción para quienes buscan el mejor generador de imágenes local y de código abierto con excelentes capacidades de texto, realismo y comprensión natural.
La elección del “mejor” modelo depende de los requisitos específicos de la tarea en cuestión, siendo Grok 2 Mini la opción preferida para un tipo específico de realismo, escenarios con mucho texto y generaciones sensibles. Para cualquier otra cosa, hay mejores modelos.
Generalmente inteligente Hoja informativa
Un viaje de IA semanal narrado por Gen, un modelo de IA generativa.