Meta presenta Open Source Llama 3.2: una IA que ve y cabe en tu bolsillo

Ha sido una buena semana para la IA de código abierto.

El miércoles, Meta anunció una actualización de su modelo de lenguaje extendido de vanguardia, Llama 3.2, y no sólo habla, sino que ve.

Lo que es más intrigante es que algunas versiones pueden integrarse en su teléfono inteligente sin pérdida de calidad, lo que significa que potencialmente puede tener interacciones, aplicaciones y personalizaciones locales privadas de IA sin enviar sus datos a servidores de terceros.

Presentado el miércoles en Meta Connect, Llama 3.2 viene en cuatro sabores, cada uno con un impacto diferente. Los contendientes de peso pesado…11B Y 90B Plantillas de configuración: flexione sus músculos con capacidades de procesamiento de palabras e imágenes.

Pueden abordar tareas complejas como analizar gráficos, subtitular imágenes e incluso identificar objetos en imágenes basándose en descripciones en lenguaje natural.

Llama 3.2 llegó la misma semana que Molmo del Instituto Allen, que afirmó ser el mejor LLM de visión multimodal de código abierto en puntos de referencia sintéticos, con un desempeño en nuestras pruebas a la par con GPT-4o, Claude 3.5 Sonnet y Reka Core.

La compañía de Zuckerberg también presentó dos nuevos campeones de peso mosca: un par de 1B Y 3B Modelos de parámetros diseñados para eficiencia, velocidad y tareas limitadas pero repetitivas que no requieren demasiados cálculos.

Estos pequeños modelos son maestros de texto multilingües con una habilidad especial para las “herramientas de llamada”, lo que significa que pueden integrarse mejor con las herramientas de programación. A pesar de su pequeño tamaño, tienen una impresionante ventana emergente de 128.000 tokens, la misma que GPT4o y otros modelos potentes, lo que los hace ideales para resúmenes en el dispositivo, tareas de seguimiento de instrucciones y reescritura.

El equipo de ingeniería de Meta hizo una gran gimnasia digital para lograrlo. Primero, utilizaron poda estructurada para eliminar datos innecesarios de modelos más grandes, luego utilizaron la destilación de conocimiento (transfiriendo conocimiento de modelos más grandes a otros más pequeños) para incorporar más inteligencia.

El resultado fue un conjunto de modelos compactos que superaron a sus competidores en su categoría de peso, superando a modelos como el Gemma 2 2.6B de Google y el Phi-2 2.7B de Microsoft en varios criterios.

Meta también está trabajando arduamente para fortalecer la IA en los dispositivos. Han forjado alianzas con los titanes del hardware Qualcomm, MediaTek y Arm para garantizar que Llama 3.2 funcione bien con chips móviles desde el primer día. Los gigantes de la computación en la nube tampoco se quedan atrás: AWS, Google Cloud, Microsoft Azure y muchos otros ofrecen acceso instantáneo a nuevos modelos en sus plataformas.

Debajo del capó, las capacidades de visión de Llama 3.2 provienen de ajustes arquitectónicos inteligentes. Los metaingenieros integraron pesos de adaptador en el modelo de lenguaje existente, creando un puente entre los codificadores de imágenes previamente entrenados y el núcleo de procesamiento de texto.

En otras palabras, las capacidades de visión del modelo no se obtienen a expensas de sus habilidades de procesamiento de textos, por lo que los usuarios pueden esperar resultados de texto similares o mejores en comparación con Llama 3.1.

La versión Llama 3.2 es de código abierto, al menos según los estándares Meta. Meta pone a disposición plantillas para descargar en Lama.com Y cara de pelucheasí como a través de su vasto ecosistema de socios.

Aquellos que quieran ejecutarlo en la nube pueden usar su propio Google Collab Notebook o usar Groq para interacciones de texto, generando casi 5000 tokens en menos de 3 segundos.

montar la llama

Pusimos a prueba Llama 3.2, probando rápidamente sus capacidades en una variedad de tareas.

En interacciones de texto, el modelo funciona a la par de sus predecesores. Sin embargo, sus habilidades de codificación han dado resultados mixtos.

Cuando se probó en la plataforma Groq, Llama 3.2 generó con éxito código para juegos populares y programas simples. Sin embargo, el Modelo 70B más pequeño tropezó cuando se le pidió que creara un código funcional para un juego personalizado que habíamos diseñado. El 90B, más potente, sin embargo, fue mucho más eficiente y generó juego funcional la primera vez.

Puede ver el código completo generado por Llama-3.2 y todos los demás modelos que probamos haciendo clic en este enlace.

Identificar estilos y elementos subjetivos en imágenes.

Llama 3.2 sobresale en la identificación de elementos subjetivos en imágenes. Cuando se le presentó una imagen futurista de estilo cyberpunk y se le preguntó si encajaba con la estética steampunk, la modelo identificó con precisión el estilo y sus elementos. Dio una explicación satisfactoria, señalando que la imagen no encajaba con el steampunk debido a la ausencia de elementos clave asociados con ese género.

Análisis gráfico (y reconocimiento de imágenes SD)

El análisis gráfico es otro punto fuerte de Llama 3.2, aunque requiere imágenes de alta resolución para un rendimiento óptimo. Cuando tomamos una captura de pantalla que contiene un gráfico (un gráfico que otros modelos como Molmo o Reka podrían interpretar) las habilidades visuales de Llama fallaron. El modelo se disculpó explicando que no podía leer las letras correctamente debido a la calidad de la imagen.

Identificación de texto en imagen.

Si bien Llama 3.2 tuvo problemas con el texto pequeño en nuestro gráfico, funcionó perfectamente al leer texto en imágenes más grandes. Le mostramos una diapositiva de presentación que presentaba a una persona y el modelo logró comprender el contexto, distinguiendo el nombre y el rol sin errores.

Veredicto

En general, Llama 3.2 es una gran mejora con respecto a su generación anterior y es una gran adición a la industria de la IA de código abierto. Sus puntos fuertes residen en la interpretación de imágenes y el reconocimiento de textos grandes, con algunas áreas de mejora potencial que incluyen el procesamiento de imágenes de menor calidad y la resolución de tareas de codificación complejas y personalizadas.

La promesa de compatibilidad en el dispositivo también es buena para el futuro de las tareas privadas y locales de IA y es un gran contrapeso para cerrar ofertas como Gemini Nano y los modelos propietarios de Apple.

Editado por Josh Quittner y Sebastian Sinclair.

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

Exit mobile version