Géminis Géminis Géminis 2.5 Pro Tops Codificación de cuadros y pruebas de Mensa en AI ‘IQ’ Battle

Breve

  • El nuevo Gemini 2.5 Pro de Google en la parte superior de la clasificación del Webdev Arena, superando a los competidores como Claude en tareas de codificación, por lo que es una opción notable para los desarrolladores en busca de mayores capacidades de codificación.
  • El modelo AI también incluye una ventana de contexto de 1 millón de tokens (expandibles a 2 millones), lo que le permite administrar grandes bases de código y proyectos complejos mucho más allá de la capacidad de modelos como ChatGPT y Claude 3.7 Sonnet.
  • También llevó a cabo los puntajes más altos en referencias de razonamiento, incluida una prueba de IQ MENSA y el último examen de la humanidad, demostrando habilidades avanzadas en la resolución de problemas esenciales para tareas de desarrollo sofisticadas.

El recientemente lanzado Gemini 2.5 de Google ha pasado el primer lugar en las clasificaciones de codificación, superando a Claude en el famoso Webdev Arena—Un sitio de clasificación no ddenominacional similar a Arena LLMPero se centró específicamente en medir la calidad de los modelos de IA a la codificación. La realización viene en el medio del impulso de Google para posicionar su modelo de IA insignia como líder en tareas de codificación y razonamiento.

Lanzado a principios de este año Gemini 2.5 Pro Rango primero En varias categorías, incluida la codificación, el control de estilo y la escritura creativa. La ventana de contexto masivo del modelo: un millón de tokens que se extienden a dos millones Pronto, el hecho gestiona las principales bases de código y proyectos complejos que incluso sofocarían a los competidores más cercanos. Para el contexto, modelos poderosos como ChatGPT y Claude 3.7 Sonnet solo pueden administrar hasta 128k tokens.

Géminis también tiene el “coeficiente intelectual” más alto de todos los modelos de IA. Trackingai ha implementado Pruebas de MensaUso de preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos AI.

Gemini 2.5 Pro obtuvo un puntaje más alto que los competidores en estas pruebas, incluso cuando se usa preguntas hechas a medida que no son accesibles para el público en los datos de capacitación.

Con un puntaje de Qi de 115 en pruebas fuera de línea, el nuevo Géminis se ubica entre los “” “delgado», Con inteligencia humana promedio, una puntuación de alrededor de 85 a 114 puntos. Pero la noción de una IA que tiene un coeficiente intelectual debe desempacar.

Para puntos de referencia especialmente diseñados para IA, Gemini 2.5 Pro marcó un 86.7% en la prueba matemática del AIM 2025 y 84.0% en la evaluación científica GPQA. En el último examen de la humanidad (HLE), una referencia más reciente y más dura creada para evitar problemas de saturación de pruebas, Gemini 2.5 marcó el 18.8%, superando a O3 Mini (14%) del soneto de OpenAi y Claude 3.7 (8.9%), lo que es notable en términos de rendimiento de rendimiento.

La nueva versión de Gemini 2.5 Pro ahora está disponible de forma gratuita (con límites de velocidad) para todos los usuarios de Gemini. Google describió previamente esta versión como una “versión experimental de 2.5 Pro”, parte de su familia de “modelos de pensamiento” diseñados para razonar a través de respuestas en lugar de simplemente generar texto.

Aunque no gana cada referencia, Gemini tiene Atrajo la atención de los desarrolladores Con su versatilidad. El modelo puede crear aplicaciones complejas a partir de indicaciones únicas, la creación de aplicaciones web interactivas, corredores interminables y simulaciones visuales sin requerir instrucciones detalladas.

Probamos el modelo pidiéndole que corrija un código HTML5 roto. Generó casi 1000 líneas de código, proporcionando resultados que vencieron a Claude 3.7 Sonnet, el líder anterior, en términos de calidad y comprensión de las instrucciones completas.

Para los desarrolladores que trabajan, las aportes de Gemini 2.5 Pro cuestan $ 2.50 por millón de tokens y la producción cuesta $ 15.00 por millón de tokens, posicionándolo como una alternativa más barata a ciertos competidores al tiempo que proporciona capacidades impresionantes.

El modelo AI administra hasta 30,000 líneas de código en su plan avanzado, lo que lo hace adecuado para proyectos de nivel comercial. Sus capacidades multimodales: trabajar con texto, código, audioimágenes, y video—Ascos de flexibilidad que otros modelos centrados en la codificación no pueden corresponder.

Generalmente inteligente Boletín

Un viaje semanal de IA contado por Gen, un modelo de generador de IA.

Exit mobile version