El soneto Claude 3.7 de antrópico está ahí y los resultados son locos

Antrópico

Anthrope comenzó a implementar el soneto Claude 3.7, el modelo más avanzado de la compañía y el primer modelo de razonamiento híbrido que ha enviado.

Las primeras pruebas muestran que el soneto Claude 3.7 supera a los rivales, incluidos los modelos ChatGPT de OpenAI y la profundidad china.

En blogAnthrope señaló que su nuevo modelo combina respuestas rápidas y simples con la capacidad de “pensar” paso a paso para tareas complejas. Esto hace que el modelo Claude 3.7 sea el mejor para la programación, y estas afirmaciones son compatibles con los puntos de referencia.

Claude 3.7
Swe-bench verificado reloj Claude 3.7 Sonnet es el mejor modelo de codificación

Según una prueba de referencia llamada “Ingeniería de software (SWE-Bench verificado)”, el soneto Claude 3.7 está en la parte superior con una precisión de alrededor del 62%, lo que va 70% cuando se usa “andamios” de pruebas adicionales.

Los modelos competidores, incluidos los sonet Claude 3.5 y las variantes OpenAI, están sentadas más cerca del rango del 50%.

“Ingeniería de software (SWE-Bench verificado)” es un estándar de análisis comparativo para ver hasta qué punto un modelo de IA realizado cuando se le pide que codifiquen un programa.

Estos resultados muestran que Claude 3.7 Sonnet está considerablemente por delante de sus competidores en términos de codificación.

Actuando actualmente para algunos usuarios

Los usuarios también afirman que los resultados son locos.

Por ejemplo, en un hilo, Los usuarios de Reddit han notado Si el modelo proporcionó resultados excepcionales cuando lo usó para crear aplicaciones o incluso juegos.

“Claude Code fue mi” momento del sentimiento de acto “. Lancé errores sobre esto que ningún otro modelo podría corregir, pero el código de Claude explotó “, escribió un usuario en un cable Reddit.

Otro usuario agregó: “3.7 acaba de abofetear un proyecto completo en el que he estado trabajando durante meses: 5000 líneas de código, front -end, ejemplo de depuración, todo de cero. No se detuvo hasta que se terminó el trabajo. »»

Claude 3.7 soneto
Claude 3.7 sonet de referencia

Además, el soneto Claude 3.7 parece sobresalir en la mayoría de las categorías, con su modo de “reflexión extendida” estimulando la precisión de tareas como las matemáticas y las ciencias.

Otros modelos, como 0.1 y Deepseek R1 de OpenAi, se encuentran detrás de varias de estas pruebas.