Claude 4 Los puntos de referencia muestran mejoras, pero el contexto sigue siendo 200k

Claude 4

Hoy, el rival de Operai Anthrope ha anunciado modelos Claude 4, que son claramente mejores que Claude 3 en puntos de referencia, pero estamos decepcionados con el mismo límite de ventana de contexto de 200,000.

En una publicación de blog, Anthrope dijo que Claude Opus 4 es el modelo más poderoso de la empresa, y también es el mejor modelo de codificación en la industria.

Claude 4

Por ejemplo, en SWE-Bench (SWE es abreviatura de referencia en ingeniería de software), Claude Opus 4 marcó 72.5% y 43.2 en el banco terminal.

“Ofrece un rendimiento sostenido en tareas de larga data que requieren esfuerzos específicos y miles de pasos, con la capacidad de trabajar continuamente durante varias horas, superando considerablemente todos los modelos de soneto y ampliando considerablemente lo que los agentes de IA pueden lograr”, antrópico. nota.

Si bien los puntos de referencia ponen el soneto y las opus de Claude 4 ante sus predecesores y competidores como Gemini 2.5 Pro en codificación, siempre nos preocupa el contexto de la ventana de contexto de 200,000 personas del modelo.

Puntos de referencia de Claude

Esta podría ser una de las razones por las cuales los modelos Claude 4 se destacan en tareas de codificación y resolución compleja en estos puntos de referencia, porque estos modelos no se prueban en un contexto importante.

A modo de comparación, Gemini 2.5 Pro de Google con una ventana de contexto de 1 millón de tokens y la gestión de una ventana de contexto de $ 2 millones también está en preparación.

Los modelos CHATGPT 4.1 también ofrecen hasta un millón de ventanas de contexto.




ModeloDescripciónA la entradaEscritura rápida de chatLectura de caché de cachéSalirVentana de contextoMuchos lotes
Claude Opus 4Modelo más inteligente para tareas complejas$ 15 / mtok$ 18.75 / mtok$ 1.50 / mtok$ 75 / mtok200K50% de descuento con muchos lotes
Soneto de Claude 4Balance óptimo de inteligencia, costo y velocidad$ 3 / mtok$ 3.75 / mtok$ 0.30 / mtok$ 15 / mtok200K50% de descuento con muchos lotes

Claude todavía se está quedando detrás de la competencia con respecto a la ventana de contexto, lo cual es importante en proyectos importantes.

Basado en un análisis de las acciones maliciosas de 14 millones, descubra las 10 técnicas principales ATTR & CK con el 93% de los ataques y cómo defenderse contra ellos.