Hoy, el rival de Operai Anthrope ha anunciado modelos Claude 4, que son claramente mejores que Claude 3 en puntos de referencia, pero estamos decepcionados con el mismo límite de ventana de contexto de 200,000.
En una publicación de blog, Anthrope dijo que Claude Opus 4 es el modelo más poderoso de la empresa, y también es el mejor modelo de codificación en la industria.
Por ejemplo, en SWE-Bench (SWE es abreviatura de referencia en ingeniería de software), Claude Opus 4 marcó 72.5% y 43.2 en el banco terminal.
“Ofrece un rendimiento sostenido en tareas de larga data que requieren esfuerzos específicos y miles de pasos, con la capacidad de trabajar continuamente durante varias horas, superando considerablemente todos los modelos de soneto y ampliando considerablemente lo que los agentes de IA pueden lograr”, antrópico. nota.
Si bien los puntos de referencia ponen el soneto y las opus de Claude 4 ante sus predecesores y competidores como Gemini 2.5 Pro en codificación, siempre nos preocupa el contexto de la ventana de contexto de 200,000 personas del modelo.
Esta podría ser una de las razones por las cuales los modelos Claude 4 se destacan en tareas de codificación y resolución compleja en estos puntos de referencia, porque estos modelos no se prueban en un contexto importante.
A modo de comparación, Gemini 2.5 Pro de Google con una ventana de contexto de 1 millón de tokens y la gestión de una ventana de contexto de $ 2 millones también está en preparación.
Los modelos CHATGPT 4.1 también ofrecen hasta un millón de ventanas de contexto.
Modelo | Descripción | A la entrada | Escritura rápida de chat | Lectura de caché de caché | Salir | Ventana de contexto | Muchos lotes |
---|---|---|---|---|---|---|---|
Claude Opus 4 | Modelo más inteligente para tareas complejas | $ 15 / mtok | $ 18.75 / mtok | $ 1.50 / mtok | $ 75 / mtok | 200K | 50% de descuento con muchos lotes |
Soneto de Claude 4 | Balance óptimo de inteligencia, costo y velocidad | $ 3 / mtok | $ 3.75 / mtok | $ 0.30 / mtok | $ 15 / mtok | 200K | 50% de descuento con muchos lotes |
Claude todavía se está quedando detrás de la competencia con respecto a la ventana de contexto, lo cual es importante en proyectos importantes.