Claude Sonnet 5 (30 de junio de 2026) y Claude Opus 4.8 (28 de mayo de 2026) son ahora mismo los dos modelos activos de referencia de Anthropic: uno es gama media agéntica, el otro el flagship. Aquí comparamos specs, benchmarks y coste real con datos oficiales.
Especificaciones técnicas
Sonnet 5 | Opus 4.8 | |
|---|---|---|
Model ID (API) |
|
|
Ventana de contexto (API) | 1M tokens | 1M tokens (200K en Microsoft Foundry) |
Output máximo | 128K tokens | 128K tokens |
Precio input | $2/MTok (hasta 31/08/2026), luego $3 | $5/MTok |
Precio output | $10/MTok (hasta 31/08/2026), luego $15 | $25/MTok |
Fast Mode | Sin confirmar a nivel API; en Claude Code, | $10/$25 input, $10/$50 output (research preview) |
Niveles de effort | low / medium / high (default) / xhigh / max | low / medium / high (default) / xhigh / max |
Thinking | Adaptive | Adaptive (sin budget manual) |
temperature / top_p / top_k | No soportados (error 400) | No soportados (error 400) |
Contexto en claude.ai (plan de pago) | 1M tokens | 500K tokens |
Dato que sorprende: en la web de claude.ai, Sonnet 5 tiene más contexto disponible que Opus 4.8 (1M frente a 500K). En la API ambos igualan a 1M.
Sobre el tokenizer: no hay sorpresa al migrar entre estos dos modelos. Sonnet 5 usa el mismo tokenizer que se introdujo con Opus 4.7, así que Opus 4.8 ya lo llevaba. El salto de tokens (~30% más que con el tokenizer antiguo) solo aplica si vienes de Sonnet 4.6 u otro modelo anterior a Opus 4.7.
Benchmarks
Categoría | Benchmark | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
Agentic coding | SWE-bench Pro | 63,2% | 69,2% |
Agentic coding | Terminal-Bench 2.1 | 80,4% | 82,7% |
Multidisciplinary reasoning | HLE, sin herramientas | 43,2% | 49,8% |
Multidisciplinary reasoning | HLE, con herramientas | 57,4% | 57,9% |
Computer use | OSWorld-Verified | 81,2% | 83,4% |
Knowledge work | GDPval-AA v2 (Elo) | 1.618 | 1.615 |
Opus 4.8 gana en todo salvo en GDPval-AA v2, donde Sonnet 5 queda ligeramente por delante (1.618 vs 1.615). En Humanity's Last Exam con herramientas, la diferencia es mínima (57,4% vs 57,9%): con effort alto, Sonnet 5 se acerca mucho a Opus 4.8 en razonamiento con tools.
Effort: mismo número de niveles, no el mismo rendimiento
Sonnet 5 y Opus 4.8 exponen los mismos cinco niveles de effort (low, medium, high, xhigh, max). Que tengan las mismas etiquetas no significa que rindan igual: xhigh en Sonnet 5 no equivale a xhigh en Opus 4.8, son escalas calibradas por modelo.
Aquí está el matiz importante para presupuestar: según datos de Artificial Analysis (organización independiente que evaluó Sonnet 5 antes del lanzamiento), a max effort Sonnet 5 usa aproximadamente un 40% más de tokens de salida por tarea que Sonnet 4.6, y hasta 6 veces más turnos agénticos en max que en low sobre su benchmark GDPval-AA. El resultado: en su Intelligence Index, Sonnet 5 a max cuesta unos $2,29 por tarea, un ~15% más que Opus 4.8 en la misma medición, aunque el precio por token de Sonnet 5 sea muy inferior.
En la práctica: a low y medium, Sonnet 5 es claramente más barato que Opus 4.8 para un rendimiento razonable. A xhigh y max, esa ventaja de precio se reduce y puede llegar a desaparecer.
Cuándo usar cada uno
Sonnet 5 en
low/medium/high: la opción por defecto para coding diario, tool use y trabajo agéntico. Mejor relación coste-rendimiento del catálogo actual.Opus 4.8: tareas donde la precisión es crítica y el coste no es el factor limitante — SWE-bench Pro, Terminal-Bench y OSWorld le siguen dando ventaja clara. También si necesitas Dynamic Workflows (orquestación de decenas o cientos de subagentes en paralelo), que sigue siendo exclusivo de Opus 4.8 en Claude Code.
Sonnet 5 en
xhigh/max: revisa el coste real antes de asumir que sale más barato que Opus 4.8; en ese rango puede no serlo.
Para más detalle de cada modelo por separado: Claude Sonnet 5: lanzamiento y Claude Opus 4.8: análisis para desarrolladores.