Claude Sonnet 5 vs Opus 4.8: benchmarks, precio y cuándo usar cada uno

Claude Sonnet 5 (30 de junio de 2026) y Claude Opus 4.8 (28 de mayo de 2026) son ahora mismo los dos modelos activos de referencia de Anthropic: uno es gama media agéntica, el otro el flagship. Aquí comparamos specs, benchmarks y coste real con datos oficiales.

Especificaciones técnicas

	Sonnet 5	Opus 4.8
Model ID (API)	`claude-sonnet-5`	`claude-opus-4-8`
Ventana de contexto (API)	1M tokens	1M tokens (200K en Microsoft Foundry)
Output máximo	128K tokens	128K tokens
Precio input	$2/MTok (hasta 31/08/2026), luego $3	$5/MTok
Precio output	$10/MTok (hasta 31/08/2026), luego $15	$25/MTok
Fast Mode	Sin confirmar a nivel API; en Claude Code, `/fast` se describe como específico de Opus 4.8	$10/$25 input, $10/$50 output (research preview)
Niveles de effort	low / medium / high (default) / xhigh / max	low / medium / high (default) / xhigh / max
Thinking	Adaptive	Adaptive (sin budget manual)
temperature / top_p / top_k	No soportados (error 400)	No soportados (error 400)
Contexto en claude.ai (plan de pago)	1M tokens	500K tokens

Dato que sorprende: en la web de claude.ai, Sonnet 5 tiene más contexto disponible que Opus 4.8 (1M frente a 500K). En la API ambos igualan a 1M.

Sobre el tokenizer: no hay sorpresa al migrar entre estos dos modelos. Sonnet 5 usa el mismo tokenizer que se introdujo con Opus 4.7, así que Opus 4.8 ya lo llevaba. El salto de tokens (~30% más que con el tokenizer antiguo) solo aplica si vienes de Sonnet 4.6 u otro modelo anterior a Opus 4.7.

Benchmarks

Categoría	Benchmark	Sonnet 5	Opus 4.8
Agentic coding	SWE-bench Pro	63,2%	69,2%
Agentic coding	Terminal-Bench 2.1	80,4%	82,7%
Multidisciplinary reasoning	HLE, sin herramientas	43,2%	49,8%
Multidisciplinary reasoning	HLE, con herramientas	57,4%	57,9%
Computer use	OSWorld-Verified	81,2%	83,4%
Knowledge work	GDPval-AA v2 (Elo)	1.618	1.615

Opus 4.8 gana en todo salvo en GDPval-AA v2, donde Sonnet 5 queda ligeramente por delante (1.618 vs 1.615). En Humanity's Last Exam con herramientas, la diferencia es mínima (57,4% vs 57,9%): con effort alto, Sonnet 5 se acerca mucho a Opus 4.8 en razonamiento con tools.

Effort: mismo número de niveles, no el mismo rendimiento

Sonnet 5 y Opus 4.8 exponen los mismos cinco niveles de effort (low, medium, high, xhigh, max). Que tengan las mismas etiquetas no significa que rindan igual: xhigh en Sonnet 5 no equivale a xhigh en Opus 4.8, son escalas calibradas por modelo.

Aquí está el matiz importante para presupuestar: según datos de Artificial Analysis (organización independiente que evaluó Sonnet 5 antes del lanzamiento), a max effort Sonnet 5 usa aproximadamente un 40% más de tokens de salida por tarea que Sonnet 4.6, y hasta 6 veces más turnos agénticos en max que en low sobre su benchmark GDPval-AA. El resultado: en su Intelligence Index, Sonnet 5 a max cuesta unos $2,29 por tarea, un ~15% más que Opus 4.8 en la misma medición, aunque el precio por token de Sonnet 5 sea muy inferior.

En la práctica: a low y medium, Sonnet 5 es claramente más barato que Opus 4.8 para un rendimiento razonable. A xhigh y max, esa ventaja de precio se reduce y puede llegar a desaparecer.

Cuándo usar cada uno

Sonnet 5 en low/medium/high: la opción por defecto para coding diario, tool use y trabajo agéntico. Mejor relación coste-rendimiento del catálogo actual.
Opus 4.8: tareas donde la precisión es crítica y el coste no es el factor limitante — SWE-bench Pro, Terminal-Bench y OSWorld le siguen dando ventaja clara. También si necesitas Dynamic Workflows (orquestación de decenas o cientos de subagentes en paralelo), que sigue siendo exclusivo de Opus 4.8 en Claude Code.
Sonnet 5 en xhigh/max: revisa el coste real antes de asumir que sale más barato que Opus 4.8; en ese rango puede no serlo.

Para más detalle de cada modelo por separado: Claude Sonnet 5: lanzamiento y Claude Opus 4.8: análisis para desarrolladores.

Sigue aprendiendo