Claude Sonnet 5 vs Sonnet 4.6: benchmarks, precio y effort comparados

Claude Sonnet 5 salió el 30 de junio de 2026, poco más de cuatro meses después de Sonnet 4.6 (17 de febrero de 2026). Es su sucesor directo dentro de la gama media de Anthropic. Aquí comparamos los dos modelos con los datos oficiales de ambos lanzamientos.

Benchmarks

Estos son los datos que Anthropic publicó en el anuncio de Sonnet 5, comparando ambos modelos (Opus 4.8 aparece como referencia superior):

Categoría	Benchmark	Sonnet 4.6	Sonnet 5	Opus 4.8
Agentic coding	SWE-bench Pro	58,1%	63,2%	69,2%
Agentic coding	Terminal-Bench 2.1	67,0%	80,4%	82,7%
Multidisciplinary reasoning	HLE, sin herramientas	34,6%	43,2%	49,8%
Multidisciplinary reasoning	HLE, con herramientas	46,8%	57,4%	57,9%
Computer use	OSWorld-Verified	78,5%	81,2%	83,4%
Knowledge work	GDPval-AA v2 (Elo)	1.395	1.618	1.615

En Terminal-Bench, la mejora es la más grande de toda la tabla: +13,4 puntos. En GDPval-AA v2, Sonnet 5 supera a Opus 4.8, aunque por un margen mínimo.

Importante: no compares estas cifras directamente con las del artículo de Sonnet 4.6

Si has leído nuestro análisis de Sonnet 4.6, verás que allí Sonnet 4.6 aparecía con un 79,6% en SWE-bench Verified y un 59,1% en Terminal-Bench 2.0. En la tabla de arriba, el mismo Sonnet 4.6 aparece con 58,1% y 67,0% respectivamente. No es una contradicción: son benchmarks distintos.

Anthropic ha pasado a usar SWE-bench Pro (una variante más difícil, con diffs multiarchivo y menos filtración de respuestas públicas) y Terminal-Bench 2.1 para comparar Sonnet 5. Los números de cada generación solo son comparables dentro de la misma tabla, no entre artículos de lanzamiento distintos.

Precio

	Sonnet 4.6	Sonnet 5 (introductorio, hasta 31/08/2026)	Sonnet 5 (estándar, desde 01/09/2026)
Input	$3 / MTok	$2 / MTok	$3 / MTok
Output	$15 / MTok	$10 / MTok	$15 / MTok

El precio estándar de Sonnet 5 iguala al de Sonnet 4.6. Hasta el 31 de agosto de 2026 sale más barato todavía. Es decir: mismo precio o menos, y mejor rendimiento.

El cambio de tokenizer

Sonnet 5 usa un tokenizer distinto al de Sonnet 4.6 (el mismo cambio que ya se introdujo con Opus 4.7). El mismo texto de entrada puede generar entre 1,0 y 1,35 veces más tokens según el tipo de contenido. Anthropic ha calibrado el precio introductorio para que la migración sea, en la práctica, neutra en coste, pero si calculas presupuesto por tokens de forma fina, hazlo con datos reales tras migrar, no antes.

Parámetro effort

Sonnet 4.6 expone effort con cuatro niveles: low, medium, high (default) y max, sin xhigh. Sonnet 5 añade el nivel xhigh, quedando en cinco niveles (low, medium, high, xhigh, max), los mismos que tiene Opus 4.8. Con Sonnet 4.6, incluso a max, el rendimiento agéntico quedaba claramente por debajo de Opus 4.8. Con Sonnet 5 en xhigh, se acerca mucho más a Opus 4.8 en varias evaluaciones, aunque a ese nivel el coste efectivo puede superar al de Opus 4.8 en tareas comparables. El punto donde Sonnet 5 mejora más la relación coste-rendimiento es en medium.

Seguridad

Sonnet 5 mejora a Sonnet 4.6 en resistencia a prompt injection, y muestra menor tasa de alucinaciones y de sycophancy. En la auditoría de comportamiento automatizada de Anthropic, Sonnet 5 obtiene una tasa de comportamiento no alineado menor que Sonnet 4.6, aunque más alta que Opus 4.8.

En ciberseguridad ofensiva, ninguno de los dos consigue generar un exploit funcional completo en el test sobre vulnerabilidades de Firefox 147 desarrollado con Mozilla (0,0% en ambos). Sonnet 5 muestra una tasa de éxito parcial ligeramente mayor, motivo por el que Anthropic ha activado en Sonnet 5 los mismos cyber safeguards por defecto que ya llevan Opus 4.7 y 4.8.

Qué dicen los primeros usuarios

Equipos de Cursor, Lovable, Zapier, ClickHouse y otros que probaron Sonnet 5 antes del lanzamiento coinciden en un patrón: el modelo termina tareas completas (reproducir un bug con un test, aplicar el fix, confirmar que el test falla sin el cambio) sin que se le pida cada paso por separado. Es la misma dirección que ya se veía en Sonnet 4.6 frente a 4.5, pero más marcada.

¿Merece la pena migrar?

Si ya usas Sonnet 4.6, migrar a claude-sonnet-5 es directo: mismo precio estándar (menos durante el periodo introductorio), mejor rendimiento agéntico y mejor comportamiento de seguridad.
Revisa el consumo real de tokens tras el cambio de tokenizer antes de dar la migración por cerrada, sobre todo si facturas a clientes por uso de IA.
Para el nivel de precisión más alto posible, Opus 4.8 sigue por delante en casi todos los benchmarks.

Para más detalle sobre cada modelo por separado: Claude Sonnet 4.6: rendimiento casi Opus a precio de Sonnet y Claude Sonnet 5: lanzamiento.

Sigue aprendiendo