Claude Sonnet 4.6: rendimiento casi Opus a precio de Sonnet

Anthropic acaba de lanzar Claude Sonnet 4.6 el 17 de febrero de 2026, apenas 12 días después de Claude Opus 4.6. Y esta vez el titular no es exagerado: un modelo de gama media que roza el rendimiento del flagship en coding, a casi la mitad de precio.

Si vienes de usar Claude Sonnet 4.5, lo que vas a notar es un salto generacional, no una actualización incremental. Vamos a ver qué ha cambiado y por qué importa.

Qué es Claude Sonnet 4.6 y dónde se posiciona

Claude Sonnet 4.6 es la nueva iteración del modelo de gama media de Anthropic. En la API puedes referenciarlo como claude-sonnet-4-6 (alias que apunta siempre a la última snapshot) o con el identificador completo claude-sonnet-4-6-20260217. Es ahora el modelo por defecto en claude.ai y Claude Cowork para todos los usuarios, incluidos los del plan gratuito.

La familia Claude se organiza en tres niveles: Haiku (velocidad y coste mínimo), Sonnet (equilibrio rendimiento-precio) y Opus (máxima inteligencia). Lo que hace especial a Sonnet 4.6 es que difumina la línea entre Sonnet y Opus hasta hacerla casi irrelevante para la mayoría de tareas de desarrollo.

Para contextualizar la mejora respecto a Sonnet 4.5, estas son las diferencias técnicas clave:

Ventana de contexto: de 200k tokens a 1 millón de tokens (en beta). Primera vez que un modelo clase Sonnet alcanza esta cifra.
Knowledge cutoff: actualizado. Sonnet 4.6 tiene datos de entrenamiento hasta agosto de 2025, frente a febrero de 2025 de Sonnet 4.5.
Precio: se mantiene exactamente igual: $3/$15 por millón de tokens (input/output). Frente a los $5/$25 de Opus 4.6.

Mejoras en coding: los números que importan

Aquí es donde Sonnet 4.6 marca la diferencia real para desarrolladores. No hablamos de mejoras marginales, sino de un modelo que se acerca peligrosamente a Opus 4.6 en las métricas que usamos a diario.

En SWE-bench Verified, el benchmark de referencia que mide la capacidad de resolver issues reales de GitHub (escribir parches, corregir bugs, implementar features en repositorios open source), Sonnet 4.6 alcanza un 79.6%. Para ponerlo en perspectiva: Opus 4.6 obtiene un 80.8%, Sonnet 4.5 se quedaba en 77.2% y GPT-5.2 marca un 77.0%. Estamos hablando de 1.2 puntos de diferencia con el modelo más caro de Anthropic.

En Terminal-Bench 2.0, que evalúa coding agéntico en terminal (tareas complejas de múltiples pasos), Sonnet 4.6 sube a 59.1% desde el 50.0% de Sonnet 4.5. Opus 4.6 lidera con 65.4%, pero la distancia se ha reducido considerablemente.

En OSWorld-Verified, el benchmark de computer use (interactuar con software real como un humano: clicks, teclado, navegación), Sonnet 4.6 alcanza un 72.5%. Opus 4.6 obtiene 72.7%, es decir, prácticamente lo mismo. GPT-5.2 se queda en 38.2%. Para dimensionar el progreso: en octubre de 2024, el primer Sonnet con computer use marcaba un 14.9%. En 16 meses, se ha multiplicado casi por cinco.

Otro dato llamativo: en ARC-AGI-2, un benchmark de razonamiento abstracto diseñado para resistir la memorización, Sonnet 4.6 salta de 13.6% (Sonnet 4.5) a 58.3%. Es una mejora de 4.3× en una sola generación, la mayor en la historia de este benchmark.

Qué dicen los desarrolladores que ya lo usan

Los números de benchmarks están bien, pero lo que realmente importa es cómo se comporta en el día a día. Anthropic hizo testing interno con Claude Code y los resultados son reveladores.

Los desarrolladores con acceso anticipado prefirieron Sonnet 4.6 sobre Sonnet 4.5 el 70% de las veces. Pero lo más sorprendente: también lo prefirieron sobre Opus 4.5 (el flagship de noviembre 2025) el 59% de las veces. Sí, un modelo de gama media superando al flagship anterior.

¿Qué reportan concretamente? Que el modelo lee mejor el contexto antes de modificar código, consolida lógica compartida en lugar de duplicarla, sigue instrucciones con más precisión, genera menos hallucinations, tiene menos tendencia al overengineering y a la "pereza", y es más consistente en tareas multi-paso.

En cuanto a los testimonios de empresas, los que más nos interesan como desarrolladores son claros. GitHub destaca que Sonnet 4.6 ya sobresale en correcciones de código complejas, especialmente cuando es necesario buscar en codebases grandes. Cursor lo califica como una mejora notable sobre Sonnet 4.5 en tareas de larga duración y problemas difíciles. Cognition señala que ha cerrado la brecha con Opus en detección de bugs, permitiéndoles ejecutar más revisores en paralelo sin aumentar costes. Bolt confirma que entrega resultados de nivel frontier en builds complejas y bug-fixing. Y Rakuten reporta que produjo el mejor código iOS que han probado, con mejor cumplimiento de specs, mejor arquitectura y uso de tooling moderno sin pedírselo.

Ventana de contexto de 1M de tokens

Igual que con Opus 4.6, Sonnet 4.6 incorpora una ventana de contexto de 1 millón de tokens en beta. Pero lo importante no es solo el número, sino cómo razona sobre ese contexto.

Un millón de tokens es suficiente para meter codebases enteros, contratos largos o decenas de papers en una sola petición. En la práctica, esto permite que el modelo trabaje con proyectos completos sin fragmentar y planifique a largo plazo de forma más efectiva.

Esto se refleja bien en el benchmark Vending-Bench Arena, que simula la gestión de un negocio a lo largo del tiempo. Sonnet 4.6 desarrolló una estrategia interesante: invirtió fuertemente en capacidad durante los primeros diez meses simulados, gastando más que sus competidores, y luego pivotó hacia la rentabilidad en el tramo final. El resultado fue casi triplicar los beneficios de Sonnet 4.5. Este tipo de planificación estratégica a largo plazo solo es posible cuando el modelo mantiene coherencia sobre grandes cantidades de contexto.

Además, Sonnet 4.6 iguala a Opus 4.6 en OfficeQA, que mide la capacidad de leer documentos empresariales (gráficos, PDFs, tablas), extraer hechos y razonar sobre ellos. Para quienes trabajamos con documentación técnica, esto es un upgrade relevante.

Novedades en la API y herramientas para desarrolladores

Sonnet 4.6 incorpora las mismas funcionalidades de API que se lanzaron con Opus 4.6, y además añade novedades propias.

Adaptive thinking permite que el modelo decida automáticamente cuándo necesita razonamiento profundo según el contexto. Ya no es una opción binaria de activar o desactivar el extended thinking. Puedes controlar el nivel de esfuerzo con cuatro niveles: low, medium, high (por defecto) y max. Esto te da control sobre el equilibrio entre inteligencia, velocidad y coste.

Context compaction (en beta) resuelve un problema real de las conversaciones largas y tareas agénticas. Cuando la conversación se acerca al límite de la ventana de contexto, el modelo automáticamente resume y reemplaza el contexto más antiguo, permitiendo que las tareas continúen sin interrupciones.

Además, varias funcionalidades que estaban en beta pasan a disponibilidad general (GA): code execution, memory, programmatic tool calling y tool search.

Las herramientas de web search y fetch ahora escriben y ejecutan código automáticamente para filtrar y procesar los resultados de búsqueda, manteniendo solo el contenido relevante en contexto. Esto mejora tanto la calidad de las respuestas como la eficiencia en el uso de tokens.

Para usar Sonnet 4.6 desde la API, simplemente cambia el model ID:

<?php

// Antes (Sonnet 4.5)
$model = 'claude-sonnet-4-5-20251219';

// Ahora (Sonnet 4.6) - snapshot específica
$model = 'claude-sonnet-4-6-20260217';

// O usando el alias (apunta siempre a la última snapshot)
$model = 'claude-sonnet-4-6';

La migración es un drop-in replacement. Sonnet 4.6 mantiene compatibilidad con los parámetros y formatos de respuesta de Sonnet 4.5.

En Claude Code (la herramienta CLI de Anthropic para coding agéntico), puedes seleccionarlo directamente:

claude --model claude-sonnet-4-6

O usar el comando /model durante una sesión interactiva.

Computer use: de experimento a herramienta productiva

En octubre de 2024, Anthropic fue el primero en lanzar un modelo capaz de usar un ordenador como un humano. En aquel momento lo describieron como "experimental, a veces torpe y propenso a errores". Dieciséis meses después, la puntuación en OSWorld ha pasado de 14.9% a 72.5%.

¿Qué significa esto en la práctica? Los usuarios con acceso anticipado reportan capacidades a nivel humano en tareas como navegar hojas de cálculo complejas, completar formularios web de múltiples pasos y coordinar trabajo entre varias pestañas del navegador. El modelo todavía no supera a los humanos más hábiles, pero la velocidad de progreso es notable.

Un detalle importante para quienes construimos agentes o aplicaciones con computer use: las evaluaciones de seguridad muestran que Sonnet 4.6 es una mejora significativa sobre Sonnet 4.5 en resistencia a prompt injection, con un rendimiento comparable a Opus 4.6. Esto es crítico cuando tu agente navega sitios web donde actores maliciosos pueden intentar inyectar instrucciones ocultas.

Seguridad y alineamiento

El sistema de evaluación de Anthropic concluye que Sonnet 4.6 es al menos tan seguro como los modelos recientes de Claude, y en algunos aspectos muestra el mejor grado de alineamiento que han visto en cualquier modelo Claude.

Los datos concretos que nos interesan como desarrolladores:

Prompt injection: mejora significativa sobre Sonnet 4.5, rendimiento comparable a Opus 4.6.
Over-refusals (rechazos innecesarios de peticiones legítimas): en evaluaciones de dificultad alta, Sonnet 4.5 tenía una tasa de over-refusal del 8.50%. Sonnet 4.6 la reduce a 0.18%. Si alguna vez Claude se negó a hacer algo perfectamente razonable porque malinterpretó tu intención, este es el tipo de mejora que lo soluciona.
Computer use malicioso: en sandbox sin mitigaciones adicionales, tasa de rechazo del 99.38% para peticiones maliciosas. Con mitigaciones estándar de desarrollador, 99.39% de rechazo malicioso y 91.78% de éxito en peticiones benignas de uso dual.

Sonnet 4.6 vs Opus 4.6: ¿cuándo merece la pena pagar 5×?

Esta es la pregunta que todos nos hacemos. Si Sonnet cuesta $3/$15 y Opus cuesta $5/$25 por millón de tokens (input/output), ¿en qué escenarios merece la pena pagar casi el doble?

Casos donde Sonnet 4.6 es suficiente (y probablemente la mejor opción coste-rendimiento):

Coding diario: SWE-bench 79.6% vs 80.8%. La diferencia es mínima.
Computer use: 72.5% vs 72.7%. Prácticamente idéntico.
Tareas de oficina y productividad: Sonnet 4.6 lidera con 1633 Elo en GDPval-AA frente a los 1606 de Opus.
Análisis financiero: Sonnet lidera con 63.3% en Finance Agent frente al 60.1% de Opus.

Casos donde Opus 4.6 sigue siendo superior:

Terminal coding agéntico de larga duración: 65.4% vs 59.1% en Terminal-Bench.
Razonamiento abstracto profundo: 68.8% vs 58.3% en ARC-AGI-2.
Razonamiento científico de nivel graduado: 91.3% vs 89.9% en GPQA Diamond.
Búsqueda agéntica compleja: 84.0% vs 74.7% en BrowseComp.
Coordinación de múltiples agentes (agent teams, exclusivo de Opus + Claude Code).

Para la mayoría de tareas de desarrollo diario, Sonnet 4.6 es la elección correcta. Opus 4.6 se justifica cuando necesitas el razonamiento más profundo posible o cuando estás coordinando equipos de agentes en tareas de alta complejidad, y la diferencia de coste es asumible para tu caso de uso.

Más allá del código: otras novedades del lanzamiento

Aunque nuestro foco es el desarrollo, merece la pena mencionar brevemente que junto a Sonnet 4.6, Anthropic lanza soporte de conectores MCP en Claude in Excel (S&P Global, LSEG, Daloopa, PitchBook, Moody's, FactSet) y mejoras en el tier gratuito que ahora incluye file creation, connectors, skills y compaction.

Conclusión

Claude Sonnet 4.6 cambia las reglas del juego para desarrolladores. No es habitual que un modelo de gama media se acerque tanto al flagship en las métricas que más nos importan: coding, computer use y trabajo agéntico. Y lo hace manteniendo el mismo precio de su predecesor.

Si estás usando Sonnet 4.5, la migración es directa: cambia el model ID y listo. Si estás usando Opus para tareas de coding diario, merece la pena evaluar si realmente necesitas ese extra de rendimiento o si Sonnet 4.6 cubre tu caso de uso a casi la mitad del coste.

El modelo está disponible ahora mismo en claude.ai, Claude Code, la API y las principales plataformas cloud (Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry).

Sigue aprendiendo

Rutas de aprendizaje