Claude Opus 4.7: qué cambia para programar con Claude Code

Anthropic lanzó ayer, 16 de abril de 2026, Claude Opus 4.7, su nuevo modelo insignia de propósito general. Llega dos meses después de Opus 4.6, manteniendo la cadencia que la compañía viene marcando desde la serie 4.x. La pregunta real para quienes vivimos del código no es si "es mejor", sino qué cambia en el día a día con Claude Code y la API, y si la migración merece la pena ya o conviene esperar.

Vamos al grano.

Qué es Opus 4.7 y dónde encaja

Opus 4.7 es el modelo generalista más potente que Anthropic ofrece a todo el público. Por encima de él existe Claude Mythos Preview, un modelo más capaz pero de acceso restringido (Project Glasswing) por motivos de seguridad, especialmente en capacidades cyber. Anthropic ha sido inusualmente transparente al admitir que Mythos sigue siendo superior en varias métricas y que Opus 4.7 es, en parte, un banco de pruebas para los safeguards que algún día permitirán liberar modelos clase Mythos.

El precio se mantiene idéntico al de 4.6: 5 $ por millón de tokens de input y 25 $ por millón de output. Disponible en todos los productos Claude, la API (claude-opus-4-7), Amazon Bedrock, Google Vertex AI y Microsoft Foundry.

Las mejoras que importan a un desarrollador

1. Coding agéntico: el salto real

Es la pieza central del lanzamiento. Anthropic insiste en que la mejora se nota especialmente en tareas largas y complejas, las que antes requerían supervisión constante. Algunos datos públicos del propio anuncio y testers en early access:

Cursor: pasa del 58% al 70% en CursorBench frente a Opus 4.6.
Hex: el "low-effort" de 4.7 equivale al "medium-effort" de 4.6. Es decir, más eficiencia por token.
Notion: +14% en workflows multi-paso con un tercio de errores en uso de herramientas.
Rakuten: 3x más tareas resueltas en su benchmark interno SWE.
CodeRabbit: +10% en recall detectando bugs difíciles en PRs complejas.

Lo más interesante no son los números, sino el patrón cualitativo que repiten varios testers: el modelo detecta sus propios fallos lógicos durante la planificación, verifica sus outputs antes de responder, y empuja con más rigor en tareas que duran horas. Vercel menciona que llega a hacer pruebas formales sobre código de sistemas antes de empezar a escribir, comportamiento que no aparecía en modelos anteriores.

2. Nuevo nivel de esfuerzo: `xhigh`

Esto es relevante si trabajas con la API o con Claude Code. Antes teníamos low, medium, high y max. Ahora se introduce xhigh entre high y max, dando un control más fino sobre el trade-off entre razonamiento y latencia.

En Claude Code, el nivel por defecto sube a xhigh para todos los planes. Anthropic recomienda explícitamente arrancar en high o xhigh para coding y casos agénticos.

Implicación práctica: si notas que tu factura de tokens sube tras migrar, revisa el effort level antes de culpar al modelo.

3. Visión mejorada

Opus 4.7 acepta imágenes de hasta 2.576 píxeles en el lado largo (~3,75 megapíxeles), más del triple que modelos anteriores. Esto desbloquea casos como agentes computer-use leyendo screenshots densos, extracción de datos de diagramas técnicos complejos, o trabajo que requiere referencia pixel-perfect. XBOW reporta un salto del 54,5% al 98,5% en su benchmark de agudeza visual.

4. Task budgets (beta pública)

En la API se lanza el sistema de task budgets, que permite guiar el gasto de tokens del modelo para que priorice trabajo a lo largo de runs largos. Útil para evitar sustos en agentes que corren durante horas.

5. Memoria basada en filesystem

Mejor uso de memoria a través del sistema de archivos. Recuerda notas importantes entre sesiones largas multi-jornada, lo que reduce el contexto que necesitas inyectar al arrancar tareas nuevas.

6. `/ultrareview` en Claude Code

Nuevo slash command que ejecuta una sesión de revisión dedicada sobre tus cambios, buscando bugs y problemas de diseño que un revisor cuidadoso detectaría. Pro y Max tienen 3 ultrareviews gratis para probarlo. Auto mode también se extiende a usuarios Max.

La trampa del tokenizer (importante para tu factura)

Esto se le pasa por alto a muchos y conviene tenerlo claro antes de migrar:

Opus 4.7 usa un tokenizer actualizado. El mismo input puede generar entre 1.0x y 1.35x más tokens que en 4.6, según el tipo de contenido.

Súmale que el modelo piensa más en niveles de esfuerzo altos, especialmente en turnos avanzados de tareas agénticas, y el resultado es que vas a generar más output tokens.

Anthropic afirma que en sus tests internos el balance neto es favorable (mejor coste por tarea resuelta), pero recomienda medir sobre tu tráfico real antes de dar por hecho que ahorrarás. Buen consejo. Si tienes presupuestos ajustados, planifica:

Mide tu coste actual con 4.6 en una muestra representativa.
Migra esa misma muestra a 4.7 con el mismo effort level.
Compara coste por tarea completada con éxito, no coste por llamada.

Seguridad y alineación

Perfil similar al de 4.6: tasas bajas de comportamientos preocupantes (engaño, sycophancy, cooperación con uso indebido). Anthropic lo describe textualmente como "largely well-aligned and trustworthy, though not fully ideal". Mejora en honestidad y resistencia a prompt injection. Empeora ligeramente en una métrica concreta: tendencia a dar consejos de reducción de daños demasiado detallados sobre sustancias controladas.

En cyber, Anthropic experimentó durante el entrenamiento con reducir diferencialmente las capacidades cyber del modelo, e incluye safeguards automáticos que detectan y bloquean peticiones que indican usos cyber prohibidos o de alto riesgo. Si trabajas en pentesting, vulnerability research o red-teaming legítimo, existe un Cyber Verification Program para acceder sin esas restricciones.

¿Migrar ya o esperar?

M recomendación:

Migra ya si:

Usas Claude Code intensivamente para tareas complejas y largas (refactors grandes, debugging difícil, agentes que corren tiempo).
Tu workflow se beneficia de mejor instruction-following (Opus 4.7 toma las instrucciones más literalmente).
Trabajas con vision/computer-use o procesas screenshots y diagramas.

Mide antes si:

Tienes pipelines en producción con presupuesto controlado. El cambio de tokenizer puede inflar tu coste.
Tus prompts están muy ajustados a 4.6. Pueden producir resultados inesperados porque 4.7 sigue las instrucciones más al pie de la letra. Toca re-tunear.

Espera tranquilamente si:

Tu uso principal es chat conversacional simple, generación de texto corto o tareas donde 4.6 ya cumplía sin esfuerzo. La mejora no compensará la fricción del cambio.

Conclusión

Opus 4.7 no es un salto generacional. Es un refinamiento serio orientado a trabajo agéntico de larga duración, donde la fiabilidad importa más que la chispa creativa. El propio posicionamiento de Anthropic lo deja claro: este modelo existe en parte para validar safeguards mientras Mythos sigue en la caja fuerte.

Para un desarrollador con Claude Code en su día a día, las novedades que más vas a notar son: el nivel xhigh por defecto, /ultrareview, y un modelo que empuja más en problemas difíciles antes de rendirse. El precio sigue igual, pero el coste real puede subir por el tokenizer y el mayor uso de pensamiento. Mídelo en tu tráfico antes de pasar todo a 4.7 a ciegas.

Sigue aprendiendo

Rutas de aprendizaje

Claude Opus 4.7: análisis del nuevo modelo de Anthropic para desarrolladores