Cuánto cuesta programar con IA en 2026: Copilot, Cursor, Claude Code y Codex

Cuánto cuesta programar con IA en 2026 (y cómo gastar menos)

Durante un par de años, programar con IA tuvo un precio fijo. Pagabas veinte dólares al mes, abrías el editor y trabajabas sin mirar el contador. Eso se acabó. En menos de un año, las tres herramientas más usadas han ligado el coste de usarlas al consumo de tokens, y la cuarta ha empezado a acotar usos que antes entraban sin coste extra en sus planes.

Este artículo recoge qué ha cambiado, cuánto cuesta hoy cada herramienta, por qué los proveedores han tomado esta dirección, y qué puedes hacer para seguir usando IA sin que la factura se dispare. Los precios son los vigentes en junio de 2026 y conviene contrastarlos en las páginas oficiales antes de contratar, porque cambian cada pocos meses.

Qué ha cambiado: de tarifa plana a pago por tokens

El movimiento no es de una empresa, es de todo el sector. La unidad de cobro ya no es "una petición" ni "un mes de uso", sino el token: cada fragmento de texto que el modelo lee y escribe. Cuanto más trabaja el modelo, más tokens consume y más pagas.

Cursor fue el primero, en junio de 2025. Cambió de un sistema de peticiones a uno ligado al coste real de la API. La transición se comunicó mal, hubo cargos inesperados y la empresa terminó pidiendo disculpas en público y devolviendo dinero a los afectados.

OpenAI Codex ajustó su facturación el 2 de abril de 2026, sin eliminar sus planes. Codex sigue ofreciendo sus niveles de suscripción —Free, Go, Plus, Pro, Business y Enterprise—, cada uno con un volumen de uso incluido. Lo que cambió es cómo se mide ese uso: la tarifa pasó de estimarse por mensaje a calcularse por tokens de entrada, entrada cacheada y salida, en los planes Plus, Pro, Business y los nuevos Enterprise. En la práctica, sigues comprando un plan, pero el consumo dentro de él, y los créditos de más cuando lo agotas, se cuentan por tokens en lugar de por número de mensajes.

GitHub Copilot completó el cambio el 1 de junio de 2026. Sustituyó los premium requests por un sistema de créditos —un crédito equivale a un céntimo de dólar— que se consumen según los tokens de cada modelo. El autocompletado en línea sigue incluido y no gasta créditos, pero el chat y los flujos con agente sí. Semanas antes, GitHub había pausado las altas de Pro y Pro+, con un argumento claro: el producto consume mucho más cómputo que hace un año porque ahora ejecuta tareas con agentes, y a veces unas pocas peticiones cuestan más que el precio del plan entero.

Claude Code es la excepción parcial. Mantiene la tarifa plana para el uso interactivo, pero la ha endurecido: desde abril restringió que herramientas de terceros consumieran los planes planos, y desde el 15 de junio separó el uso interactivo del autónomo. Las ejecuciones no interactivas (SDK de agentes, procesos en segundo plano, integración con CI) pasan a un crédito mensual aparte facturado a tarifa de API.

Lo que está pasando tiene un nombre conocido para cualquiera que haya trabajado con infraestructura: es el modelo de facturación de la nube aplicado a las herramientas de desarrollo. El presupuesto deja de ser una línea anual y pasa a ser algo que se vigila a diario. Elegir entre un modelo barato y uno potente deja de ser indiferente y se convierte en una decisión de coste por cada tarea.

Por qué los proveedores han hecho esto

La respuesta corta es que la tarifa plana no salía a cuenta para nadie que ofrezca estos servicios. Los flujos de trabajo con agentes consumen entre cinco y veinte veces más tokens que el autocompletado clásico. Y aquí aparece la tensión de fondo: cuanto mejor funciona la herramienta, más se usa, y cuanto más se usa, más cuesta.

Dos casos públicos lo ilustran mejor que cualquier estimación.

Uber desplegó Claude Code a unos cinco mil ingenieros. El uso subió hasta el 84-95% de la plantilla, el coste por ingeniero llegó a situarse entre quinientos y dos mil dólares al mes, y la empresa agotó todo su presupuesto de IA de 2026 en cuatro meses.

Microsoft empezó a cancelar la mayoría de sus licencias internas de Claude Code en la división responsable de Windows, Microsoft 365, Outlook, Teams y Surface, seis meses después de haberlas abierto, y redirigió a sus ingenieros a su propia herramienta de línea de comandos. El detalle relevante es que no lo hizo porque la herramienta fuera mala, sino porque era tan buena que sus ingenieros la usaban sin parar, y ese uso constante es lo que rompía las cuentas.

Tampoco sirve consolarse pensando que los tokens bajarán de precio y el problema se resolverá solo. Las previsiones del sector apuntan a que el coste de la inferencia caerá mucho de aquí a 2030, pero esa bajada no abaratará la IA para las empresas, porque los modelos con agentes necesitan muchos más tokens por tarea. Que el token de consumo se abarate no significa que el razonamiento de los modelos punteros se vuelva accesible.

Conviene reconocer el lado razonable del cambio: cobrar por uso es cobrar por lo que cuesta de verdad, y la alternativa era limitar a los usuarios intensivos detrás de topes poco claros, que fue buena parte de la fricción del último año. El problema es que el cambio golpea más fuerte precisamente a quien adoptó los flujos con agentes, que es justo lo que estos proveedores llevaban dos años animando a hacer.

Cuánto cuesta cada herramienta

Estos son los planes individuales de referencia en junio de 2026.

Herramienta	Plan base	Plan medio	Plan alto
GitHub Copilot	Pro 10 $ (1.500 créditos)	Pro+ 39 $ (7.000)	Max 100 $ (20.000)
Cursor	Individual 20 $ (pool de 20 $)	Pro+ ~60 $ (3x)	Ultra ~200 $ (20x)
OpenAI Codex	Plus 20 $	Pro 5x 100 $	Pro 20x 200 $
Claude Code	Pro 20 $ (17 $ anual)	Max 5x 100 $	Max 20x 200 $

Cursor incluye un matiz que marca la diferencia: su modo automático, en el que la herramienta elige el modelo, es ilimitado y no consume del pool de 20 dólares; lo que sí consume es seleccionar a mano un modelo puntero, que se cobra a tarifa de API completa. Por eso dos personas con el mismo plan pueden pagar cosas muy distintas: una usando solo el modo automático se queda en veinte dólares, y otra eligiendo el modelo más potente para todo puede pasar de ochenta en el mismo plan.

Si trabajas por API directamente, la escalera de precios da idea del rango: la salida va desde menos de un dólar por millón de tokens en los modelos abiertos más baratos hasta veinticinco o treinta en los modelos punteros cerrados.

Qué plan sale a cuenta

La regla práctica en la que coinciden la mayoría de los análisis es sencilla. Si lanzas más de una tarea con agente al día, la suscripción plana ya sale mejor que pagar por API. Si pasas de cinco tareas al día, el plan de cien dólares compensa frente al de veinte. La API por tokens solo gana cuando el uso es esporádico o cuando automatizas procesos.

Para uso intensivo, un plan de cien dólares suele salir entre dos y dos veces y media más barato que pagar el mismo consumo por API, y además evita quedarte sin cuota a media sesión. En el extremo, un plan de doscientos dólares usado a fondo puede equivaler a un consumo de varios cientos de dólares en tokens de API: hoy es lo más parecido a un seguro contra el contador para una sola persona que trabaja muchas horas.

El coste real medio que reportan tanto los usuarios como las propias empresas para un desarrollador que usa estas herramientas como principal está entre cien y doscientos dólares al mes. Es una cifra que conviene tener presente al planificar, sobre todo en equipos europeos, donde el control del gasto suele ser más estricto.

El coste que no aparece en la factura

Hay un gasto que ningún plan refleja: el de revisar lo que la IA produce. La velocidad de generación ha subido, pero la calidad del código generado sigue siendo un problema serio.

Las pruebas más completas del sector muestran que cerca del 45% del código generado por IA introduce vulnerabilidades conocidas cuando no se le dan instrucciones de seguridad explícitas, y que esa tasa lleva dos años estancada pese a los nuevos modelos. En lenguajes como Java el porcentaje de fallo supera el 70%. Fallos de manual como el cross-site scripting o la inyección en logs aparecen en la gran mayoría de las muestras afectadas.

El efecto sobre el trabajo es directo: los equipos que usan IA generan código mucho más rápido, pero introducen hallazgos de seguridad a un ritmo muy superior. Producir el código se ha vuelto casi gratis; revisarlo, no. Cualquier cálculo de cuánto te ahorra la IA debe restar las horas de revisión y corrección, porque son reales y crecen con el volumen.

Cómo usar la IA de forma económica

La buena noticia es que se puede recortar el gasto bastante sin perder capacidad. Estas son las palancas que más rinden.

Elige el modelo según la tarea. Trata la elección del modelo como elegías el tamaño de una instancia en la nube. Modelo barato o automático para lo rutinario, modelo puntero solo para razonamiento difícil o cambios en muchos archivos. Para la mayoría de equipos, lo eficiente no es un único modelo sino un sistema que mande lo fácil a un modelo económico y reserve el potente para los cambios complicados.

Pon el presupuesto a cero como medida defensiva. En Copilot, los sobrecostes solo se aplican si fijas un presupuesto adicional. Dejarlo a cero detiene la herramienta cuando agotas los créditos, en lugar de seguir cobrando. Es la forma más simple de evitar sorpresas a fin de mes.

Aprovecha el cacheo de prompts si trabajas por API. El procesamiento por lotes abarata un 50% y el cacheo de prompts recorta hasta un 90% el coste de la entrada que se repite. En aplicaciones con mucho contexto fijo, como un sistema RAG o un asistente de código, combinarlos puede reducir el gasto de forma notable. Un apunte realista para no exagerar: con una tasa de aciertos del cacheo del 80%, ese 90% en las lecturas se traduce en torno a un 30% de reducción de la factura total, porque la salida del modelo sigue pesando mucho. La palanca real es cuántas veces aciertas el cacheo, no el proveedor.

Cuida el contexto y el razonamiento. Reducir el contexto innecesario es la medida individual que más ahorra. En Claude Code, el razonamiento extendido se factura como salida, que es la parte cara; bajarlo en tareas simples evita gasto inútil. Dividir el trabajo en subagentes que devuelven solo un resumen mantiene pequeño el contexto principal.

Trabaja primero en modo plan y fija la versión. Planificar antes de dejar que el agente ejecute consume menos que lanzarlo a ciegas. Y conviene fijar la versión de la herramienta: ha habido versiones puntuales que consumían cuota varias veces más rápido por un fallo, y fijar la versión evita que una actualización silenciosa vacíe tu presupuesto.

Tu propia memoria de proyecto para gastar menos

Hay una fuente de gasto silenciosa en cualquier flujo con agentes: el modelo vuelve a leer medio repositorio en cada sesión para reconstruir el contexto. Cada uno de esos archivos son tokens que pagas, una y otra vez, para que el agente recuerde cosas que ya sabía ayer.

Una forma de cortar ese gasto es darle al agente una memoria del proyecto que pueda consultar de forma puntual. En algunos de mis proyectos mantengo un pequeño servidor MCP propio, centralizado, donde guardo lo que importa: las decisiones de arquitectura que ya se tomaron, lo que queda pendiente, el porqué de ciertas elecciones y el contexto que de otro modo el agente tendría que deducir releyendo código. Con eso, en lugar de explorar el repositorio entero, el agente hace una búsqueda rápida contra ese servidor y recupera justo lo que necesita. Menos archivos leídos significa menos tokens de entrada, y eso se nota en la factura tanto si pagas por API como si peleas contra los límites de una suscripción.

Existen soluciones de terceros para esto, pero a mí no me encaja instalar una dependencia para algo que con la propia IA monto en unos minutos. La idea es sencilla: un servidor MCP con un par de herramientas de escritura, para que el agente vaya guardando lo que ocurre durante la sesión —decisiones, cambios, cosas pendientes—, y otras de lectura para recuperarlo cuando hace falta. Cada anotación lleva su fecha y una o varias etiquetas para clasificarla, y la propia sesión de memoria se abre y se cierra, de modo que siempre sabes de cuándo data cada cosa. Detrás, una base de datos local con búsqueda y poco más. Menos dependencias, menos cosas que mantener y control total sobre lo que se almacena. Como efecto secundario, el contexto del agente se mantiene pequeño y enfocado, que es justo lo que reduce el coste y, de paso, mejora la calidad de lo que produce.

Las alternativas baratas (y gratis) que existen

Pagar cien o doscientos dólares al mes no es la única opción. El abanico se ha ampliado mucho.

Capas gratuitas usables a diario. Gemini CLI ofrece mil peticiones diarias gratis con una cuenta de Google, suficiente para muchos usos reales. Windsurf y Gemini Code Assist tienen capas gratuitas generosas de autocompletado. Y hay agentes de código abiertos como OpenCode, Cline o Aider que funcionan con cualquier modelo, incluido el tuyo propio.

Modelos de pesos abiertos. Ya no son la alternativa barata, son una opción de primera. Modelos como DeepSeek, Qwen, Kimi o MiniMax tienen licencias permisivas y cuestan una fracción de los modelos cerrados, con resultados muy cercanos en tareas de programación bien definidas.

El ejemplo más reciente es GLM-5.2, que Z.ai publicó a mediados de junio de 2026 bajo licencia MIT, con los pesos disponibles en Hugging Face y una ventana de contexto de un millón de tokens. Está pensado para tareas de programación largas y con agentes, y en las pruebas disponibles se sitúa como el modelo de pesos abiertos más fuerte en programación, a la altura de los modelos cerrados punteros en varias de ellas y por encima de algún rival comercial, a un coste por token mucho menor. Conviene tomar parte de sus cifras con cautela, porque al principio las publicó la propia empresa y las verificaciones independientes son muy recientes, pero la dirección está clara: la distancia con el frontera cerrado se ha estrechado mucho. El compromiso sigue estando en los últimos puntos de calidad, que los modelos cerrados defienden mejor en las tareas más difíciles, y esos puntos se pagan caros por token. Si prefieres un coste fijo, la propia Z.ai ofrece un plan de suscripción para programar que arranca alrededor de dieciocho dólares al mes.

Claude Code con modelos por API. No necesitas una suscripción de Anthropic para usar la herramienta Claude Code. Como varios de estos modelos exponen un punto de acceso compatible, puedes apuntar Claude Code a la API de GLM o de otro proveedor cambiando la URL base y el nombre del modelo, y seguir trabajando con la misma herramienta a un coste por token mucho menor. Tienes el paso a paso en el curso Usa Claude Code sin cuenta de Anthropic con GLM.

Modelos locales. Desde principios de 2026, Claude Code puede funcionar con modelos locales a través de Ollama, apuntando la herramienta a tu propia máquina. Aquí conviene ser realista: los modelos de pesos abiertos más grandes ocupan desde cientos de gigas hasta más de un terabyte y no caben en un equipo normal, así que para uso local lo práctico son los modelos medianos. Como referencia de hardware, con 8 GB de memoria de gráfica corres modelos pequeños, 24 GB es un suelo razonable para los de tamaño medio, y a partir de 40 GB entras en los grandes. Para los modelos punteros abiertos, lo realista es usarlos por API alojada, que sigue saliendo barata, y reservar el local para privacidad o para tareas que no necesiten el modelo más capaz.

La opción de pagar solo por API con tu propia clave también existe y, con un modelo equilibrado, un uso moderado se queda en torno a diez o quince dólares al mes. Sale a cuenta cuando tu uso es irregular.

Lo que viene en los próximos meses

Conviene mirar un poco más allá, porque la dirección del sector da que pensar. Dos fuerzas tiran a la vez, en sentidos opuestos.

La primera empuja hacia la dependencia. La IA para programar está dejando de ser una elección personal para convertirse en una expectativa del puesto. Banca, telecos y farmacéuticas ya fijan cuotas de uso de IA dentro de los objetivos de sus equipos, y las previsiones del sector apuntan a que en un par de años tres de cada cuatro desarrolladores profesionales dependerán de un asistente para trabajar. Cuanto más se integran estas herramientas en el día a día, más difícil resulta prescindir de ellas.

La segunda tira del precio, y aquí está lo que más conviene entender. El coste por token baja sin parar —en los últimos años se ha dividido por diez aproximadamente cada año y medio—, pero el consumo sube todavía más rápido, porque cada generación de agentes gasta muchos más tokens por tarea. La previsión es que la inferencia sea mucho más barata de aquí a 2030 sin que eso abarate la IA para quien la usa. Que el token cueste menos no significa que programar con IA vaya a costar menos. La consultora Gartner llega a prever que más del 40% de los proyectos de IA con agentes se cancelen antes de 2027 por costes desbocados, valor poco claro o falta de control. La etapa de gastar sin mirar se está corrigiendo, y se corrige recortando.

Junta las dos cosas y aparece el escenario que más preocupa: herramientas que se vuelven imprescindibles y, a la vez, cada vez más caras de usar a fondo. Si tu trabajo llega a depender de una herramienta concreta y mañana sube el precio o cambia las reglas, te quedas con muy poco margen de maniobra. Nada de esto es certeza, nadie sabe dónde acaban los precios, pero la dirección es lo bastante clara como para tomársela en serio desde ya.

El panorama, y qué hacer con él

El paso de tarifa plana a pago por uso está dejando un escenario en capas. Arriba quedan quienes trabajan en empresas que cubren el gasto sin mirarlo. En medio, quienes pagan entre veinte y sesenta dólares y conviven con los límites. Abajo, estudiantes, perfiles júnior y desarrolladores de zonas con menos poder adquisitivo, atrapados en planes gratuitos que apenas dan para trabajar.

La salida a esa estratificación está apareciendo más rápido de lo que se esperaba, y viene de los modelos de pesos abiertos. Cuando tienes programación casi al nivel del estado del arte por unos pocos dólares por millón de tokens, el plan premium de doscientos dólares deja de parecer una ventaja permanente.

Para quien decide hoy, el camino razonable es claro. Calcula tu uso antes de elegir plan, no después. Empieza por la opción más barata que cubra tu trabajo y sube solo cuando los límites te frenen de verdad. Trata cada herramienta como lo que ya es, un servicio medido, y ponle presupuesto y vigilancia como se la pondrías a cualquier servicio de la nube. Y no descartes las alternativas abiertas y locales por costumbre: en 2026 son lo bastante buenas para cubrir buena parte del trabajo diario sin factura recurrente.

La etapa en la que no había que pensar en lo que costaba programar con IA duró unos tres años. Ya terminó. Lo que viene no es peor, pero exige trabajar con la calculadora a mano.

Sigue aprendiendo