“El plan de suscripción de 20 dólares al mes” está matando a las empresas de IA. La caída del precio de los Tokens es una ilusión; lo realmente caro de la IA es tu codicia—Aprender IA lentamente 164
Introducción
- Reducir el precio de los modelos es un falso dilema: lo que baja de precio son los modelos antiguos que nadie usa; los usuarios siempre pagarán por el “nuevo modelo insignia” más potente.
- El verdadero agujero negro de costos no es el precio por Token, sino la evolución de la capacidad de IA: cuanto más compleja es la tarea, más se descontrola el consumo, y un modelo de tarifa fija por mes está destinado a “colapsar”.
- El modelo de suscripción de IA es un “dilema del prisionero”: si optas por pagar por uso, perderás mercado; si eliges un precio mensual fijo, perderás el futuro.
- La única forma de escapar del destino de “quemar dinero” es construir un “foso” de altos costos de conversión que impida a los clientes empresariales marcharse, o realizar una integración vertical, utilizando la IA como herramienta de atracción a pérdidas y ganando dinero con la infraestructura en la parte posterior.
Lectura adicional
- 【Curiosidades sobre Tokens】¿Por qué se cobra en Tokens por la IA? Un análisis
- 【Fácil de entender】¿7B, 70B, 175B? ¿Qué significan realmente los parámetros de los modelos de IA? ¿Cómo elegir la solución de gran modelo adecuada para las empresas?
- tokens son cada vez más caros
El verdadero costo de los Tokens está en aumento
La afirmación de que “el costo de los modelos de lenguaje caerá 10 veces” no salvará a los servicios de suscripción de IA que están siendo “sometidos a presión por costos”
Imagina que has fundado una empresa y sabes con claridad que los consumidores solo están dispuestos a pagar hasta 20 dólares al mes. Piensas: “no hay problema, este es un enfoque típico de VC: cobramos por costos, sacrificamos ganancias a cambio de crecimiento.” Ya has calculado el costo de adquisición de clientes (CAC), el valor de vida del cliente (LTV) y todos los demás indicadores. Pero aquí viene lo interesante: ves ese gráfico popular de a16z que muestra que el costo de los grandes modelos de lenguaje (LLM) disminuye 10 veces cada año.
Así que comienzas a pensar: hoy llego al punto de equilibrio cobrando 20 dólares al mes, y el próximo año, con el costo del modelo cayendo 10 veces, mi margen de beneficio podrá llegar al 90%. Las pérdidas son solo temporales, las ganancias son inevitables.
Esta lógica es tan sencilla que hasta el asistente de un VC podría entenderla:
- Primer año: equilibrio con un precio de 20 dólares al mes.
- Segundo año: con el costo informático cayendo 10 veces, el margen de beneficio llega al 90%.
- Tercer año: comienza a comprar yates.
Este tipo de estrategia parece comprensible: “el costo de inferencia de los grandes modelos de lenguaje cae 3 veces cada 6 meses, definitivamente podemos hacerlo”.
Pero 18 meses después, el margen de beneficio sigue siendo inusualmente negativo… El proyecto Windsurf se ha desmoronado, y Claude Code esta semana tuvo que cancelar su plan de uso ilimitado de 200 dólares al mes.
La empresa sigue perdiendo dinero. El modelo efectivamente ha bajado de precio: el costo de GPT-3.5 es diez veces menor que antes. Pero, por alguna razón, el margen de beneficio se ha vuelto peor, no mejor.
Hay un problema evidente aquí.
Modelos obsoletos como periódicos viejos
El precio de GPT-3.5 es solo una décima parte de lo que era. Pero, al igual que los teléfonos de tapa en una presentación de iPhone, ya nadie los quiere.
Cuando se lanza un nuevo modelo como el mejor en su clase (SOTA), el 99% de la demanda se traslada inmediatamente hacia él. Los consumidores tienen las mismas expectativas sobre los productos que utilizan.
Ahora, echemos un vistazo a la historia de precios de los modelos de vanguardia que ocupan el 99% de la demanda en cualquier momento:
¿Notas algo?
- Cuando GPT-4 se lanzó a 60 dólares, aunque el precio de GPT-3.5 (el modelo anterior) había disminuido 26 veces, todos eligieron GPT-4.
- Cuando Claude 3 Opus se lanzó a 60 dólares, a pesar de que GPT-4 ya había disminuido de precio, la gente todavía se movió hacia Claude.
Las caídas de costo de 10 veces son reales, pero solo se aplican a los modelos antiguos que son comparables a computadoras de la era Commodore 64.
Así que aquí está el primer defecto mortal en la estrategia de “los costos van a bajar”: la demanda de mercado existe solo por el “mejor modelo de lenguaje”, punto. Y el costo del modelo más fuerte siempre es aproximadamente el mismo, ya que refleja el costo límite actual de la tecnología de inferencia.
Señalar a un Honda Civic de 1995 y decir “¡Este coche es ahora mucho más barato!” es completamente absurdo. Es cierto, ese coche específico ha bajado de precio, pero el precio de lista del Toyota Camry 2025 es de 30,000 dólares.
Cuando utilizas IA, ya sea para programar, escribir o pensar, siempre buscas la mejor calidad. Nadie va a abrir Claude y pensar: “¿por qué no uso esa versión inferior para ahorrar algo de dinero a mi jefe?”. Somos innatamente insaciables en nuestra cognición. Queremos el mejor “cerebro” que podamos conseguir, especialmente cuando está en juego nuestro valioso tiempo.
La velocidad a la que los modelos queman dinero es más allá de lo que imaginas
“Bueno, pero eso aún suena manejable, ¿verdad? ¿Solo tenemos que mantenernos siempre en el punto de equilibrio?”
Oh, querido niño ingenuo.
Aunque el costo unitario de cada modelo de vanguardia no ha subido, ha sucedido algo incluso peor: la cantidad de Tokens que consumen ha crecido exponencialmente.
En el pasado, ChatGPT respondía a una sola frase con otra frase. Ahora, la función de “investigación profunda” puede tardar 3 minutos en planificar, 20 minutos en leer y otros 5 minutos en redactar un informe, y Opus 3 incluso ejecutará una respuesta a un simple “hola” durante 20 minutos.
El desarrollo explosivo del aprendizaje por refuerzo (RL) y del cálculo en el tiempo de prueba (test-time compute) ha llevado a un resultado inesperado: la longitud de las tareas que la IA puede completar se ha duplicado cada seis meses. Tareas que antes generaban 1,000 Tokens ahora pueden generar 100,000.
Cuando extrapolas esta tendencia, los resultados matemáticos se vuelven realmente asombrosos:
Hoy, una “investigación profunda” de 20 minutos cuesta aproximadamente 1 dólar. Para 2027, tendremos agentes que pueden funcionar indefinidamente sin perder el rumbo… ¿y combinados con el precio estable de los modelos de vanguardia? Esto significa que el costo de cada ejecución podría llegar a 72 dólares. Cada día, por usuario. Y además, podrán ejecutar múltiples tareas en asincronía.
Una vez que podamos desplegar agentes que trabajen 24 horas al día de manera asincrónica, no solo les daremos una orden y esperaremos retroalimentación. Los programaremos en lotes. Toda una flota de trabajadores de inteligencia artificial, procesando problemas en paralelo, quemando Tokens como si volviéramos a la burbuja de internet de 1999.
Es evidente—y debo enfatizar esto—que una tarifa de suscripción de 20 dólares al mes ni siquiera puede cubrir una sola “investigación profunda” de 1 dólar al día para un usuario. Pero, precisamente, eso es a donde nos dirigimos. Cada mejora en la capacidad del modelo significa que pueden consumir significativamente más recursos de computación.
Es como si hubieras construido un motor más eficiente en combustible y luego decidieras usar la eficiencia de combustible ahorrada para construir un camión gigante. Sí, cada galón de combustible puede llevarte más lejos, pero la cantidad total de combustible consumido se convierte en 50 veces más.
Esta es la razón fundamental que ha llevado a Windsurf a ser “sometido a presión por costos”—también es la situación que enfrentan cualquier startup que adopte el modelo comercial de “suscripción a tarifa fija + alto consumo de Tokens”.
El valiente intento de Anthropic por mitigar la “presión de costos”
El experimento de suscripción ilimitada de Claude Code es el intento más ingenioso que hemos visto para afrontar esta tormenta. Lo dieron todo, pero finalmente fueron superados.
Su estrategia realmente era muy inteligente:
1. Precios 10 veces más altos
Cuando Cursor cobra 20 dólares al mes, ellos fijan el precio en 200 dólares al mes. Así se aseguran de tener más espacio de maniobra antes de empezar a perder dinero.
2. Escalamiento automático del modelo según carga
Cuando las tareas son pesadas, cambian de Opus (75 dólares/1 millón de Tokens) a Sonnet (15 dólares/1 millón de Tokens). Usan Haiku para optimizar tareas de lectura. Es como la escalabilidad automática de AWS, solo que dirigida a “cerebros”.
Es casi seguro que han incorporado este comportamiento directamente en los pesos del modelo, y esta podría ser una estrategia que veamos más en el futuro.
3. Descargar cargas de trabajo en las máquinas del usuario
Si un usuario tiene CPU sin uso, ¿por qué debería yo iniciar un sandbox?
Sin embargo, a pesar de toda esta creatividad ingenieril, el consumo de Tokens sigue creciendo a un ritmo supernova.
Cien mil millones. Cien mil millones de Tokens. Eso equivale a 12,500 copias de “Guerra y Paz”. En un mes.
¿Cómo lograrlo? ¿Cómo podría una sola persona consumir 100 mil millones de Tokens, incluso si cada ejecución dura 10 minutos?
Resulta que de 10 a 20 minutos de tiempo de ejecución continuo es precisamente el tiempo suficiente para que las personas descubran la utilidad de los “bucles for”. Una vez que desacoplas el consumo de Tokens del tiempo online de los usuarios en la aplicación, las leyes físicas empiezan a hacerse cargo de todo. Dale a Claude una tarea, pídele que revise su trabajo, que restructura, que optimice, y luego repite el proceso hasta que la empresa quiebre.
Los usuarios se convierten en maestros de dirección de API, conduciendo un motor de conversión de código 24/7 a costa de Anthropic. La transformación de chat a agente se realiza de la noche a la mañana. El consumo se multiplica por 1000. Esto es una transformación de fase, no un cambio gradual.
Así que Anthropic canceló su suscripción ilimitada. Podrían haber intentado fijar un precio de 2000 dólares al mes, pero la lección no es que no estén cobrando lo suficiente, sino que en este nuevo mundo, ningún modelo de suscripción puede ofrecer uso ilimitado.
La clave está en: en este nuevo mundo, no existe un precio de suscripción fijo que sea viable.
Esta cuenta ya es insostenible.
El dilema del prisionero de todas las demás empresas
Esto ha llevado a todas las demás compañías a un dilema sin solución.
Cada empresa de IA sabe que cobrar por uso podría salvarlas. También saben que eso las mataría. Cuando cobras responsablemente $0.01/1,000 Tokens, tus competidores, financiados por VC, ofrecen servicios ilimitados por 20 dólares al mes.
¿Cuál crees que será la decisión de los usuarios?
Un típico dilema del prisionero:
- Todos cobran por uso → Sostenibilidad de la industria.
- Todos cobran una tarifa fija → Ruina general.
- Tú cobras por uso, otros cobran tarifa fija → Te mueres solo.
- Tú cobras tarifa fija, otros cobran por uso → Ganas (y luego te mueres más tarde).
Así que todos han optado por “traicionar”. Todos subsidian a los usuarios de gran consumo. Todos presentan gráficos de crecimiento “en forma de hockey”. Al final, todos publican anuncios de “importantes actualizaciones de precios”.
Cursor, Lovable, Replit—todos ellos lo entienden. Eligen el crecimiento hoy, las ganancias mañana, y la eventual quiebra, pero eso es un problema para el próximo CEO.
¿Para ser sinceros? Tal vez tengan razón. En un juego de expansión, la cuota de mercado es más importante que la rentabilidad. Siempre que los VC sigan dispuestos a seguir emitendo cheques para cubrir modelos económicos defectuosos…
Ve y pregúntale a Jasper qué sucede cuando la música se detiene.
¿Cómo evitar ser “forzado a liquidar”?
¿Aún podemos evitar esta “presión de costos” de Tokens?
Recientemente ha habido rumores de que Cognition está en proceso de levantar capital a una valoración de 15 mil millones de dólares, mientras su ingreso recurrente anual (ARR) reportado es incluso menos de 100 millones de dólares (supongo que está más cerca de 50 millones de dólares). Esto contrasta drásticamente con el financiamiento de Cursor a 10 mil millones a raíz de un ARR de 500 millones. Más de ocho veces el ingreso, pero solo dos tercios de la valoración. ¿Qué saben los VC sobre Cognition que nosotros desconocemos? Eran todos agentes de IA programadores. ¿Han encontrado una forma de escapar de esta espiral mortal? (Discutiré este tema más a fondo en mi próximo artículo.)
Hay tres salidas:
1. Adoptar un modelo de pago por uso desde el primer día
Sin subsidios. Sin “primero atraer usuarios, luego monetizar”. Solo un modelo económico honesto. Suena genial en teoría.
Pero el problema es encontrar una empresa de IA de consumo en rápido crecimiento que esté cobrando por uso. A los consumidores no les gusta pagar por uso. Prefieren pagar más por un plan ilimitado antes que recibir una factura inesperada. Cada servicio de suscripción exitosa —Netflix, Spotify, ChatGPT— tiene tarifas fijas. Una vez que agregas un contador de uso, el crecimiento se detiene.
2. Altos costos de conversión ⇒ Altos márgenes de beneficio
Esta es la dirección en la que Devin se está esforzando. Recientemente anunciaron colaboraciones con Citibank y Goldman Sachs para desplegar Devin a los 40,000 ingenieros de software de cada compañía. A 20 dólares al mes, este es un proyecto de 10 millones de dólares. Pero aquí está el problema: ¿prefieres obtener 10 millones de ARR de Goldman Sachs o 500 millones de ARR de desarrolladores profesionales?
La respuesta es obvia: un ciclo de implementación de seis meses, revisiones de cumplimiento, auditorías de seguridad, procesos de adquisición engorrosos significan que, aunque el ingreso de Goldman Sachs es difícil de ganar, una vez que se asegura, es imposible perder. Solo puedes obtener esos contratos si el único tomador de decisiones en el banco coloca su reputación en ti—y luego todos harán todo lo posible para asegurar que el proyecto tenga éxito.
Esta es la razón por la que, aparte de los proveedores de la nube de gran escala, las mayores compañías de software son aquellas que venden “sistemas de registro” (System-of-Record) a estos clientes (por ejemplo, CRM/ERP/EHRs). También pueden lograr márgenes de 80-90%, porque cuanto más difícil es perder un cliente, menos sensibilidad tienen al precio.
Cuando los competidores aparecen, ya has penetrado en los sistemas burocráticos del cliente, y cambiar de proveedor requerirá otro ciclo de ventas de seis meses. No es que no puedas marcharte, sino que tu CFO prefiere morir antes que pasar por otra evaluación de proveedores.
3. Integración vertical ⇒ Ganar dinero con la infraestructura
Este es el enfoque de Replit: empaquetar agentes de codificación con servicios de alojamiento de aplicaciones, gestión de bases de datos, monitoreo de implementaciones, registro, etc. Están perdiendo dinero en cada Token, pero capturando valor en cada otra capa de la pila tecnológica que proporcionan a la nueva generación de desarrolladores… solo hay que mirar cuán integrada verticalmente es Replit.
Utilizando la IA como producto de atracción a pérdidas para impulsar el consumo de otros servicios que pueden competir con AWS. No vendes capacidad de inferencia, vendes todo lo demás; la inferencia solo es tu gasto de marketing.
La genialidad radica en que la generación de código crea naturalmente demanda de alojamiento. Cada aplicación necesita un lugar para ejecutarse. Cada base de datos necesita ser gestionada. Cada implementación necesita ser monitoreada. Deja que OpenAI y Anthropic se enfrenten en una guerra de precios en servicios de inferencia, llevándolos a márgenes cero, mientras tú posees todo lo demás.
¿Aquellos que siguen jugando el juego de “tarifa fija y crecimiento a toda costa”? Son solo zombis. Sus costosas funerales están programadas para el cuarto trimestre.
¿Adónde vamos?
Siempre veo a los fundadores apuntando a la frase “¡el próximo año el modelo será 10 veces más barato!” como si se aferraran a un clavo ardiente. Claro, lo será. Pero las expectativas de tus usuarios sobre los modelos también se elevarán 20 veces. Ese gol, se está alejando rápidamente de ti.
¿Recuerdas Windsurf? Debido a la presión sobre su cuenta de resultados de Cursor, no pudieron encontrar una manera de salir. Incluso Anthropic, que posee la capa de aplicación más integrada verticalmente del mundo, tampoco ha logrado hacer funcionar un modelo de suscripción fijo ilimitado.
A pesar de que el resumen del artículo “Beta con apalancamiento es todo lo que necesitas” —que dice “adelantarte es mejor que ser el más inteligente” —sigue siendo correcto, avanzar sin un plan también solo significa que llegas primero a la tumba. No hay Google que emita un cheque de 2.4 mil millones para un negocio con pérdidas. No hay “ya pensaremos en ello después”, porque “después” significa que tu factura de AWS superará tus ingresos totales.
Entonces, en este mundo, ¿cómo construyes un negocio? La respuesta corta es, conviértete en una “nube nueva” (neocloud)—que también será el título de mi próximo artículo.
Pero al menos, el próximo año, el modelo será 10 veces más barato, ¿verdad?