“Um plano de assinatura de 20 dólares” está destruindo empresas de IA. A queda de preço dos tokens é uma ilusão; o que realmente custa caro na IA é a sua ganância — Aprendendo IA lentamente 164
Introdução
- A queda de preços dos modelos é um mito: o que realmente está em queda são modelos antigos sem uso, e os usuários sempre vão pagar apenas pelos “novos modelos topo de linha”.
- O verdadeiro buraco negro de custos não é o preço unitário dos tokens, mas sim a evolução das capacidades da IA: à medida que as tarefas se tornam mais complexas, o consumo se torna incontrolável, e o modelo de taxa mensal fixa está fadado a ser “soterrado”.
- O modelo de assinatura de IA é um “dilema do prisioneiro”: se você optar por pagar conforme o uso, perderá o mercado; se escolher uma taxa fixa mensal, perderá o futuro.
- As únicas duas saídas para escapar do destino de “queimar dinheiro” são: construir um “fosso” com altos custos de troca, fazendo com que os clientes corporativos não consigam sair; ou fazer uma integração vertical, tratando a IA como uma ferramenta de atração à qual se perde dinheiro, ganhando na infraestrutura de backend.
Leitura Adicional
- 【Curiosidade sobre Tokens】Por que a cobrança de IA precisa ser feita por Token? Vamos investigar
- 【Fácil de entender】7B, 70B, 175B? O que os parâmetros dos modelos de IA realmente significam? Como as empresas escolhem a melhor solução de grandes modelos?
- tokens estão se tornando mais caros
O custo real dos Tokens está disparando
A conversa de que “os custos do modelo de linguagem vão cair 10 vezes” não vai salvar os serviços de assinatura de IA sob “pressão de custos”
Imagine que você fundou uma empresa e sabe que os consumidores só estão dispostos a pagar até 20 dólares por mês. Você pensa: tudo bem, isso é típico na abordagem dos VCs — cobrar pelo custo, sacrificando lucro para ganhar crescimento. Você já calculou todos os indicadores, como Custo de Aquisição de Clientes (CAC) e Valor Vitalício do Cliente (LTV). Mas o interessante é que você viu aquele gráfico popular da a16z, mostrando que o custo dos grandes modelos de linguagem (LLM) caiu 10 vezes a cada ano.
Então você calcula: hoje, ao cobrar 20 dólares por mês, chegarei ao ponto de equilíbrio, e no ano que vem, com a redução do custo do modelo, minha margem de lucro poderá disparar para 90%. As perdas são temporárias; o lucro é inevitável.
Esse raciocínio é tão simples que até um assistente de VC conseguiria entender:
- Primeiro ano: equilibrar receitas e despesas com 20 dólares por mês
- Segundo ano: conforme os custos de computação caem 10 vezes, margens de lucro chegam a 90%
- Terceiro ano: início da compra de iates
Essa estratégia faz sentido: “Os custos de inferência dos grandes modelos de linguagem caem 3 vezes a cada 6 meses, com certeza conseguiremos.”
Mas 18 meses se passaram e a margem de lucro ainda é uma cifra negativa sem precedentes… O projeto Windsurf já está desmoronando, e até mesmo o Claude Code teve que cancelar seu pacote de uso ilimitado de 200 dólares por mês.
A empresa continua perdendo dinheiro. O modelo realmente se tornou mais barato — os custos do GPT-3.5 caíram 10 vezes em relação ao passado. Mas, por alguma razão, a margem de lucro piorou, em vez de melhorar.
Há algo errado aqui.
Modelos obsoletos, como jornais de ontem
O preço do GPT-3.5 é um décimo do que era antes. Mas, assim como os celulares flip no lançamento do iPhone, ninguém se importa mais.
Quando um novo modelo é lançado como o mais avançado da indústria (SOTA), 99% da demanda se transfere imediatamente para ele. Os consumidores também têm essa exigência em relação aos produtos que utilizam.
Vamos examinar a história de preços dos modelos de ponta que, em qualquer período específico, dominavam 99% da demanda:
Você notou algo?
- Quando o GPT-4 foi lançado a 60 dólares, apesar de o GPT-3.5 (o modelo anterior topo) ter reduzido seu preço em 26 vezes, todos escolheram o GPT-4.
- Quando o Claude 3 Opus foi lançado por 60 dólares, mesmo com o GPT-4 já reduzido, as pessoas ainda mudaram para o Claude.
A redução de custos em 10 vezes é real, mas aplica-se apenas a modelos antigos que são tão obsoletos quanto computadores Commodore 64.
Portanto, esse é o primeiro defeito fatal da estratégia “os custos cairão”: a demanda do mercado existe apenas pelo “modelo de linguagem mais poderoso”, ponto final. E o custo do modelo mais poderoso é sempre aproximadamente o mesmo, pois reflete os custos máximos da tecnologia de inferência atual.
Dizer que um Honda Civic de 1995 agora é mais barato é completamente absurdo. Ok, aquele carro específico ficou mais barato, mas o preço sugerido de um Toyota Camry 2025 é de 30 mil dólares.
Quando você usa IA — seja para programar, escrever ou pensar — você busca sempre a melhor qualidade. Ninguém abriria o Claude e pensaria: “Por que não usar essa versão inferior, para economizar um pouco de dinheiro para o chefe?” Temos uma natureza ansiosa por excelência cognitiva. Queremos ter o melhor “cérebro” que podemos acessar, especialmente quando está em jogo o nosso tempo precioso.
A velocidade com que os modelos queimam dinheiro é além da sua imaginação
“Ok, mas isso ainda parece viável, certo? Desde que consigamos manter o equilíbrio, está tudo bem.”
Oh, meu querido e ingênuo amigo.
Embora o custo por token de cada nova geração de modelos de ponta não tenha aumentado, algo muito pior aconteceu: a quantidade de tokens que eles consomem cresceu de forma explosiva.
Antigamente, o ChatGPT respondia a uma única pergunta com uma única frase. Agora, a função de “pesquisa profunda” toma 3 minutos de planejamento, 20 minutos de leitura e mais 5 minutos para reescrever um relatório, e o Opus 3 chega a levar 20 minutos só para responder a um “olá”.
O avanço do aprendizado por reforço (RL) e do cálculo em tempo de teste (test-time compute) resultou em uma consequência inesperada: a complexidade dos tarefas que a IA pode realizar dobra a cada seis meses. Tarefas que antes retornavam 1000 tokens agora podem retornar 100 mil.
Quando você extrapola essa tendência, os cálculos matemáticos começam a se tornar insanos:
Hoje, uma sessão de “pesquisa profunda” de 20 minutos custa cerca de 1 dólar. Até 2027, teremos agentes que podem operar por 24 horas sem “desvios”… E, combinados com os custos estáveis dos modelos de ponta? Isso significa que o custo da execução pode chegar a 72 dólares. Por dia, para cada usuário. E múltiplos podem ser executados de forma assíncrona.
Uma vez que conseguimos implantar agentes rodando em tarefas de cargas de trabalho 24 horas de forma assíncrona, não ficamos apenas dando um comando e esperando o feedback. Vamos programá-los em lotes. Toda a frota de trabalhadores de IA, lidando com problemas em paralelo, queimando tokens como se fosse o estouro da bolha da internet de 1999.
É evidente — devo enfatizar — que uma assinatura mensal de 20 dólares mal consegue suportar um único usuário realizando uma pesquisa profunda de 1 dólar por dia. Mas é exatamente esse futuro ao qual nos dirigimos. Cada avanço nas capacidades do modelo implica que eles podem consumir de forma significativa mais recursos computacionais.
É como se você construísse um motor mais econômico e usasse a eficiência do combustível economizado para construir um caminhão gigante. Certamente, agora cada galão percorre mais, mas o total de combustível consumido disparou 50 vezes.
Essa é a razão fundamental pela qual o Windsurf foi “soterrado pela pressão de custos” — e também a crise enfrentada por qualquer startup que adota o modelo de negócios de “assinatura de taxa fixa + alto consumo de tokens”.
A tentativa corajosa da Anthropic para se proteger da “pressão de custos”
O experimento do pacote ilimitado do Claude Code foi a tentativa mais engenhosa que vimos para lidar com essa tempestade. Eles usaram todos os truques que tinham, mas acabaram sendo derrotados.
A estratégia deles foi realmente muito inteligente:
1. Preço 10 vezes mais alto
Enquanto o Cursor cobrava 20 dólares por mês, eles estabeleciam o preço de 200 dólares mensais. Antes de começar a sangrar dinheiro, garantiram um espaço maior de manobra.
2. Escala automaticamente os modelos conforme a carga
Quando as tarefas se tornam pesadas, eles mudam de Opus (75 dólares/ milhão de tokens) para Sonnet (15 dólares/ milhão de tokens). Usam Haiku para otimizar as tarefas de leitura. É como a escalabilidade automática da AWS, mas direcionada para “cerebros”.
Eles quase certamente construíram esse comportamento diretamente no modelo, um paradigma que poderemos ver mais no futuro.
3. Descarregar as tarefas para as máquinas dos usuários
Quando um usuário tem CPUs ociosas à disposição, por que ainda ativar uma sandbox própria?
No entanto, apesar de toda a criatividade na engenharia, o consumo de tokens ainda cresceu de uma forma descontrolada.
Cem bilhões. Cem bilhões de tokens. Isso equivale a 12.500 cópias de “Guerra e Paz”. Em um mês.
Como isso é possível? Mesmo que cada execução tenha 10 minutos, como uma pessoa consegue consumir 100 bilhões de tokens?
Acontece que um tempo de execução contínuo de 10-20 minutos é o suficiente para que as pessoas descubram as maravilhas do “for loop”. Assim que você desacopla o consumo de tokens do tempo que o usuário passa online no aplicativo, as leis físicas começam a dominar. Dê uma tarefa ao Claude, peça para ele verificar seu trabalho, reestruturar, otimizar, e repetir o processo até a falência da empresa.
O usuário se transforma no mestre da programação da API, utilizando o dinheiro da Anthropic para operar um motor de conversão de código 24/7. A evolução de chat para agente aconteceu da noite para o dia. O consumo disparou 1000 vezes. Isso não é um crescimento contínuo, mas uma mudança de fase.
Portanto, a Anthropic cancelou o plano ilimitado. Eles poderiam ter tentado um preço de 2000 dólares por mês, mas a lição não é que não cobraram o suficiente, e sim que, neste novo mundo, qualquer modelo de assinatura não pode oferecer uso ilimitado.
A chave é: neste novo mundo, não existe um preço fixo viável para assinatura.
Esse cálculo já não dá mais.
O dilema do prisioneiro de todas as outras empresas
Isso deixou todas as outras empresas em um dilema insuperável.
Cada empresa de IA sabe que pagar conforme o uso pode salvá-las. Elas também sabem que isso pode matá-las. Quando você cobra de forma responsável 0,01 dólares a cada 1 mil tokens, sua concorrente, que recebeu investimento de VC, está oferecendo serviços ilimitados por 20 dólares por mês.
Adivinha para onde os usuários vão?
Um dilema típico do prisioneiro:
- Todos pagam conforme o uso → Sustentabilidade da indústria
- Todos têm preço fixo → Caminho certo para a falência
- Você paga conforme o uso, enquanto outros têm preço fixo → Você morre sozinho
- Você tem preço fixo, enquanto outros pagam conforme o uso → Você vence (e depois morre)
Assim, todos optam pela “traição”. Todos subsidiam os usuários de alto consumo. Todos mostram gráficos de crescimento em “forma de taco de hóquei”. No fim, todos publicam comunicados de “atualização de preços importantes”.
Cursor, Lovable, Replit — eles entendem essa matemática. Eles escolhem o crescimento de hoje, o lucro de amanhã e, por fim, a falência, mas isso será um problema para o próximo CEO.
Pra ser sincero? Talvez isso seja o certo. Em uma corrida por espaço, a participação de mercado é mais importante que a margem de lucro. Desde que os VCs ainda queiram continuar passando cheques para encobrir modelos econômicos ruins…
Pergunte a Jasper o que acontece quando a música parar.
Como evitar ser “forçado a liquidar”?
Ainda há como evitar essa “pressão de custos” dos tokens?
Recentemente, houve rumores de que a Cognition estava levantando fundos com uma avaliação de 15 bilhões de dólares, enquanto sua receita anual recorrente (ARR) divulgada é de menos de 100 milhões de dólares (acho que está mais próxima de 50 milhões de dólares). Isso contrasta fortemente com o Cursor, que levantou 10 bilhões de dólares com uma ARR de 500 milhões de dólares. Sua receita é mais de oito vezes superior, mas a avaliação é apenas dois terços. O que os VCs sabem sobre a Cognition que nós não sabemos? Todos eles são agentes de IA que codificam. Será que a Cognition encontrou uma maneira de escapar desse ciclo da morte? (Vou explorar isso mais detalhadamente na próxima vez)
Há três saídas:
1. Adotar um modelo de pagamento conforme o uso desde o primeiro dia
Sem subsídios. Sem “primeiro adquira usuários, depois monetize”. Apenas um modelo econômico honesto. Soa ótimo em teoria.
Mas o problema é: encontre uma empresa de IA de consumo em crescimento explosivo que siga um modelo de pagamento conforme o uso. Os consumidores odeiam taxas variáveis. Eles preferem pagar mais por um plano ilimitado do que receber uma conta inesperada. Todo serviço de assinatura de sucesso — Netflix, Spotify, ChatGPT — baseia-se em taxas fixas. Assim que você introduce uma medição, o crescimento morre.
2. Altos custos de troca ⇒ Alta margem de lucro
Esse é o caminho que a Devin está seguindo. Recentemente, eles anunciaram parcerias com Citi e Goldman Sachs para implantar Devin para suas 40 mil engenheiros de software cada. Com um projeto de 20 dólares por mês, isso representa 10 milhões de dólares. Mas a questão é: você prefere obter 10 milhões de dólares de ARR da Goldman Sachs ou 500 milhões de dólares de ARR de desenvolvedores profissionais?
A resposta é evidente: um ciclo de implementação de seis meses, revisões de conformidade, auditorias de segurança e complicados processos de compra significam que, embora a receita da Goldman seja difícil de conquistar, uma vez conquistada ela nunca será perdida. Apenas com a confiança do único decisor da agência bancária em sua reputação é que você consegue esses contratos — e então, todos farão o possível para garantir que o projeto seja um sucesso.
É por isso que, além dos gigantes provedores de nuvem, as maiores empresas de software são aquelas que vendem “sistemas de registro” (System-of-Record) para clientes desse tipo (como CRM / ERP / EHRs). Elas também podem alcançar margens de lucro de 80-90%, porque quanto mais difícil for para o cliente sair, menos sensível ele será ao preço.
Quando os concorrentes chegarem, você já estará profundamente inserido no sistema burocrático deles, e mudar de fornecedor exigirá outro ciclo de vendas de seis meses. Não é que você não possa sair, mas seu CFO prefere morrer a passar por mais um processo de avaliação de fornecedores.
3. Integração vertical ⇒ Lucros na infraestrutura
Essa é a abordagem da Replit: amarrar agentes de programação com serviços de hospedagem de aplicativos, gerenciamento de banco de dados, monitoramento de implantação, registro, etc. Perdem dinheiro em cada token, mas capturam valor em todos os outros aspectos da pilha tecnológica que fornecem para a nova geração de desenvolvedores… basta olhar o nível de integração vertical da Replit.
Trate a IA como um produto de atração que gera perdas, para impulsionar o consumo de serviços que podem competir com a AWS. O que você vende não é a capacidade de inferência, mas tudo o mais; a inferência é apenas um custo de marketing.
A genialidade aqui é que a geração de código cria uma demanda natural de hospedagem. Cada aplicativo precisa de um local para rodar. Cada banco de dados precisa de gerenciamento. Cada implantaçã requer monitoramento. Deixe que a OpenAI e a Anthropic disputem preços nos serviços de inferência, levando os preços a zero lucro, enquanto você detém tudo o mais.
As empresas que ainda jogam o jogo da “taxa fixa, crescimento a todo custo”? Elas estão se arrastando. Apenas suas funerais caras foram agendadas para o quarto trimestre.
O caminho adiante
Eu sempre vejo fundadores apontando para “no próximo ano, os modelos estarão 10 vezes mais baratos!” como se agarrassem um salva-vidas. É claro que isso vai acontecer. Mas as expectativas dos seus usuários também vão aumentar 20 vezes. O gol, está se afastando rapidamente de você.
Lembra do Windsurf? Devido à pressão nas suas finanças, o Cursor não conseguiu encontrar uma saída. Mesmo tendo a camada de aplicação mais verticalmente integrada do mundo, a Anthropic não conseguiu fazer um modelo de assinatura ilimitada funcionar.
Embora a conclusão do artigo “Alavancar o Beta é tudo o que você precisa” — que afirma “um passo à frente supera a inteligência suprema” — ainda esteja correta, não ter um plano no avanço também significa que você chegará ao cemitério antes dos outros. Não há Google disposto a emitir um cheque de 2,4 bilhões de dólares para um negócio que está no vermelho. Não há “vamos resolver isso depois”, porque “depois” significa que sua fatura da AWS superará sua receita total.
Então, como você construiria uma empresa nesse mundo? A resposta curta é: torne-se uma “nova nuvem” — que também é o título do meu próximo artigo.
Mas, pelo menos, o modelo do próximo ano será 10 vezes mais barato, certo?