“Un abonnement à 20 dollars par mois” est en train de tuer les entreprises d’IA. La baisse des prix des Tokens est une illusion, la vraie dépense en IA, c'est votre cupidité - Apprendre l'IA 164
Introduction
- La baisse des prix des modèles est un faux débat : ce sont les anciens modèles, non utilisés, qui deviennent moins chers ; les utilisateurs ne paient que pour le “nouveau fleuron” le plus puissant.
- Le véritable gouffre des coûts n’est pas le prix unitaire des Tokens, mais l’évolution des capacités de l’IA : plus les tâches sont complexes, plus la consommation devient incontrôlable, un modèle d’abonnement mensuel fixe ne peut qu’être “écrasé”.
- Le modèle d’abonnement pour l’IA est un “dilemme du prisonnier” : choisir de payer à l’usage, c’est perdre le marché ; choisir un prix fixe, c’est perdre l’avenir.
- Il n’y a que deux moyens pour échapper à la fatalité de “brûler de l’argent” : soit construire une “muraille” avec des coûts de conversion élevés, empêchant les clients entreprises de partir ; soit intégrer verticalement, en utilisant l’IA comme un outil d’acquisition déficitaire, pour gagner de l’argent avec l’infrastructure en arrière-plan.
Lectures complémentaires
- 【Anecdotes sur les Tokens】Pourquoi l’IA se facture à l’usage ? Une exploration
- 【Compréhension aisée】7B, 70B, 175B ? Que signifient réellement les paramètres des modèles IA ? Comment les entreprises peuvent-elles choisir la bonne solution de grand modèle ?
- les tokens deviennent plus chers
Le coût réel des Tokens est en forte augmentation
L’affirmation selon laquelle “le coût des modèles de langue va diminuer de 10 fois” ne sauvera pas les services d’abonnement IA sous pression des “coûts”
Imaginez que vous créez une entreprise et que vous savez pertinemment que les consommateurs ne veulent payer que 20 dollars par mois. Vous vous dites que ce n’est pas un problème, c’est typique de la stratégie des VC - facturer en fonction des coûts, sacrifiant le profit pour la croissance. Vous avez calculé tous les indicateurs comme le coût d’acquisition client (CAC) et la valeur à vie du client (LTV). Mais voilà la surprise : vous tombez sur ce graphique largement diffusé de a16z, montrant que le coût des grands modèles de langue (LLMs) diminue de 10 fois chaque année.
Alors vous commencez à faire des calculs : aujourd’hui, en vendant à 20 dollars par mois, vous atteignez le seuil de rentabilité ; l’année prochaine, lorsque le coût du modèle diminuera de 10 fois, votre marge bénéficiaire atteindra 90%. Les pertes sont temporaires, les bénéfices sont inévitables.
Ce raisonnement est si simple que même un assistant VC peut le comprendre :
- Première année : atteindre l’équilibre financier avec un prix de 20 dollars par mois
- Deuxième année : avec une réduction des coûts de calcul de 10 fois, la marge bénéficiaire atteindra 90%
- Troisième année : commencer à acheter des yachts
Stratégie compréhensible : ”le coût de raisonnement des grands modèles de langue diminue de 3 fois tous les 6 mois, nous sommes donc tout à fait capables.”
Mais 18 mois plus tard, la marge bénéficiaire reste à des niveaux historiquement bas… Le projet Windsurf est déjà à la dérive, et même Claude Code a dû annuler cette semaine son forfait illimité initial à 200 dollars par mois.
L’entreprise continue de saigner à blanc. Les modèles sont devenus moins chers - le coût de GPT-3.5 est maintenant 10 fois inférieur à celui d’autrefois. Mais pour une raison quelconque, la marge bénéficiaire s’est détériorée, au lieu de s’améliorer.
Il y a clairement un problème ici.
Les modèles obsolètes, c’est comme des journaux périmés
Le prix de GPT-3.5 est d’un dixième de son ancien coût. Mais tout le monde s’en fiche, comme d’un ancien téléphone à clapet lors d’une présentation d’iPhone.
Lorsqu’un nouveau modèle est publié comme la référence de l’industrie (SOTA), 99 % de la demande le suit immédiatement. Les consommateurs ont les mêmes attentes vis-à-vis des produits qu’ils utilisent.
Examinons maintenant l’historique de tarification des modèles de pointe qui, à tout moment, capturent 99 % de la demande :
Vous remarquez quelque chose ?
- Lorsque GPT-4 a été lancé à 60 dollars, même avec une réduction de 26 fois pour GPT-3.5 (le modèle phare précédent), tout le monde a choisi GPT-4.
- Lorsque Claude 3 Opus a été introduit à 60 dollars, même avec une réduction du prix de GPT-4, les gens se sont dirigés vers Claude.
La réduction de 10 fois des coûts est bien réelle, mais seulement pour ces vieux modèles dont les performances sont comparables à celles de l’ordinateur Commodore 64.
C’est le premier défaut fatal de la stratégie “les coûts vont diminuer” : la demande du marché existe uniquement pour “le modèle de langue le plus fort”, point final. Et les coûts du modèle le plus fort varient toujours de manière limitée, car cela reflète les coûts limites des technologies de raisonnement actuelles.
Dire qu’une voiture Honda Civic de 1995 est devenue moins chère, c’est complètement hors sujet. Oui, cette voiture spécifique est devenue moins chère, mais le prix suggéré d’une Toyota Camry 2025 est de 30 000 dollars.
Lorsque vous utilisez l’IA - que ce soit pour programmer, écrire ou réfléchir - vous recherchez toujours la meilleure qualité. Personne n’ouvre Claude en se disant : “Pourquoi ne pas utiliser cette version moins performante, ça fera économiser un peu d’argent à mon patron.” Nous avons une soif insatiable de cognition. Nous voulons le meilleur “cerveau” que nous puissions obtenir, surtout lorsque c’est notre précieux temps qui est en jeu.
La vitesse à laquelle les modèles consomment de l’argent est inimaginable
“D’accord, mais cela semble gérable, non ? Nous devons juste rester à l’équilibre financier, c’est tout.”
Oh, mon cher enfant naïf.
Alors que le coût unitaire des modèles de pointe n’a pas augmenté, une autre menace encore plus sérieuse s’est manifestée : le nombre de Tokens consommés explose littéralement.
Autrefois, ChatGPT répondait à une question par une phrase. Maintenant, la fonction “recherche approfondie” peut prendre 3 minutes pour planifier, 20 minutes pour lire, et 5 minutes pour réécrire un rapport pour vous, tandis qu’Opus 3 peut même prendre 20 minutes pour répondre à un simple “bonjour”.
Le développement explosif de l’apprentissage par renforcement (RL) et du calcul lors des tests (test-time compute) a conduit à un résultat inattendu : la longueur des tâches que l’IA peut accomplir double tous les six mois. Ce qui pouvait retourner 1000 Tokens auparavant, peut maintenant en retourner 100 000.
Si vous extrapolez cette tendance, les résultats mathématiques deviennent véritablement effrayants :
Aujourd’hui, un “research approfondi” de 20 minutes coûte environ 1 dollar. D’ici 2027, nous aurons des agents capables de fonctionner 24 heures sur 24 sans “dévier”… combiné avec le prix stable des modèles de pointe ? Cela signifie que le coût par exécution pourrait atteindre 72 dollars. Par jour, par utilisateur. Et nous pourrions les faire fonctionner de manière asynchrone.
Une fois que nous pourrons déployer des agents exécutant des charges de travail 24 heures sur 24, nous ne nous contenterons pas de leur donner une instruction puis d’attendre une réponse. Nous les programmerons par lots, avec toute une flotte d’ouvriers IA traitant les problèmes en parallèle, brûlant des Tokens comme si nous étions revenus à l’ère de la bulle Internet de 1999.
Évidemment - et je dois le souligner - un abonnement de 20 dollars par mois ne pourra même pas supporter un utilisateur effectuant une recherche approfondie à 1 dollar par jour. Mais c’est exactement le futur vers lequel nous nous dirigeons. Chaque amélioration des capacités des modèles signifie qu’ils pourront consommer de manière significative plus de ressources.
C’est comme si vous aviez conçu un moteur plus économe en carburant, mais que vous utilisez l’efficacité du carburant économisé pour construire un gros camion. Oui, chaque gallon d’essence vous mènera plus loin, mais vous consommez désormais 50 fois plus de carburant.
Ceci est la véritable raison qui pousse Windsurf à être “écrasé par les coûts” – ainsi que la vallée de la mort à laquelle sont confrontées toutes les startups adoptant un modèle économique de “tarification fixe + consommation intensive de Tokens”.
Tentative héroïque d’Anthropic face à la “pression sur les coûts”
L’expérience de forfait illimité de Claude Code est l’une des réponses les plus ingénieuses que nous ayons vues face à cette tempête. Ils ont utilisé tous les moyens possibles, mais ont fini par être submergés.
Leur stratégie était réellement très intelligente :
1. Tarification dix fois plus élevée
Alors que Cursor facture 20 dollars par mois, ils ont fixé leur prix à 200 dollars par mois. Cela leur a laissé une marge de manœuvre plus confortable avant de commencer à perdre de l’argent.
2. Modèle évolutif en fonction de la charge
Lors de charges de travail lourdes, passer d’Opus ($75/1 million de Tokens) à Sonnet ($15/1 million de Tokens). Utiliser Haiku pour optimiser les tâches de lecture. C’est comme le scalabilité automatique d’AWS, mais optimisé pour le “cerveau”.
Ils ont presque certainement conçu ce comportement directement dans les poids du modèle, représentant une transition de paradigme que nous pourrions voir davantage à l’avenir.
3. Décharger les tâches sur les machines des utilisateurs
Quand les utilisateurs ont des CPU inoccupés, pourquoi pas les utiliser plutôt que de démarrer un environnement sandbox ?
Cependant, malgré tous ces efforts ingénieux, la consommation de Tokens a continué d’augmenter de façon explosive.
Dix milliards. Dix milliards de Tokens. Cela équivaut à 12 500 exemplaires de “Guerre et Paix”. En l’espace d’un mois.
Comment est-ce possible ? Même si chaque exécution dure 10 minutes, comment une personne pourrait-elle consommer 10 milliards de Tokens ?
Il s’avère qu’une durée d’exécution continue de 10 à 20 minutes est juste assez longue pour que les utilisateurs découvrent l’utilisation ingénieuse des boucles “for”. Une fois que vous dissociez la consommation de Tokens du temps que les utilisateurs passent en ligne dans l’application, les lois de la physique prennent le relais. Donnez à Claude une tâche, demandez-lui de vérifier son travail, de reconstruire, d’optimiser, puis de répéter le processus jusqu’à ce que l’entreprise fasse faillite.
Les utilisateurs deviennent des maîtres de l’appel aux API, exploitant l’argent d’Anthropic pour exécuter un moteur de conversion de code 24 heures sur 24. La transformation de la conversation à celle d’agents a eu lieu du jour au lendemain. La consommation a augmenté de 1000 fois. C’est une transformation de phase, pas une simple augmentation.
Ainsi, Anthropic a annulé son forfait illimité. Ils auraient pu essayer à 2000 dollars par mois, mais la leçon n’est pas qu’ils ne chargent pas assez, c’est que, dans ce nouveau monde, aucun modèle d’abonnement ne peut offrir un usage illimité.
La clé est que : dans ce nouveau monde, il n’existe tout simplement pas de prix d’abonnement fixe viable.
Ce calcul est déjà obsolète.
Le dilemme du prisonnier de tous les autres
Cela a plongé toutes les autres entreprises dans un dilemme insoluble.
Chaque entreprise d’IA sait que la tarification à l’usage peut les sauver. Elles savent aussi que cela les tuera. Lorsque vous facturez de manière responsable 0,01 $/1k Tokens, votre concurrent financé par des VC propose des services illimités pour 20 dollars par mois.
Devinez où les utilisateurs iront ?
Un dilemme du prisonnier typique :
- Tout le monde paie à l’usage → Durabilité de l’industrie
- Tout le monde a un tarif fixe → Concurrence vers la faillite
- Vous payez à l’usage, les autres à tarif fixe → Vous mourrez seul
- Vous à tarif fixe, les autres à l’usage → Vous gagnez (et finissez par mourir plus tard)
Donc, tout le monde choisit la “trahison”. Tout le monde subventionne les utilisateurs intensifs. Tout le monde affiche des graphiques de croissance “d’enroulement de hockey”. Au final, tout le monde publie des annonces d’“importantes mises à jour tarifaires”.
Cursor, Lovable, Replit - ils comprennent tous cette équation. Ils choisissent la croissance aujourd’hui, la profitabilité demain, et la faillite finale, mais c’est un problème pour le prochain CEO.
Pour être honnête ? C’est peut-être la bonne approche. Dans une land rush, la part de marché est plus importante que la rentabilité. Tant que les VC sont encore prêts à écrire des chèques pour masquer un mauvais modèle économique à l’unité…
Demandez à Jasper ce qui se passe lorsque la musique s’arrête.
Comment éviter d’être “liquidé” ?
Pouvons-nous encore éviter cette “pression des coûts” des Tokens ?
Récemment, il a été rapporté que Cognition levait des fonds à une valorisation de 15 milliards de dollars, alors que son revenu annuel récurrent (ARR) déclaré est même inférieur à 100 millions de dollars (je parierais qu’il est plus proche de 50 millions de dollars). Cela contraste fortement avec Cursor levant des fonds à une valorisation de 10 milliards de dollars sur la base d’un ARR de 500 millions de dollars. Huit fois et plus de revenus, mais seulement deux tiers de la valorisation. Que cachent les VC sur Cognition que nous ne savons pas ? Ce sont tous des agents intelligents de codage d’IA. Cognition a-t-elle trouvé une solution pour échapper à cette spirale mortelle ? (Nous en discuterons plus en détail la prochaine fois)
Il y a trois issues possibles :
1. Adopter un modèle de tarification à l’usage dès le premier jour
Pas de subventions. Pas de “d’abord acquérir des utilisateurs, puis monétiser”. Un modèle économique honnête. Cela semble théoriquement génial.
Mais le problème est de trouver une entreprise AI grand public en pleine croissance qui facture à l’usage. Les consommateurs détestent les frais mesurés. Ils préfèrent payer plus pour un abonnement illimité que de recevoir une facture inattendue. Chaque service d’abonnement grand public qui a réussi - Netflix, Spotify, ChatGPT - a un tarif fixe. Une fois que vous introduisez un compteur, la croissance s’arrête.
2. Coûts de conversion très élevés ⇒ Marges bénéficiaires élevées
C’est la direction à laquelle Devin s’engage pleinement. Ils ont récemment annoncé un partenariat avec Citibank et Goldman Sachs pour déployer Devin chez 40 000 développeurs pour chaque entreprise. À 20 dollars par mois, c’est un projet de 10 millions de dollars. Mais la question se pose : préférez-vous obtenir 10 millions de dollars d’ARR de Goldman Sachs ou 500 millions d’ARR de développeurs professionnels ?
La réponse est évidente : les cycles de mise en œuvre de six mois, la conformité, les audits de sécurité et les processus d’achat compliqués signifient que les revenus de Goldman Sachs sont difficiles à obtenir, mais une fois que vous les avez, ils ne fuiront jamais. Vous ne pouvez obtenir ces contrats que lorsque le décideur unique de la banque mise sa réputation sur vous - et alors tout le monde fera tout pour garantir le succès du projet.
C’est aussi pourquoi, à part les fournisseurs de services cloud à très grande échelle, les plus grandes entreprises de logiciels sont celles qui vendent des “systèmes d’enregistrement” (System-of-Record) à ce type de clients (comme CRM / ERP / EHR). Ils atteignent également des marges bénéficiaires de 80-90 %, car plus il est difficile pour le client de partir, plus il est insensible aux prix.
Quand la concurrence arrive, vous êtes déjà ancré dans le système bureaucratique de l’autre partie, et changer de fournisseur nécessitera un autre cycle commercial de six mois. Ce n’est pas que vous ne pouvez pas partir, mais que votre CFO préférerait mourir plutôt que de repasser par une évaluation des fournisseurs.
3. Intégration verticale ⇒ Gagner de l’argent sur l’infrastructure
C’est le modèle de Replit : combiner des agents de codage avec des services d’hébergement d’applications, de gestion de bases de données, de surveillance de déploiement, de journalisation, etc. Perdre de l’argent sur chaque Token, mais capturer de la valeur à chaque niveau de la pile technologique qu’ils fournissent à la nouvelle génération de développeurs… voyez à quel point Replit est verticalement intégré.
Traiter l’IA comme un produit d’acquisition déficitaire, pour stimuler la consommation d’autres services qui peuvent rivaliser avec AWS. Ce que vous vendez, ce n’est pas la capacité de raisonnement, mais tout le reste, le raisonnement étant simplement votre dépense marketing.
L’ingéniosité réside dans le fait que la génération de code crée naturellement une demande pour l’hébergement. Chaque application a besoin d’un endroit où fonctionner. Chaque base de données doit être gérée. Chaque déploiement doit être surveillé. Laissez OpenAI et Anthropic se battre pour les prix sur les services de raisonnement jusqu’à ce qu’ils atteignent zéro profit, pendant que vous dominez tous les autres.
Les entreprises qui continuent à jouer au jeu de la “tarification fixe à tout prix” ? Elles sont comme des zombies. Leur funérailles coûteuses sont juste programmées pour le quatrième trimestre.
Quel avenir ?
Je vois toujours les fondateurs s’accrocher à cette affirmation “l’année prochaine, les modèles coûteront 10 fois moins cher !” comme s’ils tenaient une bouée de sauvetage. Bien sûr, cela arrivera. Mais les attentes de vos utilisateurs quant aux modèles vont également exploser de 20 fois. Ce but est en train de s’éloigner de vous à toute vitesse.
Vous vous souvenez de Windsurf ? Face à la pression sur son compte de résultats, Cursor n’a pas réussi à trouver une issue. Même avec la couche d’application la plus verticalement intégrée au monde, Anthropic ne parvient pas à faire fonctionner un modèle d’abonnement fixe illimité.
Bien que la synthèse de l’article “Le levier Beta est tout ce dont vous avez besoin” - c’est-à-dire “être en avance est plus important que d’être très intelligent” - soit toujours correcte, avancer sans plan signifie simplement que vous arrivez au cimetière avant les autres. Il n’y a pas de chèques de 2,4 milliards de dollars de Google pour des entreprises déficitaires. Il n’y a pas non plus “nous nous en occuperons plus tard”, car “plus tard” signifie que votre facture AWS dépassera vos revenus totaux.
Alors dans ce monde, comment construire une entreprise ? La réponse courte est de devenir un “new cloud” (neocloud) - ce qui sera le titre de mon prochain article.
Mais bon, l’année prochaine, les modèles coûteront 10 fois moins cher, n’est-ce pas ?