“20 dollar abonnement” doodt AI bedrijven. Token prijsdaling is een illusie, de werkelijke kosten van AI zijn jouw hebzucht — Leer langzaam AI164
Inleiding
- De prijsdaling van modellen is een valse belofte: wat er goedkoper wordt, zijn verouderde modellen die niemand gebruikt; gebruikers betalen altijd voor de krachtigste nieuwe “vlaggenschip”.
- De echte kostenval is niet de prijs per Token, maar de evolutie van AI-capaciteiten: hoe complexer de taak, hoe ongecontroleerder het verbruik, en een vast maandabonnement is gedoemd om “verpletterd” te worden.
- Het abonnementmodel voor AI is een “gevangenen dilemma”: als je kiest voor betalen per gebruik, verlies je de markt; als je kiest voor een vast maandtarief, verlies je de toekomst.
- Er zijn maar twee wegen om de fatale brandstofcrisis te ontsnappen: ofwel bouw je een “vesting” met hoge overstapkosten, zodat zakelijke klanten niet weg kunnen; ofwel ga je voor verticale integratie en zet je AI in als verliesmaker voor klantenbinding, terwijl je geld verdient met de achterliggende infrastructuur.
Verdere lectuur
- 【Token Feiten】Waarom AI-kosten worden berekend per Token? Een nadere blik
- 【Duidelijk Uitleg】7B, 70B, 175B? Wat betekenen de parameters van AI-modellen eigenlijk? Hoe kiezen bedrijven het juiste grote model?
- tokens worden steeds duurder
De werkelijke kosten van Token stijgen snel
De bewering dat “de kosten van taalmodellen met 10 keer zullen dalen” kan de AI-abonnementsdiensten die onder “kostendruk” staan, niet redden
Stel je voor, je hebt een bedrijf opgericht en je weet precies dat consumenten maximaal 20 dollar per maand willen betalen. Je denkt, geen probleem, dat is een typische VC-strategie – kostendekkend werken, het opofferen van winst voor groei. Je hebt de kosten van klantenwerving (CAC), de levenslange waarde van klanten (LTV) en alle andere metrics al berekend. Maar dan komt het interessante deel: je ziet die beroemde a16z-grafiek die laat zien dat de kosten van grote taalmodellen (LLM) jaarlijks met 10 keer dalen.
Dus, je berekent: vandaag kan ik met 20 dollar per maand de kosten dekken, en volgend jaar daalt de kosten van het model met 10 keer, wat de winstmarge op 90% zou brengt. Verliezen zijn slechts tijdelijk en winst is onvermijdelijk.
Die logica is zo eenvoudig dat zelfs een VC-assistent het kan begrijpen:
- Eerste jaar: break-even tegen 20 dollar per maand
- Tweede jaar: met de kosten van verwerking die met 10 keer dalen, winstmarge van 90%
- Derde jaar: tijd om een yacht te kopen
Deze strategie lijkt logisch: “De kosten van grote taalmodelinvoer dalen elke 6 maanden met 3 keer, dat moeten we wel maken.”
Maar 18 maanden later is de winstmarge nog steeds ongekend negatief… Het Windsurf-project is al gebroken en zelfs Claude Code heeft deze week zijn initiële 200 dollar per maand onbeperkt gebruiksaanbod moeten intrekken.
Het bedrijf blijft bloed verliezen. De modellen zijn inderdaad goedkoper geworden – de kosten voor GPT-3.5 zijn met 10 keer gedaald. Maar om de een of andere reden zijn de winstmarges zelfs slechter geworden in plaats van beter.
Hier klopt iets niet.
Verouderde modellen, net als oude kranten
De prijs van GPT-3.5 is een tiende van wat deze ooit was. Maar het is net als de flip-telefoons op een iPhone-lancering, niemand wil het hebben.
Wanneer een nieuw model als top van de industrie (SOTA) wordt gepresenteerd, verschuift 99% van de vraag onmiddellijk naar dit nieuwe model. Consumenten verwachten hetzelfde van de producten die ze gebruiken.
Laten we eens kijken naar de werkelijke prijsgeschiedenis van de topmodellen die altijd 99% van de vraag vertegenwoordigen:
Heb je iets opgemerkt?
- Toen GPT-4 werd gelanceerd voor 60 dollar, ondanks dat GPT-3.5 (het vorige topmodel) met 26 keer goedkoper was, koos iedereen nog steeds voor GPT-4.
- Toen Claude 3 Opus voor 60 dollar werd gelanceerd, ondanks dat GPT-4 al was afgeprijsd, switchten mensen weer naar Claude.
De kosten zijn met 10 keer gedaald, maar alleen voor de oude modellen die qua prestatie vergeleken moeten worden met een vintage computer, de Commodore 64.
Dus, hier is het eerste fatale probleem van de “de kosten zullen dalen” strategie: de marktvraag bestaat alleen voor “het sterkste taalmodel”, dat is het. En de kosten van het sterkste model blijven altijd ongeveer hetzelfde, omdat het de grenskosten van de huidige redeneertechnologie weerspiegelt.
Een veronderstelling dat een Honda Civic uit 1995 nu veel goedkoper is, is niet relevant. Inderdaad, die specifieke auto is goedkoper, maar de MSRP voor de 2025 Toyota Camry is 30.000 dollar.
Wanneer je AI gebruikt – of het nu voor programmeren, schrijven of denken is – streef je altijd de hoogste kwaliteit na. Niemand zal Claude openen en denken: “Laat ik maar de mindere versie gebruiken, zodat we wat geld besparen voor de baas.” We zijn evolutionair ingesteld om hebzucht te zijn in ons denken. We willen dat we de beste “brain” kunnen krijgen, vooral als we kostbare tijd aan de andere kant hebben.
Het geldverbruik van modellen is onvoorstelbaar
“Nou, dat klinkt niet zo erg, toch? We hoeven gewoon het hele tijd break-even te blijven, toch?”
Oh, mijn lieve naïeve kind.
Hoewel de kosten per Token van elke nieuwe generatie topmodellen niet zijn gestegen, is er iets veel ergers gebeurd: de hoeveelheid Tokens die ze verbruiken, is exponentieel toegenomen.
Vroeger gaf ChatGPT een enkel zinnige antwoord op een enkele zin vragen. Nu kost de functie “diep onderzoek” drie minuten om te plannen, twintig minuten om te lezen en vijf minuten om een rapport voor je te herformuleren, en Opus 3 kan zelfs twintig minuten bezig zijn met het reageren op een “Hallo”.
De explosieve groei van versterkend leren (RL) en rekenkracht bij testtijd (test-time compute) resulteerde in een onvoorziene uitkomst: de lengte van de taken die AI kan voltooien, verdubbelt elke zes maanden. Waar je eerst 1000 Tokens terugkreeg, kan dit nu 100.000 zijn.
Als je deze trend extrapoleert, worden de rekenkundige resultaten al snel krankzinnig:
Vandaag kost een enkele “diepe onderzoek” sessie van 20 minuten ongeveer 1 dollar. Tegen 2027 zullen we agenten hebben die 24 uur kunnen draaien zonder “af te dwalen”… vervolgens, in combinatie met de stabiele prijzen van topmodellen? Dit betekent dat de kosten per run $72 kunnen bedragen. Dagelijks, per gebruiker. En ze kunnen meerdere runs asynchroon laten draaien.
Zodra we in staat zijn om agenten asynchroon 24 uur per dag te laten draaien, geven we ze niet meer slechts één instructie en wachten op feedback. We zullen ze in batches plannen. Een heel vloot van AI-werknemers, die parallel werkproblemen behandelt, waarbij Tokens verbruikt worden alsof we in de internetzeepbel van 1999 zitten.
Evident — ik moet dit benadrukken — een maandabonnement van 20 dollar kan zelfs niet de dagelijkse “diepe onderzoek” van 1 dollar voor één enkele gebruiker ondersteunen. Maar dat is precies de toekomst waar we naartoe bewegen. Elke keer dat de capaciteiten van het model toenemen, betekent dat ze ook meer rekenkracht verbruiken.
Het is alsof je een zuiniger motor bouwt en vervolgens de bespaarde brandstofefficiëntie gebruikt om een enorme vrachtwagen te bouwen. Inderdaad, je kunt verder komen per gallon brandstof, maar de totale hoeveelheid brandstof die je verbruikt is dan 50 keer meer.
Dit is de fundamentele reden waarom Windsurf door “kostenpers” is verpletterd – en ook de situatie waarmee elke startup met een “vast abonnement + hoge intensieve Token-consumptie” businessmodel wordt geconfronteerd.
De dappere poging van Anthropic om “kostenpers” te beheersen
Het experimentele onbeperkte abonnement van Claude Code is de slimste strategie die we tot nu toe hebben gezien om deze storm het hoofd te bieden. Ze hebben alles uit de kast gehaald, maar zijn uiteindelijk toch verpletterd.
Hun strategie heeft hen heel slim gemaakt:
1. Prijzen 10 keer hoger
Terwijl Cursor 20 dollar per maand rekende, vroegen zij 200 dollar per maand. Voordat de verliezen begonnen, creëerden ze meer ruimte voor een buffer.
2. Automatische opschaling van modellen op basis van belasting
Wanneer de vraag toenam, schakelden ze over van Opus ($75 per miljoen Tokens) naar Sonnet ($15 per miljoen Tokens). Gebruik Haiku om leesopdrachten te optimaliseren. Dit is als AWS automatische opschaling, maar dan voor de “hersenen”.
Ze hebben dit gedrag vrijwel zeker rechtstreeks in de gewicht van het model ingebouwd, wat een paradigmawisseling is die we in de toekomst waarschijnlijk vaker zullen zien.
3. Ontlasten van verwerkingsopdrachten naar de machines van gebruikers
Waarom zelf een sandbox draaien als de gebruiker een vrij beschikbare CPU heeft?
Toch, ondanks al deze ingenieurstrucs, blijft de consumptie van Tokens exploderend.
Tien miljard. Honderd miljard Tokens. Dat zijn gelijk aan 12.500 exemplaren van “Oorlog en Vrede”. In één maand.
Hoe doe je dat? Hoe kan iemand 10 miljard Tokens verbruiken, zelfs als elke run 10 minuten duurt?
Blijkt dat 10-20 minuten continue runtijd net genoeg is om mensen de wonderen van de “for loop” te laten ontdekken. Zodra je het tokenverbruik ontkoppelt van de online tijd van de gebruiker in de app, nemen de fysieke wetten het doel over. Geef Claude een taak, laat hem zijn werk controleren, herschrijven, optimaliseren, en herhaal dat proces totdat het bedrijf failliet gaat.
Gebruikers worden de API-werkprogramma-meesters die Anthropic’s geld gebruiken om een 24/7 code-conversiemachine draaiende te houden. De transformatie van chat naar agent gebeurde in één nacht. Het verbruik steeg met 1000 keer. Dit is een faseverandering, niet een geleidelijke verandering.
Daarom heeft Anthropic het onbeperkte abonnement opgeheven. Ze hadden 2000 dollar per maand kunnen proberen te vragen, maar de les is niet dat ze niet hoog genoeg rekenden, maar dat er in deze nieuwe wereld helemaal geen werkbare vaste abonnementsprijs bestaat.
De kern is: in deze nieuwe wereld is er geen levensvatbare vaste abonnementsprijs.
De kosten kunnen in wezen niet meer worden gedekt.
De gevangenen dilemma van andere bedrijven
Dit heeft alle andere bedrijven in een onoplosbaar dilemma gebracht.
Elke AI-onderneming weet dat betalen per gebruik hen kan redden. Ze weten ook dat dit hen zal doden. Wanneer je verantwoord $0,01 per 1K Tokens rekent, biedt jouw met VC-geld gesteunde concurrent onbeperkte diensten aan voor 20 dollar per maand.
Raad eens waar gebruikers heen gaan?
Een klassiek gevangenen dilemma:
- Iedereen betaalt per gebruik → De sector blijft levensvatbaar
- Iedereen heeft een vaste prijs → Racen naar faillissement
- Jij betaalt per gebruik, terwijl anderen een vaste prijs hebben → Jij gaat failliet
- Jij hebt een vaste prijs, anderen betalen per gebruik → Jij wint (en gaat later failliet)
Dus kiezen ze allemaal voor “verraad”. Iedereen subsidieert de intensieve gebruikers. Iedereen toont “hockeysticks” groeicurves. Uiteindelijk heeft iedereen een “belangrijke prijs-update” aangekondigd.
Cursor, Lovable, Replit – zij snappen het. Ze kiezen vandaag voor groei, morgen voor winst en uiteindelijk voor faillissement, maar dat is het probleem van de volgende CEO.
Serieus? Misschien is dat waar. In een landgrab is marktaandeel belangrijker dan winstmarge. Zolang de VC’s bereid zijn om cheques te blijven schrijven om de slechte economische modellen te maskeren…
Vraag Jasper maar wat er gebeurt als de muziek stopt.
Hoe het “gedwongen liquidatie” te voorkomen?
Is het nog mogelijk om deze “kostenpers” van Tokens te vermijden?
Recentelijk is er gerucht dat Cognition wordt gefinancierd met een waardering van 15 miljard dollar, terwijl de jaarlijkse terugkerende inkomsten (ARR) nog geen 100 miljoen dollar bedragen (ik denk dat het dichter bij 50 miljoen dollar ligt). Dit staat in schril contrast met Cursor, die 100 miljard dollar funding aanvroeg op basis van een ARR van 500 miljoen dollar. Hun inkomsten zijn meer dan acht keer hoger, maar hun waardering is slechts tweederde. Wat weten VC’s over Cognition dat wij niet weten? Het zijn allemaal AI-agenten die code schrijven. Heeft Cognition de manier gevonden om deze vicieuze cirkel te doorbreken? (De volgende keer zal ik hier dieper op ingaan)
Er zijn drie wegen:
1. Betalen per gebruik vanaf dag één
Geen subsidies. Geen “eerst gebruikers binnenhalen, dan monétiserén”. Alleen een eerlijk economisch model. Dit klinkt geweldig in theorie.
Maar de vraag is, kun je me een consumentgerichte AI-onderneming laten zien die explosief groeit en betaalt per gebruik? Consumenten haten het om alleen op gebruik te betalen. Ze geven liever een hoger bedrag voor onbeperkte abonnementen dan een onverwachte rekening te krijgen. Elke succesvolle consumenten-abonnementsdienst – Netflix, Spotify, ChatGPT - is op basis van een vaste prijs. Zodra je met een meter komt, is groei dood.
2. Hoge overstapkosten ⇒ Hoge winstmarges
Hier richt Devin zich op. Ze hebben recentelijk een samenwerking aangekondigd met Citibank en Goldman Sachs om Devin bij elk van de 40.000 software-engineers van beide bedrijven te implementeren. Tegen 20 dollar per maand is dit een project van 10 miljoen dollar. Maar de vraag rijst: verkies je 10 miljoen dollar ARR van Goldman Sachs of 500 miljoen dollar ARR van professionele ontwikkelaars?
Het antwoord is duidelijk: de zes maanden implementatietijd, compliance onderzoeken, veiligheidsaudits, en ingewikkelde inkoopprocessen betekenen dat de inkomsten van Goldman Sachs moeilijk te verkrijgen zijn, maar als je ze hebt, zullen ze nooit verloren gaan. Je krijgt alleen deze contracten als de enige besluitvormer van de bank zijn reputatie op jou inzet – en dan zal iedereen alles doen om het project succesvol te maken.
Dit verklaart waarom, behalve de grootste cloudproviders, de grootste softwarebedrijven diegene zijn die “record systems” (zoals CRM / ERP / EHRs) aan dit soort klanten verkopen. Ze bereiken ook 80-90% winstmarges omdat hoe moeilijker het is voor klanten te vertrekken, hoe minder ze zich bezig houden met prijs.
Wanneer concurrenten komen, ben je al diep in bureaucratische stelsels van de ander gedrongen en het wisselen van leverancier kost weer een zes maanden verkoopcyclus. Niet dat je niet weg kunt, maar je CFO wil liever sterven dan nog een leveranciersbeoordeling te ondergaan.
3. Verticale integratie ⇒ Geld verdienen op infrastructuur
Dat is de strategie van Replit: het combineren van programmatische intelligentie met applicatie-hosting, databasebeheer, deployment monitoring, logbeheer en meer. Verlies maken per Token, maar waarde genereren op elk ander aspect van de tech stack die nieuwe generatie ontwikkelaars bieden… kijk maar hoe diep Replit in verticale integratie gaat.
Behandel AI als een verliesmaker voor klantenbinding, ontwerpen diensten die concurreren met AWS. Je verkoopt geen redeneercapaciteit, je verkoopt alles wat er verder nodig is, waarbij redeneercapaciteit alleen je marketingkosten zijn.
Het slimme hiervan is dat codegeneratie automatisch de vraag naar hosting creëert. Elke applicatie heeft een plek nodig om te draaien. Elke database heeft beheer nodig. Elke deployment moet in de gaten worden gehouden. Laat OpenAI en Anthropic met elkaar strijden op prijzen voor redeneerdiensten tot nul winst, terwijl jij alles andere in handen hebt.
Diegenen die nog steeds het spel van “vaste prijzen, groei koste wat het kost” spelen? Ze zijn de levende doden. Hun dure begrafenissen zijn gewoon in het vierde kwartaal gepland.
De weg vooruit
Ik zie altijd oprichters die wijzen op “volgend jaar wordt het model 10 keer goedkoper!” als een laatste redmiddel. Natuurlijk zal het dat zijn. Maar de verwachtingen van jouw gebruikers voor modellen zullen ook 20 keer hoger worden. Dat doel wordt steeds verder weg.
Weet je nog Windsurf? Vanwege de druk op de winst- en verliesrekening konden ze geen uitweg vinden. Zelfs Anthropic, met de meest verticaal geïntegreerde applicatielaag ter wereld, kon geen onbeperkt gebruik van een vast abonnementse model draaiende houden.
Hoewel de conclusie van “Leverage Beta is alles wat je nodig hebt” – “Vóór zijn tijd zijn is belangrijker dan alleen slim zijn” – nog steeds correct is, plannenloze vooruitgang betekent slechts dat je eerder dan anderen in het graf ligt. Hier is geen Google die een cheque van 2,4 miljard dollar betaalt voor een verlieslatend bedrijf. Er zijn ook geen “we denken er later wel over na”, want “later” betekent dat je AWS-rekening hoger is dan je totale inkomsten.
Dus hoe bouw je een bedrijf in deze wereld? Het korte antwoord is, word een “nieuwe cloud”—dit is ook de titel van mijn volgende artikel.
Maar hé, volgend jaar worden de modellen zeker 10 keer goedkoper, toch?