Il piano di abbonamento da 20 dollari sta uccidendo le aziende di IA. Il calo del prezzo dei Token è un'illusione; il vero costo dell'IA è la tua avidità - Imparare lentamente l'IA164
Introduzione
- La riduzione dei prezzi dei modelli è un falso problema: ciò che diminuisce è il costo di modelli obsoleti che nessuno usa, gli utenti pagheranno sempre per il miglior “nuovo flagship”.
- Il vero buco nero dei costi non è il prezzo unitario dei Token, ma l’evoluzione delle capacità dell’IA: più complesse sono le attività, più il consumo sfugge al controllo e il modello di abbonamento fisso è destinato a “essere schiacciato”.
- Il modello di abbonamento all’IA è un “dilemma del prigioniero”: se scegli di pagare a consumo, perderai il mercato; se scegli il prezzo fisso, perderai il futuro.
- Ci sono solo due vie per sfuggire al destino del “bruciare soldi”: o costruire una “mura” ad alto costo di transazione, rendendo difficile per i clienti aziendali allontanarsi; oppure effettuare un’integrazione verticale, trattando l’IA come uno strumento di attrazione in perdita, guadagnando sulle infrastrutture sul retro.
Letture correlate
- 【Curiosità sui Token】Perché le tariffe dell’IA si basano sui Token? Facciamo chiarezza
- 【Facile da capire】7B, 70B, 175B? Cosa significano realmente i parametri del modello IA? Come scegliere il giusto modello di grandi dimensioni per le aziende?
- I token stanno diventando più costosi
Il costo reale dei Token sta salendo
Le chiacchiere sui “costi dei modelli di linguaggio che scenderanno di 10 volte” non salveranno i servizi di abbonamento all’IA schiacciati dai costi
Immagina di aver avviato una società e di sapere perfettamente che i consumatori sono disposti a pagare al massimo 20 dollari al mese. Ti dici, nessun problema, è un approccio tipico da VC: addebitarci i costi, sacrificare i profitti per la crescita. Hai già calcolato il costo di acquisizione cliente (CAC), il valore a vita del cliente (LTV) e tutti gli altri indicatori. Ma arriva il colpo di scena: vedi quel famoso grafico di a16z che mostra come i costi dei modelli di linguaggio di grandi dimensioni (LLM) diminuiscono di 10 volte ogni anno.
Inizi quindi a pensare: oggi riesco a pareggiare bilancio con 20 dollari al mese, l’anno prossimo il costo del modello scenderà di 10 volte e il mio margine di profitto salirà al 90%. Le perdite sono temporanee, i profitti inevitabili.
Questo ragionamento è così semplice che anche un assistente di VC potrebbe capirlo:
- Primo anno: raggiungere il pareggio con 20 dollari al mese
- Secondo anno: con costi di calcolo ridotti di 10 volte, margine di profitto del 90%
- Terzo anno: inizia a comprare yacht
Questo approccio sembra comprensibile: “Il costo di inferenza dei modelli di linguaggio di grandi dimensioni scende di 3 volte ogni 6 mesi, ci riusciremo sicuramente.”
Ma dopo 18 mesi, il margine di profitto è ancora a un livello senza precedenti negativo… Il progetto Windsurf è crollato e anche Claude Code ha dovuto annullare il piano iniziale di 200 dollari al mese per l’uso illimitato.
La società continua a perdere denaro. I modelli sono effettivamente diventati più economici—il costo di GPT-3.5 è ora dieci volte inferiore a prima. Ma per qualche motivo, il margine di profitto è peggiorato invece di migliorare.
Qualcosa non va qui.
Modelli obsoleti, come giornali di ieri
Il prezzo di GPT-3.5 è un decimo del passato. Ma è anche come un cellulare a conchiglia durante una presentazione di iPhone, nessuno lo vuole.
Quando un nuovo modello viene lanciato come il migliore sul mercato (SOTA), il 99% della domanda si sposta immediatamente su di esso. I consumatori si aspettano lo stesso dai prodotti che utilizzano.
Ora, diamo un’occhiata alla storicità dei prezzi dei modelli all’avanguardia che occupano il 99% della domanda in un dato momento:
Noti qualcosa?
- Quando GPT-4 è stato lanciato a 60 dollari, nonostante GPT-3.5 (il modello precedente al top) fosse sceso di 26 volte, tutti hanno scelto GPT-4.
- Quando Claude 3 Opus è stato lanciato a 60 dollari, anche se il prezzo di GPT-4 era già diminuito, le persone si sono nuovamente rivolte a Claude.
La riduzione dei costi di 10 volte è reale, ma si applica solo a modelli obsoleti che hanno prestazioni paragonabili a un Commodore 64.
Questo è il primo difetto mortale della strategia del “restringimento dei costi”: la domanda di mercato esiste solo per “il modello di linguaggio più potente”. E il costo del modello più potente rimane sostanzialmente simile, poiché riflette i costi limite della tecnologia di inferenza attuale.
Dire: “Quella Honda Civic del 1995 è ora molto più economica!” è completamente fuori luogo. Sì, quell’specifico veicolo è diventato più economico, ma il prezzo di listino di una Toyota Camry del 2025 è di 30.000 dollari.
Quando utilizzi l’IA—che sia per programmare, scrivere o pensare—cerchi sempre la massima qualità. Nessuno aprirebbe Claude pensando: “Perché non dovrei usare quel modello inferiore e risparmiare qualche soldo per il mio capo?” Siamo intrinsecamente insaziabili nella nostra cognizione. Vogliamo il miglior “cervello” possibile, specialmente quando dall’altra parte c’è il nostro prezioso tempo.
La velocità di “bruciare” dei modelli ti sorprenderà
“Ok, ma questo sembra gestibile, giusto? Dobbiamo solo rimanere in pareggio per sempre?”
Oh, mio caro ingenuo.
Sebbene il costo unitario di ogni modello all’avanguardia non sia aumentato, è accaduta un’altra cosa peggiore: il numero di Token consumati è esploso.
In passato, ChatGPT rispondeva a una domanda con una singola frase. Ora, la funzione di “ricerca approfondita” impiega 3 minuti per pianificare, 20 minuti per leggere, e poi altri 5 minuti per riscrivere un rapporto, mentre Opus 3 può anche impiegare 20 minuti per rispondere a un semplice “Ciao”.
Lo sviluppo esplosivo dell’apprendimento per rinforzo (RL) e del calcolo al momento del test (test-time compute) hanno portato a un risultato inaspettato: il numero di Token necessari per completare un compito raddoppia ogni sei mesi. Un compito che in precedenza restituisce 1000 Token, ora può restituirne 100.000.
Se proietti questa tendenza, il risultato sarà davvero folle:
Oggi, una “ricerca approfondita” di 20 minuti costa circa 1 dollaro. Entro il 2027, avremo agenti in grado di funzionare continuamente per 24 ore senza “deviare”… E con i prezzi stabili dei modelli all’avanguardia? Questo implica un costo per singola esecuzione di 72 dollari. Ogni giorno, per ogni utente. E possono anche funzionare in modo asincrono.
Non appena saremo in grado di far funzionare gli agenti in modo asincrono per carichi di lavoro di 24 ore al giorno, non ci limitiamo più a dare loro un’istruzione e aspettare un feedback. Inizieremo a programmarli in batch. Un’intera flotta di lavoratori IA che gestisce problemi in parallelo, bruciando Token come se fossimo tornati alla bolla dot-com del 1999.
È chiaro - devo sottolinearlo - che una tariffa di abbonamento mensile di 20 dollari non può nemmeno sostenere un utente per condurre una ricerca approfondita da 1 dollaro al giorno. Eppure, questa è esattamente la direzione in cui ci stiamo dirigendo. Ogni miglioramento nella capacità del modello significa che possono consumare in modo significativo più risorse computazionali.
È come se costruissi un motore che consuma meno carburante e poi utilizzassi il risparmio per costruire un camion gigante. Certo, ogni gallone può percorrere più distanza, ma il totale di carburante consumato è aumentato di 50 volte.
Questo è il motivo fondamentale per cui Windsurf è stato “schiacciato” dai costi - ed è ciò che ogni startup che adotta un modello commerciale di “abbonamento a tariffa fissa + elevato consumo di Token” sta affrontando.
Tentativi eroici di Anthropic per coprire il rischio di “pressione sui costi”
L’esperimento del pacchetto illimitato di Claude Code è stato il tentativo più astuto che abbiamo visto per affrontare questa tempesta. Hanno fatto di tutto, ma alla fine sono stati schiacciati.
Le loro strategie sono state effettivamente molto intelligenti:
1. Prezzo superiore di 10 volte
Quando Cursor addebitava 20 dollari al mese, loro fissavano il prezzo a 200 dollari al mese. Prima di iniziare a perdere, hanno creato un maggiore margine di sicurezza.
2. Scalabilità automatica del modello in base al carico
Quando i compiti sono gravosi, passano da Opus ($75/ milione di Token) a Sonnet ($15/ milione di Token). Utilizzano Haiku per ottimizzare i compiti di lettura. È come la scalabilità automatica di AWS, solo che è per il “cervello”.
Quasi sicuramente, hanno implementato questo comportamento direttamente nei pesi del modello, un cambiamento di paradigma che potremmo vedere di più in futuro.
3. Scaricare i carichi di lavoro sulle macchine degli utenti
Quando gli utenti hanno CPU inattive a disposizione, perché attivare una sandbox da soli?
Tuttavia, nonostante questa ingegnosità ingegneristica, il consumo di Token continua ad aumentare in modo esplosivo.
Dieci miliardi. Dieci miliardi di Token. Equivalenti a 12.500 copie di “Guerra e Pace”. In un mese.
Come è possibile? Anche se ogni esecuzione dura 10 minuti, come si può consumare 10 miliardi di Token?
Si è scoperto che una continua sessantina di minuti è sufficiente per scoprire l’utilità del “for loop”. Una volta che si disaccoppiano il consumo di Token dal tempo totale online dell’utente, le leggi fisiche iniziano a prendere il sopravvento. Dai a Claude un compito, fargli controllare il proprio lavoro, rifattorizzare, ottimizzare, e ripetere il processo fino a che la società non va in bancarotta.
Gli utenti diventano maestri della pianificazione delle API, facendo girare un motore di conversione di codice 24 ore su 24, 7 giorni su 7 con i soldi di Anthropic. La transizione da chat a agenti avviene in un istante. I consumi aumentano di 1000 volte. È una transizione di fase, non un cambiamento graduale.
Così, Anthropic ha annullato il pacchetto illimitato. Avrebbero potuto provare a farlo a 2000 dollari al mese, ma la lezione non è stata che non stavano caricando abbastanza, ma che in questo nuovo mondo, nessun modello di abbonamento può offrire accesso illimitato.
La chiave è: in questo nuovo mondo, non esiste alcun prezzo fisso praticabile per l’abbonamento.
Queste somme non tornano a conti.
Il dilemma del prigioniero di tutte le altre aziende
Questo ha messo tutte le altre aziende in una situazione senza uscita.
Ogni azienda di IA sa che pagare a consumo potrebbe salvarli. Sanno anche che questo li porterà alla rovina. Quando addebiti responsabilmente $0.01/ 1k Token, i tuoi concorrenti con fondi VC offrono servizi illimitati a 20 dollari al mese.
Indovina dove andranno gli utenti?
Il classico dilemma del prigioniero:
- Tutti pagano a consumo → sostenibilità del settore
- Tutti hanno un prezzo fisso → la corsa verso la bancarotta
- Tu paghi a consumo, gli altri a prezzo fisso → muori da solo
- Tu a prezzo fisso, gli altri pagano a consumo → vinci (e poi muori più tardi)
Così, tutti scelgono di “tradire”. Tutti sovvenzionano gli utenti pesanti. Tutti pubblicano grafici di crescita a “forma di bastone da hockey”. Alla fine, tutti annunciano “importanti aggiornamenti sui prezzi”.
Cursor, Lovable, Replit—loro capiscono come funziona. Hanno scelto la crescita di oggi, i profitti di domani e, infine, la bancarotta, ma quella sarà una questione per il prossimo CEO.
A dire il vero? Potrebbe avere senso. In una corsa per la terra, la quota di mercato conta più del margine di profitto. Finché i VC sono disposti a continuare a emettere assegni per coprire modelli economici unitari disastrosi…
Vai a chiedere a Jasper cosa succede quando la musica smette di suonare.
Come evitare di essere “liquidati”?
Possiamo ancora evitare questa “pressione sui costi” dei Token?
Di recente, si vocifera che Cognition stia raccogliendo fondi a una valutazione di 15 miliardi di dollari, mentre il suo fatturato annuo ricorrente (ARR) dichiarato è inferiore a 100 milioni di dollari (suppongo più vicino a 50 milioni di dollari). Questo contrasta con Cursor, che ha raccolto fondi a una valutazione di 10 miliardi di dollari con un ARR di 500 milioni di dollari. Ottiene più di otto volte di fatturato, con una valutazione inferiore ai due terzi. Cosa sanno i VC di cui noi non sappiamo riguardo ai segreti di Cognition? Sono tutti agenti di IA che scrivono codice. Ha trovato Cognition una via d’uscita da questo vortice mortale? (Ne parlerò nel dettaglio la prossima volta)
Ci sono tre uscite:
1. Applica la tariffa a consumo fin dal primo giorno
Nessun sussidio. Niente “acquisire utenti prima, monetizzare poi”. Solo un modello economico onesto. Sembra magnifico in teoria.
Ma il problema è: trovami un’azienda di AI consumer di consumo che stia crescendo in modo esponenziale con un modello a consumo. Gli utenti odiano le tariffe misurabili. Preferiscono pagare di più per piani illimitati piuttosto che ricevere una bolletta inaspettata. Ogni servizio di abbonamento consumer di successo—Netflix, Spotify, ChatGPT—è a tariffa fissa. Una volta che inserisci una misura, la crescita si ferma.
2. Alti costi di conversione ⇒ alti margini di profitto
Questo è il percorso su cui Devin sta investendo tutto. Hanno recentemente annunciato collaborazioni con Citibank e Goldman Sachs per distribuire Devin a 40.000 ingegneri software di entrambe le aziende. Calcolando 20 dollari al mese, si tratta di un progetto da 10 milioni di dollari. Ma ecco la domanda: preferisci ottenere 10 milioni di dollari di ARR da Goldman Sachs o da sviluppatori specializzati per 500 milioni di dollari di ARR?
La risposta è evidente: il ciclo di implementazione di sei mesi, la revisione della conformità, l’audit della sicurezza e processi di approvvigionamento complicati significano che sebbene le entrate da Goldman siano difficili, una volta che le ottieni, sono impossibili da perdere. Puoi ottenere questi contratti solo quando l’unico decisore della banca mette la propria reputazione sul piatto—e poi tutti faranno del loro meglio per garantire il successo del progetto.
È anche per questo motivo che, a parte i fornitori di cloud su scala massiva, le maggiori aziende software sono quelle che vendono al tipo di clienti con “sistemi di registrazione” (System-of-Record) (CRM / ERP / EHR). Possono anche raggiungere margini di profitto dell’80-90% perché maggiore è la difficoltà di perdere il cliente, minore è la sensibilità al prezzo.
Quando i concorrenti arriveranno, ti sei già penetrato nel sistema burocratico degli altri, il passaggio di fornitore richiederà un ciclo di vendita di sei mesi. Non è che non puoi andartene, ma il tuo CFO preferirebbe morire piuttosto che affrontare un’altra valutazione dei fornitori.
3. Integrazione verticale ⇒ guadagnare sulle infrastrutture
Questo è il modo di Replit: combinare agenti di codifica con servizi di hosting delle applicazioni, gestione dei database, monitoraggio delle distribuzioni, registrazione dei log e altro. Perdono su ogni Token, ma catturano valore in ogni altro strato della tecnologia stack che forniscono alla nuova generazione di sviluppatori… Puoi vedere quanto profonda sia l’integrazione verticale di Replit.
Tratta l’IA come un prodotto di attrazione in perdita per promuovere il consumo di servizi competitivi con AWS. Ciò che vendi non è capacità di inferenza, ma ogni altra cosa; l’inferenza è solo la tua spesa per il marketing.
Il punto forte è che la generazione di codice crea naturalmente una domanda di hosting. Ogni applicazione ha bisogno di un luogo dove funzionare. Ogni database ha bisogno di gestione. Ogni distribuzione ha bisogno di monitoraggio. Lascia che OpenAI e Anthropic si facciano guerra sui prezzi dei servizi di inferenza, riducendo a zero il profitto, mentre tu possiedi tutto il resto.
Le aziende che continuano a giocare il “gioco della tariffa fissa, a tutti i costi, crescita” sono solo zombie. La loro costosa sepoltura è solo programmata per il quarto trimestre.
Qual è la strada da seguire
Vedo sempre i fondatori aggrapparsi a “l’anno prossimo i modelli costeranno 10 volte meno!” come se avessero trovato un salvagente. Certo, lo faranno. Ma le aspettative degli utenti sui modelli aumenteranno anche di 20 volte. Quel traguardo si allontana sempre di più.
Ricordi Windsurf? A causa della pressione sul loro bilancio da parte di Cursor, non sono riusciti a trovare una via d’uscita. Anche Anthropic, che ha il livello di integrazione verticale delle applicazioni più profondo a livello globale, non è riuscito a far funzionare un modello di abbonamento fisso illimitato.
Sebbene la sintesi di “Leverage Beta è tutto ciò di cui hai bisogno”—“essere proattivi batte essere intelligentissimi”—sia comunque corretta, l’agire in anticipo senza pianificazione significa solo che arriverai per primo nella tomba degli altri. Non ci sono assegni da 2,4 miliardi di dollari che Google emetterà per affari in perdita. Non c’è “Ci penseremo in seguito”, perché “in seguito” significa che il tuo conto AWS supererà il tuo fatturato totale.
Quindi, in questo mondo, come costruisci un’azienda? La risposta breve è diventare un “neocloud”—che è anche il titolo del mio prossimo articolo.
Ma almeno, l’anno prossimo i modelli costeranno 10 volte meno, giusto?