„20 dolarów miesięcznie” zabija firmy AI. Spadek cen Tokenów to iluzja, prawdziwym kosztownym jest twoja chciwość — powoli ucz się AI164
Wstęp
- Obniżka cen modeli to fałszywy temat: tanieją jedynie stare modele, które nikt nie używa, użytkownicy zawsze płacą tylko za najsilniejsze „nowe flagowce”.
- Prawdziwą czarną dziurą kosztów nie jest cena Tokena, ale ewolucja możliwości AI: im bardziej złożone zadanie, tym bardziej niekontrolowane zużycie, stały model miesięczny jest skazany na „przygniecenie”.
- Model subskrypcyjny AI to „dylemat więźnia”: wybierając płatności na zasadzie zużycia, stracisz rynek; wybierając cenę miesięczną, stracisz przyszłość.
- Istnieją tylko dwa sposoby, aby uwolnić się od przeznaczenia „spalania pieniędzy”: albo zbudować „bariery wejścia” o wysokim koszcie konwersji, które uniemożliwią klientom biznesowym odejście; albo przeprowadzić integrację pionową, traktując AI jako narzędzie do pozyskiwania klientów przy stratach, zarabiając na infrastrukturze.
Dalsza lektura
- 【Ciekawostki o Tokenach】Dlaczego AI jest rozliczane według Tokenów? Odpowiadamy na to pytanie
- 【Prosto i jasno】7B, 70B, 175B? Co naprawdę oznaczają parametry modelu AI? Jak przedsiębiorstwa mogą wybrać odpowiednie rozwiązanie dużego modelu?
- Tokeny stają się coraz droższe
Prawdziwy koszt Tokenów rośnie w astronomicznym tempie
„Koszt modeli językowych spadnie dziesięciokrotnie” to bzdura, która nie uratuje usług subskrypcyjnych AI dotkniętych „naciskiem kosztowym”
Wyobraź sobie, że zakładasz własną firmę i wiesz, że konsumenci są gotowi płacić maksymalnie 20 dolarów miesięcznie. Myślisz sobie, nie ma sprawy, to typowy sposób działania VC — obciążenie kosztami, rezygnacja z zysku na rzecz wzrostu. Z policzyłeś już koszty pozyskania klientów (CAC), wartość klienta w czasie (LTV) i wszystkie inne wskaźniki. I tu wchodzi ciekawy element: widzisz rozpowszechnioną grafikę a16z, pokazującą, że koszty dużych modeli językowych (LLM) spadają dziesięciokrotnie rocznie.
Więc zaczynasz kalkulować: dzisiaj osiągam próg rentowności przy cenie 20 dolarów miesięcznie, a w przyszłym roku koszty modelu spadną dziesięciokrotnie, co oznacza, że marża zysku wzrośnie do 90%. Straty są tylko chwilowe, zyski są nieuniknione.
Ta logika jest na tyle prosta, że nawet asystent VC mógłby ją zrozumieć:
- Pierwszy rok: osiągnięcie równowagi przy 20 dolarach miesięcznie
- Drugi rok: przy spadku kosztów obliczeniowych dziesięciokrotnie, marża zysku osiąga 90%
- Trzeci rok: zaczynasz wybierać jacht
Taka strategia ma sens: „Koszt inferencje modelu językowego spada co 6 miesięcy o 300%, na pewno damy radę”.
Ale minęło 18 miesięcy, a marża zysku wciąż utrzymuje się na rekordowo niskim poziomie… Projekt Windsurf rozpadł się, a Claude Code musiał w tym tygodniu zrezygnować z pierwotnego, rozbudowanego planu subskrypcyjnego za 200 dolarów miesięcznie.
Firma wciąż traci pieniądze. Modele rzeczywiście stały się tańsze — koszt GPT-3.5 jest dziesięciokrotnie niższy niż w przeszłości. Ale z jakiegoś powodu marża zysku stała się jeszcze gorsza, a nie lepsza.
Coś tu jest nie tak.
Przestarzałe modele, jak gazeta z wczoraj
Cena GPT-3.5 to ułamek dawnej wartości. Ale jest jak telefon klapowy na prezentacji iPhone’a, nikt go nie pragnie.
Kiedy nowy model zostaje wydany jako wiodący w branży (SOTA), 99% popytu momentalnie przenosi się na niego. Konsumenci mają takie same oczekiwania wobec produktów, których używają.
Zobaczmy teraz rzeczywistą historię cen modeli, które zajmowały 99% popytu w danym okresie:
Zauważyłeś coś?
- Kiedy GPT-4 został wydany po 60 dolarów, mimo że GPT-3.5 (wcześniejszy model wiodący) został obniżony o 26 razy, wszyscy i tak wybierali GPT-4.
- Kiedy Claude 3 Opus został wydany w tej samej cenie, mimo że GPT-4 już taniał, ludzie wciąż wybierali Claude.
Spadek kosztów dziesięciokrotnie ma miejsce, ale tylko w odniesieniu do starych modeli, których wydajność przypomina komputery Commodore 64.
Zatem to pierwszy fatalny błąd strategii „koszty będą spadać”: popyt rynkowy istnieje tylko dla „najsilniejszego modelu językowego”, koniec kropka. A koszty najpotężniejszego modelu zawsze są do siebie zbliżone, ponieważ odzwierciedlają obecne ograniczenia technologii inferencyjnej.
Wskazywanie na Hondę Civic z 1995 roku i mówienie, że „ten samochód stał się teraz tańszy!” to kompletny nonsens. Tak, ten konkretny samochód jest tańszy, ale sugerowana cena detaliczna Toyoty Camry 2025 wynosi 30 000 dolarów.
Kiedy korzystasz z AI — czy to w programowaniu, pisaniu czy myśleniu — zawsze dążysz do najwyższej jakości. Nikt nie otworzy Claude’a i nie pomyśli: „może lepiej skorzystam z tego gorszego modelu, żeby oszczędzić szefowi pieniądze”. Jesteśmy z natury chciwi w naszych oczekiwaniach. Chcemy mieć najlepszy „mózg”, szczególnie gdy na szali jest nasz cenny czas.
Tempo „palenia pożeraczy pieniędzy” w modelach przekracza wyobrażenie
„Dobrze, ale brzmisz, jakbyśmy mogli sobie z tym poradzić, prawda? Musimy tylko wciąż utrzymywać równowagę finansową”.
Ach, mój drogi naivny chłopcze.
Chociaż koszt jednostkowy Tokena w każdym pokoleniu modeli wiodących nie wzrósł, zdarzyła się inna gorsza rzecz: ilość Tokenów, którą zużywają, rośnie w zastraszającym tempie.
W przeszłości, ChatGPT odpowiadał na pojedyncze zdanie jednym zdaniem. A teraz funkcja „głębokiego badania” potrzebuje 3 minut na zaplanowanie, 20 minut na czytanie i jeszcze 5 minut na przepisanie raportu, podczas gdy Opus 3 może nawet zająć 20 minut na odpowiedź na „Cześć”.
Eksplozja w obszarze uczenia przez wzmocnienie (RL) i obliczeń w czasie testów (test-time compute) doprowadziła do nikogo nieoczekiwanego efektu: długość zadań, które AI może wykonać, podwaja się co sześć miesięcy. W przeszłości zadanie zwracające 1000 Tokenów, dziś może zwrócić 100 000.
Gdy ekstrapolujesz ten trend, obliczenia stają się naprawdę szalone:
Dziś koszt jednorazowego „głębokiego badania” o czasie trwania 20 minut wynosi około 1 dolar. Do 2027 roku będziemy mieli inteligentne jednostki, które będą mogły pracować nieprzerwanie przez 24 godziny, nie odrywając się od zadania… a biorąc pod uwagę stabilne ceny wiodących modeli, to oznacza, że koszt jednorazowego uruchomienia wzrośnie do 72 dolarów na dzień, na użytkownika. I mogą jednocześnie pracować wiele takich jednostek.
Gdy już będziemy w stanie wdrożyć jednostki, które będą działać asynchronicznie przez 24 godziny, nie będziemy jedynie podawać im jednego polecenia i czekać na odpowiedź. Zaczniemy je harmonogramować wsadowo. Cała flota pracowników AI, przetwarzająca problemy równolegle i spalająca Tokeny jak w czasach internetowej bańki z 1999 roku.
Oczywiście — muszę podkreślić, że — subskrypcyjna opłata w wysokości 20 dolarów miesięcznie nie wystarczy nawet, aby pokryć koszty głębokiego badania jednorazowego raz dziennie dla jednego użytkownika. Ale dokładnie w tę stronę zmierzamy. Każda poprawa zdolności modelu oznacza, że będą one mogły w sposób istotny zużywać więcej zasobów obliczeniowych.
To tak, jakbyś zbudował silnik, który zużywa mniej paliwa, a następnie użył tych zaoszczędzonych funduszy, aby stworzyć olbrzymi ciężarówkę. Tak, za każde galon paliwa możesz przejechać dalej, ale całkowite zużycie paliwa wzrasta 50 razy.
To właśnie jest główny powód, dla którego Windsurf został „przygnieciony kosztami” — jest to również krytyczna sytuacja, przed którą stoją każde startupy przyjmujące model biznesowy „stałej subskrypcji + intensywne zużycie Tokenów”.
Odważne próby Anthropic w celu zabezpieczenia się przed „naciskiem kosztowym”
Eksperyment Claude Code z abonamentem bez limitów jest najciekawszym sposobem na stawienie czoła tej burzy, jakiego byliśmy świadkami. Zużyli wszystkie swoje siły, a jednak ostatecznie zostali zniszczeni.
Ich strategiia była rzeczywiście bardzo inteligentna:
1. Cena o 10 razy wyższa
Gdy Cursor pobierał 20 dolarów miesięcznie, oni ustalili cenę na 200 dolarów. Dali sobie większą przestrzeń amortyzacyjną, zanim zaczęli tracić pieniądze.
2. Automatyczne dostosowywanie modelu do obciążenia
W przypadku dużego obciążenia, przełączali się z Opus (75 dolarów za milion Tokenów) na Sonnet (15 dolarów za milion Tokenów). Używali Haiku do optymalizacji zadań czytelniczych. To jest jak automatyczne skalowanie w AWS, ale dla „mózgów”.
Jest niemal pewne, że wbudowali ten proces bezpośrednio w wagi modelu, co jest czymś, czego możemy się spodziewać więcej w przyszłości.
3. Przenieś obciążenie zadania na maszyny użytkowników
Kiedy użytkownicy mają dostępne nieużywane CPU, po co uruchamiać własne środowisko?
Jednak pomimo wszystkich tych inżynieryjnych innowacji, zużycie Tokenów wciąż rośnie jak eksplozja supernowej.
10 miliardów. 10 miliardów Tokenów. To jak 12 500 egzemplarzy „Wojny i pokoju”. W ciągu miesiąca.
Jak to zrobić? Nawet przy uruchamianiu przez 10 minut, jak jedna osoba może zużyć 10 miliardów Tokenów?
Okazało się, że 10-20 minut ciągłego czasu uruchamiania jest wystarczające, aby ludzie odkryli zalety pętli „for”. Kiedy rozdzielisz zużycie Tokenów od czasu online użytkowników w aplikacji, fizyka zaczyna przejmować kontrolę. Daj Claude’owi zadanie, aby sprawdzał swoją pracę, rekonstruował, optymalizował, a następnie powtarzał ten proces, aż firma zbankrutuje.
Użytkownicy stali się mistrzami harmonogramowania API, korzystając z pieniędzy Anthropic, uruchamiając 24/7 silnik konwersji kodu. Ewolucja od czatu do inteligentnych agentów nastąpiła w mgnieniu oka. Zużycie wzrosło 1000 razy. To jest przejście fazowe, a nie stopniowe.
I tak Anthropic anulował plan subskrypcyjny bez limitu. Mogliby próbować ustalić cenę na 2000 dolarów miesięcznie, lecz lekcja nie polegała na tym, że nie pobierali wystarczająco wysokich opłat, lecz na tym, że w tym nowym świecie żaden model subskrypcyjny nie może zaoferować nieskończonego użytkowania.
Kluczem jest: w tym nowym świecie nie ma żadnej realnej ceny subskrypcyjnej.
Ta gra już fundamentalnie się nie zgadza.
Dylemat więźnia dla wszystkich innych
To stawia inne firmy w bezwyjściowej sytuacji.
Każda firma AI wie, że płatności zgodnie z użyciem mogą je uratować. Wiedzą również, że to je zabije. Kiedy odpowiedzialnie pobierasz 0,01 USD za 1k Tokenów, twoi konkurenci finansowani przez VC oferują nieskończoną usługę za 20 dolarów miesięcznie.
Zgadnij, gdzie pójdą użytkownicy?
Typowy dylemat więźnia:
- Wszyscy płacą zgodnie z użyciem → zrównoważony rozwój branży
- Wszyscy mają stałą opłatę → rywalizują o bankructwo
- Ty płacisz zgodnie z użyciem, inni mają stałą opłatę → umierasz sam
- Ty masz stałą opłatę, inni płacą zgodnie z użyciem → wygrywasz (a potem umierasz później)
Wszystkie firmy wybierają „zdrajcę”. Wszystkie subsydiują intensywnych użytkowników. Wszystkie pokazują „krzywe wzrostu o kształcie hokejki”. Ostatecznie wszystkie publikują ogłoszenia o „ważnych aktualizacjach cenowych”.
Cursor, Lovable, Replit — wszyscy znają tę grę. Wybierają dzisiejszy wzrost, jutrzejszy zysk i ostatecznie bankructwo, ale to problem następnego CEO.
Szczerze mówiąc? Może mają rację. W grze o tereny rynkowe liczy się więcej udziałów niż marż. Dopóki VC są gotowi wciąż wystawiać czeki, aby ukryć złe modele ekonomiczne jednostkowe…
Zapytaj Jaspera, co się stanie, gdy muzyka przestanie grać.
Jak uniknąć „przymusowej likwidacji”?
Czy możemy jeszcze uniknąć tej „naciskanej” kosztową spirali Tokenów?
Ostatnio pojawiły się plotki, że Cognition stara się o finansowanie przy wycenie 15 miliardów dolarów, podczas gdy ogłoszone przez nich roczne przychody (ARR) wynoszą zaledwie mniej niż 100 milionów dolarów (sądząc, że bardziej w okolicach 50 milionów). To kontrastuje z Cursor, który przy wycenie 10 miliardów dolarów ma ARR wynoszący 500 milionów. Przychody są ponad osiem razy wyższe, a wycena tylko dwie trzecie. Co VC wiedzą o tajemnicach Cognition, o których nie wiemy? Są to AI jednostki piszące kod. Czy Cognition znalazła sposób na wyjście z tego spiralnego upadku? (następnym razem szczegółowo omówię ten temat)
Są trzy wyjścia:
1. Od pierwszego dnia stosuj płatności zgodnie z użyciem
Bez subsydiów. Bez „najpierw pozyskuj użytkowników, potem monetyzuj”. Tylko uczciwy model ekonomiczny. Brzmi świetnie w teorii.
Ale problem polega na tym, znajdź mi szybko rosnącą firmę zajmującą się konsumenckim AI, która działa na podstawie płatności zgodnie z użyciem. Konsumenci nie znoszą zgodny z zużyciem. Wolą zapłacić więcej za nieograniczone użytkowanie, niż dostać niespodziewany rachunek. Każda udana usługa subskrypcyjna dla konsumentów — Netflix, Spotify, ChatGPT — opiera się na stałej stawce. Gdy tylko dodasz pomiar, wzrost się zatrzymuje.
2. Bardzo wysokie koszty konwersji ⇒ Wysoką marżę
Tym kieruje się Devin. Ostatnio ogłosili współpracę z Citi i Goldmannem, która pozwala na wdrożenie Devin dla 40 tysięcy programistów w tych firmach. Przy 20 dolarach miesięcznie to projekt wart 10 milionów dolarów. Ale pytanie: czy wolisz zdobyć 10 milionów dolarów ARR od Goldmanna, czy 500 milionów dolarów ARR od profesjonalnych deweloperów?
Odpowiedź jest oczywista: długi proces implementacji, przegląd zgodności, audyt bezpieczeństwa, żmudne procesy zakupowe oznaczają, że dochody z Goldmanna, mimo że trudne do wygrania, po ich zdobyciu nigdy nie znikną. Te kontrakty dostajesz tylko wtedy, gdy decydent w banku stawia na Ciebie swoje reputacje — a następnie wszyscy starają się jak mogą zapewnić sukces projektu.
Dlatego wszystkie największe firmy programistyczne, poza bardzo dużymi dostawcami chmurowymi, to te, które sprzedają klientom „systemy rekordów” (np. CRM/ERP/EHR). Osiągają również marże 80-90%, ponieważ im trudniej klientowi odejść, tym mniej wrażliwi są na cenę.
Gdy konkurencja się pojawi, ty już jesteś głęboko osadzony w biurokracji swojego klienta; zmiana dostawcy wymaga kolejnego sześciomiesięcznego procesu sprzedażowego. Nie chodzi o to, że nie możesz odejść, lecz o to, że twój CFO wolałby umrzeć, niż przechodzić przez ocenę dostawców raz jeszcze.
3. Integracja pionowa ⇒ Zarabianie na infrastrukturze
Tak działa Replit: łączy inteligentne algorytmy kodowania z usługami hostowania aplikacji, zarządzania bazami danych, monitorowania wdrożeń, rejestrowania zdarzeń w logach. Strata na każdym Tokenie, ale zdobywanie wartości w każdej innej warstwie stosu technologicznego wystawionej nowej generacji deweloperów… spójrz ich głęboko w integrację pionową.
Postrzegaj AI jako stratny produkt przyciągający klientów, aby zwiększyć popyt na usługi, które mogą konkurować z AWS. To nie jest sprzedaż zdolności inferencyjnej, lecz wszystkiego innego — zdolność inferencyjna to jedynie twój koszt marketingowy.
Mistrzowsko to zaplanowano, ponieważ generowanie kodu naturalnie stwarza zapotrzebowanie na hosting. Każda aplikacja wymaga miejsca na uruchomienie. Każda baza danych musi być zarządzana. Każde wdrożenie wymaga monitorowania. Pozwalaj OpenAI i Anthropic walczyć o ceny w usługach inferencyjnych, nawet schodząc do zera, podczas gdy ty masz wszystkie inne elementy pod kontrolą.
Ci, którzy wciąż grają „stała stawka, wzrost za wszelką cenę”? To kontynuatorzy. Ich kosztowne pogrzeby zaplanowane na IV kwartał.
Dokąd prowadzą nas te drogi
Zawsze widzę założycieli wskazujących na „w przyszłym roku modele będą tańsze dziesięciokrotnie!” jakby złapali się ostatniej deski ratunku. Oczywiście, że tak będzie. Ale oczekiwania twoich użytkowników względem modeli również wzrosną 20-krotnie. Ta bramka szybko się oddala.
Pamiętasz Windsurf? Pod presją bilansu Cursor nie znaleźli sposobu na ucieczkę. Nawet posiadając najbardziej zintegrowaną aplikację z Anthropic, nie mogli uruchomić modelu subskrypcyjnego z nieograniczonym użytkowaniem.
Chociaż podsumowanie „Leverage Beta to Everything You Need” — czyli „wyprzedzenie innych jest lepsze niż bycie genialnym” — wciąż się sprawdza, to jednak nieprzemyślane wyprzedzenie to tylko oznacza, że wcześniej trafiasz do grobu. Nie ma Google, które wyda 2,4 miliarda dolarów na działalność z negatywnymi zyskami. Nie ma „zastanowimy się nad tym później”, ponieważ „później” oznacza, że twoje rachunki za AWS przewyższą twoje całkowite przychody.
Jak więc w takim świecie zbudujesz firmę? Krótką odpowiedzią jest stać się „nową chmurą” (neocloud) — to także tytuł mojego następnego artykułu.
Ale przynajmniej, w przyszłym roku modele będą tańsze dziesięciokrotnie, prawda.