Примітка на початку

  • Зниження цін на моделі — це міф: знижуються ціни на старі моделі, якими ніхто не користується, але користувачі завжди готові платити тільки за найсильніші “нові флагмани”.
  • Справжня “чорна діра” витрат не є ціною токенів, а еволюцією AI спроможностей: чим складніше завдання, тим більші витрати, а фіксовані місячні платежі приречені “розпастися”.
  • Модель підписки AI — це “дилема в’язня”: обираючи платити за споживання, ти програєш ринок; обираючи фіксовану ціну на місяць, ти програєш майбутнє.
  • Є тільки два способи звільнитися від долі “спалювання грошей”: або побудувати “оборо́нний мур” з високими витратами на переходи, який ускладнить вихід корпоративним клієнтам; або здійснити вертикальну інтеграцію, використовуючи AI як інструмент для залучення клієнтів зазнаючи збитків, а заробляючи на інфраструктурі.

Розширене читання

Справжня вартість токенів продовжує зростати

Пусті слова про те, що “вартість мовних моделей знизиться в 10 разів”, не можуть врятувати AI підпискові сервіси, стиснуті “витратами”

image.png

Уявіть, ви заснували компанію і чітко знаєте, що споживачі готові платити максимум 20 доларів на місяць. Ви подумали, що це не проблема — класичний підхід для венчурного капіталу: стягувати плату за вартістю на шкоду прибутку задля зростання. Ви все порахували — вартість залучення клієнтів (CAC), життєву вартість клієнта (LTV) та всі інші показники. Але ось цікаве: ви бачите популярну графіку a16z, яка показує, що вартість великих мовних моделей (LLM) щорічно знижується в 10 разів.

Джерело a16z

Отже, ви підраховуєте: сьогодні, за ціною 20 доларів на місяць, я досягну точки беззбитковості, і наступного року зменшення витрат моделі в 10 разів забезпечить прибуток у 90%. Збитки — це лише тимчасово, прибуток — обов’язково.

Ця логіка настільки проста, що навіть помічник венчурного капіталіста міг би її зрозуміти:

  • Перший рік: досягаємо точку беззбитковості за ціною 20 доларів на місяць.
  • Другий рік: знижуючи витрати на обчислення в 10 разів, досягаємо прибутковості 90%.
  • Третій рік: час купувати яхти.

Цю стратегію можна зрозуміти: “Вартість інференції великих мовних моделей знижується в 3 рази кожні 6 місяців, ми це можемо”.

Але 18 місяців минули, а прибуток залишається на рекордно низькому рівні… Проект Windsurf вже розпався, а навіть Claude Code цього тижня змушений скасувати свій початковий пакет “необмеженого використання” за 200 доларів на місяць.

Компанія все ще зазнає збитків. Моделі дійсно стали дешевшими — вартість GPT-3.5 впала в 10 разів, але чомусь прибуток став ще гіршим, а не кращим.

Тут явно є проблема.

Застарілі моделі — як старі газети

Вартість GPT-3.5 в десять разів нижча. Але вона лишається без користі, як і старий розкладний телефон під час презентації iPhone.

Коли нова модель випускається на ринок як найкраща (SOTA), 99% попиту одразу переходить на неї. Споживачі мають підвищені очікування від продуктів, якими вони користуються.

Давайте подивимось на реальну історію цін на передові моделі, які завжди займають 99% попиту в будь-який момент часу:

З джерела iaiuse.com

Що ви намагаєтеся помітити?

  • Коли GPT-4 запустили за ціною 60 доларів, незважаючи на те, що GPT-3.5 (попередня флагманська модель) подешевшала в 26 разів, всі вибрали именно GPT-4.
  • Коли Claude 3 Opus стартував за 60 доларів, навіть з уже зниженою ціною на GPT-4, споживачі все ще переводилися на Claude.

Зниження цін в 10 разів дійсно сталося, але тільки для старих моделей, що нагадують комп’ютер Commodore 64.

Ось чому стратегія “вартість знижується” має перший фатальний недолік: ринковий попит існує лише на “найсильнішу мовну модель”, і крапка. А вартість найсильних моделей завжди залишається відносно стабільною, оскільки вона відображає сучасні технології обчислень.

Сказати про 1995 Honda Civic: “Ця машина зараз дуже дешева!” абсолютно безглуздо. Так, конкретно ця машина подешевшала, але рекомендована роздрібна ціна Toyota Camry 2025 року становить 30,000 доларів.

Коли ви користуєтеся AI — будь то програмування, написання текстів або обдумування ідеї — ви завжди прагнете найвищої якості. Ніхто не скаже: “А можливо, я використаю цю гіршу версію, щоб зекономити для босу”. Ми природно прагнемо до найкращого “мозку”, особливо коли на кону наш час.

Темп спалювання грошей моделями перевищує ваші очікування

“Гаразд, але це ще можна витримати, так? Нам просто потрібно постійно залишатися на нулі, і все?”

О, мій наївний малюк.

Хоча вартість одиниці токена для кожної нової передової моделі не зросла, з’явилось ще гірше: кількість токенів, які вони споживають, зростає як ядерний вибух.

Раніше, відповідь ChatGPT на одне речення запитання теж була одне речення. А тепер функція “глибоке дослідження” може зайняти 3 хвилини для планування, 20 хвилин для читання та ще 5 хвилин, щоб переписати вашу звітність; Opus 3 навіть може витратити 20 хвилин, щоб відповісти на “привіт”.

Бурхливий розвиток підкріплювального навчання (RL) та обчислень у момент тестування призвів до непередбачуваного результату: довжина завдань, які AI може виконати, подвоюється кожні шість місяців. Завдання, яке раніше повертало 1000 токенів, тепер може повертати 100,000.

Джерело METR

Коли ви екстраполюєте цю тенденцію, результати математичних розрахунків стають абсолютно божевільними:

Сьогодні, двадцятихвилинна “глибока дослідження” коштує приблизно 1 долар. До 2027 року ми матимемо інтелектуальні системи, які можуть працювати цілодобово без “збоїв”… Разом з стабільною вартістю передових моделей? Це може призвести до витрат у 72 долари за один запуск. Кожного дня, на кожного користувача. І ще може працювати кілька разів асинхронно.

Якщо ми зможемо запустити інтелектуальні системи на асинхронне оброблення завдань 24 години на добу, ми вже не будемо давати їм один інструктаж і чекати відповіді. Ми будемо планувати їх пакетно. Цілий флот AI працівників, що одночасно обробляють питання, спалюючи токени, як в епоху інтернет-буллрану 1999 року.

Очевидно — я повинен підкреслити це — щомісячна плата в 20 доларів не забезпечить нікошту одного користувача на виключно одне дослідження в 1 долар на день. Але саме таке майбутнє нас чекає. Кожен підвищений рівень здібностей моделі означає, що вони можуть значно споживати більше обчислювальних ресурсів.

Це схоже на те, як ви створили більш паливозберігаючий двигун, а потім використали зекономлену паливну ефективність для побудови величезного вантажівки. Так, кожен галон пального пробігає далі, але ви споживаєте в 50 разів більше загальної кількості пального.

Це і є причина, чому Windsurf зазнав “випадків завищення витрат” і чому будь-які стартапи, які використовують модель “фіксована підписка + інтенсивне споживання токенів”, опиняються в глухому куті.

Відважна спроба Anthropic відповідати на “тиснення витрат”

Експеримент Claude Code з необмеженими підписками є однією з найбільш витончених спроб впоратися з цим штормом, з усіма силами, але в кінцевому результаті все ж зруйнувався.

Їхня стратегія була дійсно дуже розумною:

1. Висока ціна в 10 разів

Коли Cursor стягує 20 доларів на місяць, вони встановлюють ціну в 200 доларів на місяць. Перед початком витрат залишаючи собі більше буферу.

2. Автоматично налаштовуючи модель відповідно до навантаження

Коли навантаження велике, перемикається з Opus (75 доларів за мільйон токенів) на Sonnet (15 доларів за мільйон токенів). А для читання використовують Haiku. Це подібно до автоматичного масштабування AWS, але орієнтоване на “мозок”.

Вони, майже напевно, безпосередньо закладали таку можливість у вагу моделі, що може стати парадигмальним зсувом, який ми побачимо більше у майбутньому.

3. Переміщення обробки завдань на комп’ютери користувачів

Коли у користувачів є вільні, безкоштовні CPU, навіщо запускати пісочницю самим?

Проте, незважаючи на багато інженерних хитрощів, споживання токенів все ще зростає, як нова зірка.

З джерела Vibreank

10 мільярдів. 10 мільярдів токенів. Це еквівалентно 12500 примірників “Війни і миру”. За один місяць.

Як це стало можливим? Навіть якщо запуск тривав 10 хвилин, як одна людина може спожити 10 мільярдів токенів?

Виявляється, 10-20 хвилин безперервного часу роботи виявляються вкрай достатніми, щоб зрозуміти користь “for” циклу. Як тільки ви виведете споживання токенів з онлайн-часу користувачів у додатку, фізичні закони беруть на себе всю гру. Дайте Claude завдання перевірити свою роботу, реорганізувати, оптимізувати, а потім повторити це, поки компанія не збанкрутує.

Користувачі перетворюються на шеф-кухарів API, які використовують гроші Anthropic для роботи 24/7 кодексе трансформації. Від переходу від діалогу до інтелекту за одну ніч. Споживання зросло в 1000 разів. Це перехідний стан, а не звичайне зростання.

Таким чином, Anthropic скасував необмежений підписок. Вони могли б спробувати 2000 доларів на місяць, але урок не в тому, що вони не підняли ціну, а в тому, що в цьому новому світі жодна модель підписки не може надати необмежене використання.

Суть в тому, що в цьому новому світі немає реальної фіксованої ціни на підписку.

Ці розрахунки виявились досить акційними.

Дилема в’язнів для всіх інших

Це ставить усі інші компанії в безвихідь.

Кожна AI компанія знає, що плата за споживання може їх врятувати. Вони також знають, що це вб’є їх. Коли ти відповідально береш 0.01 долара за тисячу токенів, твої конкуренти з венчурним капіталом пропонують необмежені послуги за 20 доларів на місяць.

Відомо, куди йдуть користувачі?

Класична дилема в’язня:

  • Всі платять за споживання → галузь стає стійкою
  • Всі платять фіксовану плату → змагання веде до банкрутства
  • Ти платиш за споживання, а інші за фіксовану плату → ти помираєш один
  • Ти платиш фіксовану плату, а інші платять за споживання → ти виграв (а потім пізніше помреш)

Отже, всі обирають “зраду”. Усі субсидують важких користувачів. Усі демонструють графіки з “хокейною ключкою” зростання. В конечному счете, всем приходится делать “значительное обновление цен”.

Cursor, Lovable, Replit — знають всю цю гру. Вони вибирають зростання сьогодні, прибуток завтра, а в кінцевому підсумку — банкрутство, але це проблема наступного CEO.

Чи можу я відверто сказати? Можливо, це правильно. У земельній гонці частка ринку важливіша за маржу. Тільки б VC досі були готові писати чеки, щоб прикривати погані одиничні економічні моделі…

Запитайте у Jasper, що відбувається, коли музика закінчується.

Як уникнути примусового закриття?

Чи можемо ми ще уникнути “тиснення витрат” токенів?

Нещодавно з’явилися чутки про те, що Cognition залучає інвестиції за оцінкою в 15 мільярдів доларів, тоді як їх річний регулярний дохід (ARR) навіть не перевищує 100 мільйонів доларів (підозрюю, що ближче до 50 мільйонів). Це різко контрастує з Cursor, який залучив інвестиції за оцінкою 10 мільярдів доларів при річному дохід 500 мільйонів доларів. Дохід у 8 разів більший, а оцінка лише у 2/3. Що знають VC про секрети Cognition, якщо щось? Це AI агент, що пише код. Чи вдалося Cognition знайти спосіб звільнитися від цього смертельного спіралі? (На наступному разі я детальніше обговорю цю тему)

Є три виходи:

1. Впровадження плати за споживання з першого дня

Без субсидій. Без “спочатку залучення користувачів, потім монетизації”. Лише чесна економічна модель. На теорії звучить прекрасно.

Але питання в тому, знайди мені підприємство AI споживчого рівня з бурхливим зростанням, яке використовує плату за споживання. Споживачі ненавидять оплату за вимірами. Вони готові платити більше за необмежені плани, ніж отримати несподіваний рахунок. Кожна успішна споживча підписна служба — Netflix, Spotify, ChatGPT — є фіксованою платнею. Як тільки ти додаєш лічильник, зростання зупиняється.

2. Висока “плата за переміщення” ⇒ Висока прибутковість

Це те, на що вказує Devin. Нещодавно вони оголосили про співпрацю з Citi та Goldman Sachs, щоб впровадити Devin для 40,000 розробників програмного забезпечення у цих двох компаніях. За 20 доларів на місяць, це буде проект на 10 мільйонів доларів. Але є питання: ти краще отримати 10 мільйонів доларів ARR від Goldman Sachs чи 500 мільйонів доларів ARR від професійних розробників?

Відповідь очевидна: шість місяців впровадження, перевірки на відповідність, аудити безпеки, складні процеси закупівлі означають, що дохід з Goldman Sachs є важко отримувати, але як тільки він отриманий, він ніколи не зникне. Тільки тоді, коли єдиний ухвалюючий керівник банку ставить свою репутацію на вас, ви можете отримати ці контракти — і всі будуть робити все можливе, щоб забезпечити успіх проекту.

Ось чому, окрім великих постачальників хмарних послуг, найбільші програмні компанії це ті, хто продає “системи запису” (CRM / ERP / EHRs) подібним клієнтам. Вони також можуть досягати прибутковості в 80-90%, оскільки чим важче клієнту піти, тим менше їх ціна має значення.

Коли конкуренти з’являються, ти вже вкоренився в бюрократичній системі, і зміна постачальників потребує шестимісячного циклу продажів. Це не означає, що ти не можеш піти, але ваш CFO скоріше помре, ніж знову пройти процес оцінки постачальників.

3. Вертикальна інтеграція ⇒ Заробляти на інфраструктурі

Це підхід Replit: об’єднати розумові агенти з послугами хостингу додатків, управління базою даних, моніторингу впровадження, ведення журналів і т.д. Втрачаючи на кожному токені, але захоплюючи значення на кожному іншому рівні технологічного стеку для нового покоління розробників… просто подивіться на глибину вертикальної інтеграції Replit, щоб зрозуміти.

З джерела mattppal

Розглядати AI як збитковий продукт для залучення споживання послуг, здатних конкурувати з AWS. Ви не продаєте можливості інференції, а все інше, де інференція слугує вашими витратами на маркетинг.

Її геніальність полягає в тому, що генерація коду природно створює попит на хостинг. Кожен додаток потребує місця для запуску. Кожна база даних потребує управління. Кожен впровадження потребує моніторингу. Нехай OpenAI та Anthropic ведуть цінову війну в сервіси інференції до нуля прибутку, а ви володієте усіма іншими, що неймовірно.

Компанії, які ще грають в гру “фіксована плата безумовно зростає”? Вони мертві. Лише їхні дорогі похорони заплановані на четвертий квартал.

Куди йти далі

Я завжди бачу, як засновники вказують на слово “моделі знизяться в 10 разів наступного року!” Схоже, вони схопилися за соломину. Так, це ймовірно станеться. Але ваші користувачі також підвищать свої очікування до 20 разів. Ці ворота швидко віддаляються від вас.

Пам’ятаєте Windsurf? Внаслідок тиску з боку Cursor на їхній фінансовий звіт, їм не вдалося вийти з ситуації. Навіть Anthropic, який має найглибшу вертикальну інтеграцію в програмному продукті, не зміг утримати модель необмеженої фіксованої підписки.

Незважаючи на резюме статті “Леверидж Beta — це все, що тобі потрібно” — що “попереду рухатися краще, ніж бути надто розумним” — залишатиметься правильним, але без планування попереду, це тільки означає, що ти раніше дістанешся на цвинтар, ніж інші. Немає Google, що надасть 2.4 мільярда доларів для збиткових підприємств. І немає “ми розберемося пізніше”, тому що “потім” тільки означає, що твій рахунок AWS перевищить весь дохід.

Отже, як створити бізнес в цьому світі? Коротка відповідь — стати “новим хмарним сервісом” (neocloud) — це також заголовок моєї наступної статті.

Але, принаймні, наступного року моделі подешевшають в 10 разів, так?