“20 долларов в месяц” убивает компании в области ИИ. Падение цен на токены — это иллюзия, настоящая дороговизна в ИИ — это ваша жадность — изучайте ИИ 164
Введение
- Падение цен на модели — это миф: снижаются цены на устаревшие модели, которые никто не использует, а пользователи всегда платят только за самые мощные “новые флагманы”.
- Истинная “черная дыра” затрат — это не цена токена, а эволюция ИИ-способностей: чем сложнее задача, тем больше затрат, и фиксированная модель подписки неизбежно будет “раздавлена”.
- Подписная модель ИИ — это “игра заключенных”: если выбрать оплату по мере использования, вы потеряете рынок; если выбрать фиксированную месячную цену, вы потеряете будущее.
- Избавиться от судьбы “сжигания денег” можно только двумя способами: либо создать “защитный барьер” с высокими затратами на переход, чтобы клиенты не могли уйти; либо провести вертикальную интеграцию, превратив ИИ в убыточный инструмент трафика и зарабатывать на базовой инфраструктуре.
Дополнительное чтение
- 【Факты о токенах】Почему ИИ-услуги оплачиваются по токенам? Найдите ответы
- 【Легко воспринимается】7B, 70B, 175B? Что значит количество параметров ИИ моделей? Как бизнесу выбрать подходящую большую модель?
- Токены становятся всё дороже
Реальная стоимость токенов стремительно растет
Блестящая ложь о том, что “стоимость языковых моделей упадет в 10 раз” не спасет ИИ-сервисы, испытывающие “давление затрат”
Представьте, что вы основали компанию и точно знаете, что потребители готовы платить максимум 20 долларов в месяц. Вы думаете: “Не проблема, это классический подход VC — взимать плату на основе затрат, sacrificing прибыль ради роста”. Вы уже рассчитали стоимость привлечения клиентов (CAC), стоимость пожизненной ценности клиента (LTV) и другие метрики. Но неожиданно вы видите широко распространенный график a16z, который показывает, что стоимость больших языковых моделей (LLM) падает на 10 раз каждый год.
Вы размышляете: “Если сегодня я достигаю точки безубыточности при цене 20 долларов в месяц, и стоимость модели снижает на 10 раз в следующем году, моя прибыльность возрастет до 90%. Убытки временные, прибыль неизбежна”.
Этот логический аргумент настолько прост, что даже помощник VC поймет его:
- В первый год: достигаем безубыточности при цене 20 долларов в месяц.
- Во второй год: с падением вычислительных затрат на 10 раз, прибыльность достигает 90%.
- В третий год: покупаем яхты.
Эту стратегию можно понять: “Стоимость вывода из больших языковых моделей падает в 3 раза каждые 6 месяцев, значит, у нас получится”.
Но 18 месяцев спустя, прибыль осталась на беспрецедентно отрицательном уровне… Проект Windsurf распался, и даже Claude Code на этой неделе был вынужден отменить свой первоначальный тариф в 200 долларов в месяц за безлимитное использование.
Компания продолжает терять деньги. Да, модели по-прежнему становятся дешевле — стоимость GPT-3.5 снизилась в 10 раз. Но почему-то прибыльность еще больше ухудшилась, а не улучшилась.
Здесь явно что-то не так.
Устаревшие модели — как газеты вчерашнего дня
Цена GPT-3.5 составляет всего одну десятую от прежней. Но она оказалась никому не нужной, как складной телефон на презентации iPhone.
Когда новая модель продается как ведущая в отрасли (SOTA), 99% спроса мгновенно переключается на нее. У потребителей аналогичные ожидания от используемых продуктов.
Посмотрим на фактическую историю цен тех передовых моделей, которые в любой данное время покрывают 99% спроса:
Что вы замечаете?
- Когда GPT-4 был запущен по цене 60 долларов, даже несмотря на то что GPT-3.5 (предыдущая ведущая модель) снижена в цене на 26 раз, все предпочли GPT-4.
- Когда Claude 3 Opus был представлен по 60 долларов, даже с падением цен на GPT-4, люди все равно переключились на Claude.
Падение цен на 10 раз действительно происходит, но только для старых моделей, уровень производительности которых соответствует древним компьютерам Commodore 64.
Вот первая смертельная ошибка стратегии “цены падают”: рыночный спрос существует только на “самую мощную языковую модель”, и точка. А затраты на самую мощную модель всегда примерно одинаковы, поскольку они отражают предельные затраты текущей технологии вывода.
Говорить, что “эта машина теперь очень дешевая!” — это совершенно некорректно. Да, эта конкретная машина стала дешевле, но рекомендованная рыночная цена новой Toyota Camry 2025 года составляет 30 тысяч долларов.
Когда вы работаете с ИИ — будь то программирование, написание или мышление — вы всегда стремитесь к высшему качеству. Никто не откроет Claude и не подумает: “Может, я воспользуюсь менее качественной моделью, чтобы сэкономить для начальника”. Мы по своей природе стремимся к большему. Мы хотим получить лучший “ум”, особенно когда речь идет о нашем драгоценном времени.
Скорость расходов на модели превышает все ожидания
“Хорошо, но это, кажется, можно справиться, верно? Нам просто нужно всегда оставаться на уровне безубыточности?”
О, мой дорогой наивный друг.
Хотя стоимость токена на единицу за каждое поколение передовых моделей не становится дороже, произошло нечто гораздо более опасное: количество токенов, которые они расходуют, растет катастрофически.
Раньше ChatGPT отвечал на одиночный вопрос одним предложением. Теперь же функция “глубокого исследования” тратит 3 минуты на планирование, 20 минут на чтение и затем 5 минут на написание отчета, и Opus 3 может даже провести 20 минут в ожидании ответа на “Привет”.
Взрывное развитие обучения с подкреплением (RL) и вычислений во время тестирования (test-time compute) приводит к неожиданному результату: длина задач, которые ИИ может выполнить, удваивается каждые шесть месяцев. Задача, которая раньше возвращала 1000 токенов, теперь может возвратить 100 000.
Если экstrapolировать этот тренд, математические результаты начинают выглядеть очень безумно:
Сегодня операция “глубокое исследование” длительностью 20 минут стоит около 1 доллара. К 2027 году мы будем иметь агентов, которые могут работать 24 часа в сутки, не сбиваясь с пути… и с учетом стабильной цены передовых моделей? Это означает, что разовая операция станет стоить 72 доллара. Каждый день, для каждого пользователя. И каждый сможет запускать несколько асинхронных параллелей.
Как только мы сможем развернуть агентов, работающих 24 часа асинхронно, мы больше не будем отдавать лишь одну команду и ждать отклика. Мы будем планировать их массово. Весь флот ИИ-работников, параллельно обрабатывающих задачи, сжигая токены, как будто вернулись в дни пузыря доткомов 1999 года.
Я должен подчеркнуть: месячная подписка стоимостью 20 долларов не покрывает даже одного пользователя, проводящего день за день глубокое исследование на уровне 1 доллара. Но именно такой будущий курс и предстоит нам. Каждое повышение способностей модели означает, что они могут значимо потреблять больше вычислительных ресурсов.
Это все равно, что вы построили более экономичный двигатель, а затем используете сэкономленный бензин для создания огромного грузовика. Да, ваша машина теперь может проехать дальше на каждом галлоне, но общее потребление топлива увеличивается в 50 раз.
Вот почему Windsurf оказался под давлением “снижения затрат” — и это дилемма, с которой сталкиваются все стартапы с моделью “фиксированной подписки + высокая интенсивность расхода токенов”.
Смелые попытки Anthropic противодействовать “снижению затрат”
Эксперимент с безлимитным тарифом от Claude Code — это, несомненно, одна из самых изощренных попыток справиться с этой бурей. Они использовали все свои ресурсы, но в конце концов были сокрушены.
Их стратегия действительно была очень умной:
1. Цены в 10 раз выше
Когда Cursor берет 20 долларов в месяц, они устанавливают цену в 200 долларов в месяц. Оставляют себе больше пространства для маневра, прежде чем начать терять деньги.
2. Автоматическое расширение модели в зависимости от загрузки
При высокой нагрузке переключаются с Opus ($75 за миллион токенов) на Sonnet ($15 за миллион токенов). Используют Haiku для оптимизации чтения. Это похоже на автоматическое масштабирование AWS, просто примененное к “уму”.
Они почти уверены, что встроили это поведение прямо в веса модели, что является парадигмой, которой мы, вероятно, увидим больше в будущем.
3. Разгрузка обработки задач на машины пользователей
Когда у пользователей есть свободные процессоры, зачем запускать собственный песочницу?
Тем не менее, несмотря на много инженерных изысков, расход токенов продолжает расти, как эффект сверхновой звезды.
Десять миллиардов. Десять миллиардов токенов. Это эквивалентно 12 500 томов “Война и мир”. И всё за один месяц.
Как это произошло? Даже если каждое выполнение занимает 10 минут, как один человек мог потратить 10 миллиардов токенов?
Оказалось, что 10-20 минут непрерывного времени исполнения ровно достаточно, чтобы люди поняли, как использовать “for цикл”. Как только вы отделите расход токенов от времени, проводимого пользователей в приложении, физические законы начинают принимать на себя управление всем. Дайте Claude задачу проверить свою работу, перестроить, оптимизировать и повторить этот процесс, пока компания не разорится.
Пользователи становятся администратором API, использующим деньги Anthropic для запуска кода 24/7. Эволюция от чата к агенту происходит за одну ночь, расход увеличивается в 1000 раз. Это уже не плавный переход, а переход в другое состояние.
Поэтому Anthropic отменили безлимитный тариф. Они могли попробовать установить тариф в 2000 долларов в месяц, но урок не в том, что они не предложили достаточное ценовое повышение, а в том, что в этом новом мире любая подписная модель не может обеспечить безлимитное использование.
Ключевое здесь: в этом новом мире не существует жизнеспособной фиксированной подписной цены.
Финансы уже перестали сходиться.
Дилемма всех остальных
Это приводит к безвыходной ситуации для всех остальных компаний.
Каждая компания в области ИИ знает, что оплата по мере использования может их спасти. Они также знают, что это приведет их к краху. Когда вы законопроектируете $0.01/1k токенов, ваши конкуренты, поддерживаемые VC, предлагают безлимитные услуги за 20 долларов в месяц.
Где окажется пользователь?
Это типичная дилемма заключенного:
- Все платят по мере использования → индустрия становится устойчивой
- Все имеют фиксированную ставку → все стремительно идут к банкротству
- Вы платите по мере использования, а другие имеют фиксированную ставку → вы одиноки умираете
- Вы фиксируете ставку, а другие платят по мере использования → вы выигрываете (а потом умираете позже)
Поэтому все выбирают “предательство”. Все субсидируют тяжелых пользователей. Все публикуют графики роста в виде “клюшки для хоккея”. В конце концов, все выпускают объявления о “важных изменениях в ценообразовании”.
Cursor, Lovable, Replit — все они понимают эту математику. Они выбрали рост сегодня, прибыль завтра и в конечном итоге банкротство, но это проблема для следующего CEO.
Честно говоря? Это может быть правильно. В эпоху роста рынка доля бизнеса важнее, чем прибыль. Пока VC готовы выписывать чеки, чтобы прикрыть плохую бизнес-модель…
Спросите Jasper, что происходит, когда музыка останавливается.
Как избежать “принудительной ликвидации”?
Есть ли шанс избежать этой “сжатия затрат” на токены?
Недавно появились слухи, что Cognition проводит финансирование с оценкой 15 миллиардов долларов, хотя их ежегодный регулярный доход (ARR) составляет менее 100 миллионов долларов (я предполагаю, гораздо ближе к 50 миллионам долларов). Это резко контрастирует с Cursor, который финансируется с оценкой в 10 миллиардов долларов на основе ARR в 500 миллионов долларов. Доход в восемь раз выше, но оценка только две трети. Что известно VC о секрете Cognition, о чем мы не знаем? Все они — ИИ-агенты для написания кода. Разве Cognition нашла способ выбраться из этой спирали смерти? (Об этом я подробнее расскажу в следующий раз)
Есть три пути:
1. Оплата по факту с первого дня
Без субсидий. Без “сначала привлеките пользователей, затем монетизируйте”. Только честная бизнес-модель. Теоретически это звучит прекрасно.
Но проблема в том, как найти успешно развивающуюся компанию с оплатой по мере использования в потребительском сегменте ИИ. Потребители ненавидят измерение расходов. Они предпочитают заплатить больше за безлимитный доступ, нежели неожиданно получить счет. Каждая успешная служба подписки для потребителей — Netflix, Spotify, ChatGPT — это фиксированная ставка. Как только вы добавляете измеритель, рост останавливается.
2. Высокие затраты на переход ⇒ высокая прибыльность
Это направление, к которому стремится Devin. Недавно они объявили о сотрудничестве с Citigroup и Goldman Sachs, собираясь задействовать Devin для 40 000 программистов двух компаний. При цене 20 долларов в месяц, это проект на 10 миллионов долларов. Но вот вопрос: вы предпочтете получать 10 миллионов долларов ARR от Goldman Sachs или 500 миллионов долларов ARR от профессиональных разработчиков?
Ответ очевиден: шесть месяцев внедрения, проверки соответствия, аудиты безопасности и сложные процессы закупок означают, что хотя бы один раз выиграть доход от Goldman Sachs сложно, но когда удастся, он никогда не потеряется. Вы можете подписать такие контракты только если единственный принимающий решение в банке ставит свою репутацию на кон — и все сделают всё возможное, чтобы проект удался.
Поэтому только крупнейшие поставщики облачных услуг, продают своим клиентам системы учета (например, CRM / ERP / EHR). Они могут достичь 80-90% прибыльности, потому что чем сложнее убежать от клиента, тем менее они чувствительны к цене.
Как только появится конкурент, вы уже глубоко интегрированы в их бюрократическую систему, и переключение поставщика потребует еще шесть месяцев. Не то чтобы вы не могли уйти, скорее ваш CFO предпочтёт смертную казнь, чем еще раз проходить процесс оценки поставщика.
3. Вертикальная интеграция ⇒ зарабатывать на инфраструктуре
Это способ Replit: объединение сообществ интеллектуальных кодеров с услугами хостинга приложений, управления базами данных, мониторинга развертываний и логирования. Они могут терять деньги на каждом токене, но захватывают ценность на каждом другом уровне технологического стека, который предоставляет новую генерацию разработчиков… просто посмотрите, насколько глубока вертикальная интеграция Replit.
Занимайтесь ИИ как убыточным продуктом для привлечения трафика к услугам, которые могут конкурировать с AWS. Вы не продаете способности вывода, вы продаете все остальное, а вывод — это лишь ваши затраты на маркетинг.
Его прелесть в том, что генерация кода сама по себе создает спрос на хостинг. Каждое приложение где-то должно работать. Каждую базу данных нужно управлять. Каждое развертывание нужно мониторить. Пусть OpenAI и Anthropic воюют в ценах на услуги вывода, до предела снижая прибыльность, в то время как у вас есть всё остальное.
А те компании, которые продолжают играть в “фиксированную ставку, любой ценой расти”? Они просто зомби. Их дорогие похороны запланированы на четвёртый квартал.
Каковы пути вперед
Я постоянно вижу основателей, указывающих на фразу “в следующем году модели станут в 10 раз дешевле”, как будто это спасительное соломинка. Конечно, это произойдёт. Но пользователи также будут ожидать в 20 раз больше от моделей. Эта цель ускользает всё быстрее.
Помните Windsurf? Из-за давления на их прибыльный отчет, они не смогли найти способ выжить. Даже Anthropic с самым интегрированным в мире приложением не смогли наладить работу безлимитной подписной модели.
Хотя обобщение статьи “Леверидж Beta — это всё, что вам нужно” — ”первый шаг важнее, чем быть гениальным” — всё ещё верно, но идти на авось без плана только означает, что вы первыми приходите на кладбище. Здесь нет Google, который готов выписать 2,4 миллиарда долларов на убыточный бизнес. Нет “мы подумаем об этом позже”, потому что “потом” означает, что ваш счет за AWS превысит общий доход.
Так как же построить бизнес в этом мире? Краткий ответ: стать “новым облаком” (neocloud) — именно так будет называться моя следующая статья.
Но, по крайней мере, в следующем году модели будут стоить 10 раз дешевле, верно?