“20 美元包月”正在杀死 AI 公司。Token 降价是幻觉,AI 真正贵的是你的贪婪——慢慢学AI164
写在前面
- 模型降价是个伪命题:降价的是没人用的旧模型,用户永远只为最强的“新旗舰”买单。
- 真正的成本黑洞不是 Token 单价,而是 AI 能力的进化:任务越复杂,消耗越失控,固定月费模式注定被“压垮”。
- AI 订阅模式是场“囚徒困境”:选择按量付费,你会输掉市场;选择包月定价,你会输掉未来。
- 摆脱“烧钱”宿命的出路只有两条:要么构建高转换成本的“护城河”,让企业客户无法离开;要么进行垂直整合,把 AI 当成亏本的引流工具,靠后端的基础设施赚钱。
延伸阅读
- 【Token趣闻】AI收费为何要按Token计费?一探究竟
- 【通俗易懂】7B、70B、175B?AI模型参数到底是啥意思?企业如何选对大模型方案?
- tokens are getting more expensive
Token 的真实成本正在飙升
“语言模型成本将下降 10 倍”的鬼话,救不了被「成本挤压」的 AI 订阅服务
想象一下,你创办了一家公司,并且清楚地知道消费者每月最多只愿意支付 20 美元。你心想,没问题,这是典型的 VC 打法——按成本收费,牺牲利润换增长。你已经算好了客户获取成本(CAC)、客户终身价值(LTV)等所有指标。但有趣的地方来了:你看到了那张广为流传的 a 16 z 图表,显示大语言模型(LLM)的成本每年下降 10倍。
于是你盘算着:今天我用 20 美元/月的价格做到盈亏平衡,明年模型成本降低 10 倍,利润率就能飙升到 90%。亏损只是暂时的,盈利是必然的。
这个逻辑简单到连 VC 助理都能看懂:
- 第一年:以 20 美元/月的价格实现收支平衡
- 第二年:随着计算成本下降 10 倍,利润率达到 90%
- 第三年:开始选购游艇
这种策略可以理解:“大语言模型推理成本每 6 个月下降 3 倍,我们肯定能行。”
但 18 个月过去了,利润率却依然是史无前例的负数……Windsurf 项目已经分崩离析,连 Claude Code 本周也不得不取消了最初 200 美元/月的无限使用套餐。
公司仍在持续失血。模型确实变便宜了——GPT-3.5 的成本比过去低了 10 倍。但不知何故,利润率反而变得更差,而不是更好。
这里面肯定有问题。
过时的模型,如同昨日的报纸
GPT-3.5 的价格是过去的十分之一。但它也像 iPhone 发布会上的翻盖手机一样,无人问津。
当一个新模型作为业界顶尖(SOTA)发布时,99%的需求会立即转移到它身上。消费者对他们使用的产品也有同样的期待。
现在,我们来看看那些在任何特定时期都占据了 99%需求的前沿模型的实际定价历史:
注意到什么了吗?
- 当 GPT-4 以 60 美元的价格推出时,尽管 GPT-3.5(之前的顶尖模型)便宜了 26 倍,但所有人还是选择了 GPT-4。
- 当 Claude 3 Opus 以 60 美元的价格推出时,尽管 GPT-4 已经降价,人们还是纷纷转向了 Claude。
成本下降 10 倍是真实存在的,但仅限于那些性能堪比上古电脑 Commodore 64 的旧模型。
所以,这就是“成本会下降”策略的第一个致命缺陷:市场需求只存在于“最强的那个语言模型”,句号。而最强模型的成本总是大致相同,因为这反映了当前推理技术的极限成本。
指着一辆 1995 年的本田思域说“这车现在便宜多了!”完全是牛头不对马嘴。没错,那辆特定的车是便宜了,但 2025 款丰田凯美瑞的建议零售价是 3 万美元。
当你在使用 AI——无论是编程、写作还是思考——你总是追求最高的质量。没有人会打开 Claude 然后想:“要不我还是用那个烂点的版本,帮老板省点钱吧。”我们天生在认知上就贪得无厌。我们想要我们能得到的最好的“大脑”,尤其是当另一端是我们宝贵的时间时。
模型烧钱的速度,超乎你想象
“好吧,但这听起来还能应付,对吧?我们只要永远保持盈亏平衡不就行了?”
哦,我亲爱的天真孩子。
虽然每一代前沿模型的单位 Token 成本没有变得更贵,但另一件更糟糕的事情发生了:它们消耗的 Token 数量,简直是核爆式增长。
过去,ChatGPT 对一个单句问题的回复也是一个单句。而现在,“深度研究”功能会花 3 分钟规划,20 分钟阅读,再花 5 分钟为你重写一份报告,而 Opus 3 甚至会对一句“你好”运行 20 分钟来响应。
强化学习(RL)和测试时计算(test-time compute)的爆炸式发展,导致了一个没人预料到的结果:AI 能完成的任务长度,每六个月翻一番。过去返回 1000 个 Token 的任务,现在能返回 10万个。
当你把这个趋势外推时,数学计算的结果会变得非常疯狂:
今天,一次 20 分钟的“深度研究”运行成本约为 1 美元。到 2027 年,我们将拥有能够连续运行 24 小时而不会“跑偏”的智能体……再结合前沿模型稳定的价格?这意味着单次运行成本高达 72 美元。每天,每个用户。而且还能异步运行多个。
一旦我们能部署智能体异步运行 24 小时的工作负载,我们就不会只给它一个指令然后等待反馈了。我们会批量调度它们。整个 AI 工作者舰队,并行处理问题,烧起 Token 来就像回到了 1999 年的互联网泡沫时代。
显然——我必须强调这一点——每月 20 美元的订阅费,连支持一个用户每天进行一次 1 美元的深度研究都做不到。但这恰恰是我们正在奔赴的未来。模型能力的每一次提升,都意味着它们能有意义地消耗更多计算资源。
这就像你造了一个更省油的引擎,然后用省下来的燃油效率去造了一辆巨型卡车。没错,每加仑油能跑更远了,但你消耗的总油量也变成了 50 倍。
这就是迫使 Windsurf 被“成本挤压”到爆仓的根本原因——也是任何采用“固定费率订阅 + 高强度 Token 消耗”商业模式的创业公司正面临的绝境。
Anthropic 为对冲“成本挤压”的英勇尝试
Claude Code 的无限量套餐实验,是我们见过的应对这场风暴的最精妙尝试。他们用尽了浑身解数,但最终还是被击垮了。
他们的策略确实非常聪明:
1. 定价高出 10 倍
在 Cursor 收费 20 美元/月时,他们定价 200 美元/月。在开始失血前,给自己留出更多缓冲空间。
2. 根据负载自动伸缩模型
当任务繁重时,从 Opus($75/百万 Token)切换到 Sonnet($15/百万 Token)。用 Haiku 来优化阅读任务。这就像 AWS 的自动伸缩,只不过是针对“大脑”的。
他们几乎可以肯定,是把这种行为直接构建到了模型权重中,这是一种我们未来可能会看到更多的范式转变。
3. 将处理任务卸载到用户机器上
当用户有现成的闲置 CPU 时,为什么还要自己启动沙盒呢?
然而,尽管有这么多工程上的巧思,Token 的消耗量仍然如超新星爆发般增长。
一百亿。一百亿个 Token。这相当于 12500 本《战争与和平》。在一个月内。
怎么做到的?即使每次运行 10 分钟,一个人怎么能消耗掉 100 亿个 Token?
事实证明,10-20 分钟的连续运行时间,刚好足够让人们发现“for 循环”的妙用。一旦你将 Token 消耗与用户在应用内的在线时长解耦,物理定律就开始接管一切。给 Claude 一个任务,让它检查自己的工作,重构,优化,然后重复这个过程,直到公司破产。
用户变成了 API 的调度大师,用 Anthropic 的钱跑着一个 24/7 的代码转换引擎。从聊天到智能体的演变,一夜之间就完成了。消耗量增加了 1000 倍。这是相变,而不是渐变。
所以 Anthropic 取消了无限量套餐。他们本可以尝试 2000 美元/月,但教训不在于他们收费不够高,而在于,在这个新世界里,任何订阅模式都无法提供无限使用。
关键在于:在这个新世界,根本不存在一个可行的固定订阅价格。
这盘账,已经从根本上算不平了。
其他所有人的囚徒困境
这让其他所有公司都陷入了一个无解的困境。
每家 AI 公司都知道,按使用量付费能救他们。他们也知道这会杀了他们。当你负责任地按$0.01/1 k Token 收费时,你那拿着 VC 投资的竞争对手正以 20 美元/月的价格提供无限量服务。
猜猜用户会去哪?
典型的囚徒困境:
- 所有人都按量付费 → 行业可持续发展
- 所有人都按固定费率 → 竞相走向破产
- 你按量付费,别人按固定费率 → 你独自死掉
- 你按固定费率,别人按量付费 → 你赢了(然后晚点再死)
所以,所有人都选择了“背叛”。所有人都补贴重度用户。所有人都晒出“曲棍球杆式”的增长曲线图。最终,所有人都发布了“重要的定价更新”公告。
Cursor, Lovable, Replit——他们都懂这笔账。他们选择了今天的增长,明天的利润,和最终的破产,但那是下一任 CEO 的问题。
说实话?这或许是对的。在一场圈地运动中,市场份额比利润率更重要。只要 VC 们还愿意继续开支票来掩盖糟糕的单位经济模型……
去问问 Jasper,当音乐停止时会发生什么。
如何避免被“强制平仓”?
我们还有可能避免这场 Token 的“成本挤压”吗?
最近有传言称,Cognition 正在以 150 亿美元的估值进行融资,而其对外公布的年经常性收入(ARR)甚至不到 1 亿美元(我猜更接近 5000 万美元)。这与 Cursor 在 5 亿美元 ARR 的基础上以 100 亿美元估值融资形成鲜明对比。收入高出八倍多,估值却只有三分之二。VC 们到底知道些什么我们不知道的关于 Cognition 的秘密?它们都是编写代码的 AI 智能体。难道 Cognition 找到了摆脱这个死亡螺旋的方法?(下次我再详细探讨这个话题)
有三条出路:
1. 从第一天起就采用按使用量付费
没有补贴。没有“先获取用户,后变现”。只有诚实的经济模型。理论上听起来很棒。
但问题是,给我找一个正在爆发式增长的、按使用量付费的消费级 AI 公司看看。消费者讨厌计量收费。他们宁愿为无限量套餐多付钱,也不愿收到一张意料之外的账单。每一个成功的消费者订阅服务——Netflix、Spotify、ChatGPT——都是固定费率的。一旦你加上一个计量表,增长就死了。
2. 极高的转换成本 ⇒ 高利润率
这就是 Devin 全力以赴的方向。他们最近宣布了与花旗银行和高盛的合作,将为这两家公司的各 4 万名软件工程师部署 Devin。按每月 20 美元计算,这是一个 1000 万美元的项目。但问题来了:你宁愿从高盛那里获得 1000 万美元的 ARR,还是从专业开发者那里获得 5 亿美元的 ARR?
答案是显而易见的:长达六个月的实施周期、合规审查、安全审计、繁琐的采购流程,意味着高盛的收入虽然难赢,但一旦赢下就绝不可能流失。你只有在银行的唯一决策者把自己的声誉押在你身上时,才能拿到这些合同——然后所有人都会尽其所能确保项目成功。
这也是为什么除了超大规模云服务商之外,最大的软件公司都是那些向这类客户销售“记录系统”(System-of-Record)的公司(如 CRM / ERP / EHRs)。它们也都能实现 80-90%的利润率,因为客户越难流失,他们对价格就越不敏感。
等到竞争对手出现时,你已经深入对方的官僚体系,切换供应商需要又一个六个月的销售周期。不是说你不能离开,而是你的 CFO 宁愿死也不想再经历一次供应商评估。
3. 垂直整合 ⇒ 在基础设施上赚钱
这是 Replit 的玩法:将编码智能体与应用托管、数据库管理、部署监控、日志记录等服务捆绑在一起。在每个 Token 上都亏钱,但在为新一代开发者提供的技术栈的每一个其他层面上捕获价值……看看 Replit 的垂直整合程度有多深就知道了。
把 AI 当作亏本的引流产品,来推动那些能与 AWS 竞争的服务的消费。你卖的不是推理能力,而是其他一切,推理只是你的营销开支。
其高明之处在于,代码生成天然地创造了对托管的需求。每个应用都需要地方运行。每个数据库都需要管理。每个部署都需要监控。让 OpenAI 和 Anthropic 在推理服务上进行价格战,杀到零利润,而你则拥有其他所有的一切。
那些还在玩“固定费率、不惜一切代价增长”游戏的公司?它们都是行尸走肉。只是它们的昂贵葬礼被安排在了第四季度。
前路何方
我总是看到创始人们指着“明年模型会便宜 10 倍!”这句话,仿佛抓住了一根救命稻草。当然会。但你的用户对模型的期望也会提高 20 倍。那个球门,正在离你飞速远去。
还记得 Windsurf 吗?由于 Cursor 对其利润表的压力,他们没能找到脱身之法。即使是拥有全球最垂直整合应用层的 Anthropic,也无法让一个无限使用的固定订阅模式运转起来。
尽管“杠杆 Beta 就是你所需要的一切”一文的总结——即“抢先一步胜过绝顶聪明”——仍然正确,但没有计划的抢先,也只是意味着你比别人先到坟墓而已。这里没有谷歌会为负利润业务开出 24 亿美元的支票。也没有“我们以后再想办法”,因为“以后”就意味着你的 AWS 账单会超过你的总收入。
那么,在这个世界里,你该如何建立一家企业?简短的答案是,成为一个“新云”(neocloud)——这也是我下一篇文章的标题。
但至少,明年的模型会便宜 10 倍,对吧。