“20ドルパッケージ”がAI企業を殺している。トークンの値下げは幻想で、AIで本当に高いのはあなたの貪欲さ——ゆっくり学ぶAI164
前書き
- モデルの値下げは偽の命題:値下げするのは使用されていない旧モデルであり、ユーザーは最も強力な「新しいフラッグシップ」にのみお金を支払う。
- 真のコストのブラックホールはトークン単価ではなく、AI能力の進化である:タスクが複雑になるほど消費が増え、固定月額料金モデルは「圧迫される」運命にある。
- AIのサブスクリプションモデルは「囚人のジレンマ」であり:使用量に応じて支払う選択をすれば市場を失い、月額定価を選べば未来を失うことになる。
- 「資金燃焼」から脱却する道は2つだけ:高い転換コストの「堀」を構築し、企業顧客が離れられないようにするか、垂直統合を行い、AIを赤字の誘引ツールとして使い、基盤インフラストラクチャから収益を得る。
関連読書
- 【トークンの豆知識】AI料金はなぜトークン単位で計算されるのか?探る
- 【わかりやすい解説】7B、70B、175B?AIモデルのパラメータは一体何を意味するのか?企業はどのように大規模モデルを選ぶべきか?
- tokens are getting more expensive
トークンの真のコストが急上昇中
「言語モデルのコストが10倍に下がる」という虚言では、コストに圧迫されたAIサブスクリプションサービスは救われない
想像してみてください。あなたは会社を設立し、消費者が毎月支払う意向がある最大額が20ドルであることを明確に認識しています。「問題ない、これは典型的なVCの戦略だ——コストカバーで利益を犠牲にして成長を図る。」と考え、顧客獲得コスト(CAC)や顧客生涯価値(LTV)などのすべての指標を計算済みでした。しかし、面白いことに、あなたは多くの人に知られているa16zのグラフを見つけ、大規模言語モデル(LLM)のコストが毎年10倍に減少していることを発見しました。
そうして、あなたは計算します:今日、月額20ドルで損益分岐点に達し、翌年にはモデルのコストが10倍に下がれば、利益率は90%に達します。赤字は一時的なもので、利益は必然的です。
この論理は非常にシンプルで、VCのアシスタントですら理解できるものでした:
- 第1年:月額20ドルで収支均衡を達成
- 第2年:計算コストが10倍下がり、利益率が90%に達する
- 第3年:ヨットを購入する
この戦略は理解できます:“大規模言語モデルの推論コストは6ヶ月ごとに3倍に下がっているので、うまくいくはず。”
しかし、18ヶ月が経過したにもかかわらず、利益率は未曾有のマイナスのまま… Windsurfプロジェクトは崩壊し、Claude Codeもついに初の月額200ドルの無制限利用プランをキャンセルせざるを得ませんでした。
会社は依然として資金を失い続けています。モデルは確かに安くなりました——GPT-3.5のコストは過去の10分の1です。しかし、なぜか利益率はさらに悪化しており、良くなってはいません。
ここには明らかに問題があります。
時代遅れのモデルは、昨日の新聞のように
GPT-3.5の価格は過去の十分の一ですが、それもiPhoneの発表会での折りたたみ式携帯電話と同じく、誰も注目しません。
業界のトップモデル(SOTA)が新たに発表されると、99%の需要はすぐにそれに移行します。消費者は他の製品に対しても同様の期待を持っています。
さて、特定の期間に99%の需要を占める最前線モデルの実際の価格設定履歴を見てみましょう:
何かに気づきましたか?
- GPT-4が60ドルの価格で発売されると、之前のトップモデルであるGPT-3.5が26倍安くなったにもかかわらず、皆がGPT-4を選択しました。
- Claude 3 Opusが60ドルで発売された時、GPT-4が値下がりしていても、人々はClaudeに向かいました。
コストが10倍下がるのは現実ですが、それはパフォーマンスが上古のコンピュータ Commodore 64に匹敵する旧モデルに限られています。
したがって、「コストは下がる」という戦略の最初の致命的な欠陥は、マーケットの需要は常に「最強の言語モデル」に存在し、そのコストは技術的限界を反映するため、常に大体同じであるということです。
1995年のホンダ・シビックを指して「この車は今安くなった!」と言うのは完全に的外れです。「特定の」その車は確かに安くなりましたが、2025年モデルのトヨタ・カムリの推奨小売価格は3万ドルです。
AIを使用する際——プログラミング、執筆、思考——常に最高の品質を追求します。誰もClaudeを開いて「このレベルの低いバージョンを使って、ボスを助けるためにお金を節約しよう」と考えることはありません。私たちは本質的に知的好奇心が強く、得られる最良の「脳」を求めるのです。特に、貴重な時間を消費する際には尚更です。
モデルの資金消費の速度は、あなたの想像を超えている
「まあ、それなら何とか対応できると思われる、収支均衡を保てば良いのでは?」と思います。
おお、私の愛しい無邪気な子よ。
最前線モデルの単位トークンコストは変わっていないが、より悪い事態が発生しました:それらが消費するトークンの数量が、爆発的に増加しているのです。
以前は、ChatGPTが一文の質問に対して一文で回答していました。しかし今では、「深い研究」機能は3分間の計画、20分の読書、5分間のレポートの再作成に費やし、Opus 3は「こんにちは」に対して20分もかけて応答します。
強化学習(RL)やテスト時計算(test-time compute)の急速な発展により、AIが完了できるタスクの長さは、毎月倍増する結果を生み出しました。以前は1000トークンのタスクが、今では10万トークンを返せるのです。
このトレンドを外挿すると、数学的な結果は非常にクレイジーなものになります:
今日、20分の「深い研究」は約1ドルの運用コストです。2027年には、24時間連続して「脱線」することなく稼動できる知能エージェントが得られます…そしてこれを最前線モデルの安定した価格と組み合わせると?これにより、単一の稼動コストは72ドルに達します。毎日、各ユーザーあたり。そして、非同期的に複数の稼動を行うことも可能です。
一旦、スマートエージェントが24時間非同期で稼働するワークロードを展開できると、我々は1つの指示を与え、そのフィードバックを待つだけにはなりません。大量にスケジュールします。AI作業者の艦隊全体が、並行して問題に取り組み、トークンを消費します。それは1999年のインターネットバブル時代に戻ったかのようです。
明らかに——これを強調しなければなりません——月額20ドルのサブスクリプション料金では、1日に1ドルの深い研究を行なうためのユーザーすら支えられません。しかし、これはまさに我々が向かおうとする未来なのです。モデル能力の向上は、意味のある計算リソースをより多く消費できることを意味します。
まるで、さらに燃費の良いエンジンを作った後に、その省エネを使って巨体のトラックを製造するかのようです。確かに、1ガロンの燃料でより遠くまで走るようになりましたが、消費する総燃料量も50倍になったのです。
これが、Windsurfが「コスト圧迫」により破綻に追いやられた根本的な原因であり、固定料金サブスクリプションと高集中トークン消費のビジネスモデルを採用する企業が直面する絶体絶命の状況です。
Anthropicによる「コスト圧迫」に対抗する勇敢な試み
Claude Codeの無制限プランの実験は、我々が見た中でこの嵐に対抗する最も巧妙な試みでした。彼らは全力を尽くしましたが、最終的には打ちひしがれてしまいました。
彼らの戦略は確かに非常に賢明でした:
1. 料金を10倍に設定
Cursorが月額20ドルである際、彼らは月額200ドルに設定しました。出血を始める前に、より多くのバッファを確保しました。
2. 負荷に応じてモデルを自動スケーリング
タスクが重い時には、Opus($75/百万トークン)からSonnet($15/百万トークン)に切り替えます。Haikuを用いてリーディングタスクを最適化します。これはAWSの自動スケーリングのようなもので、「脳」に向けたものです。
彼らはおそらく、この行動をモデルの重みの中に直接構築したと確信しています。今後、我々がより多くのパラダイムシフトを目にする可能性のある一形態です。
3. タスク処理をユーザーの機械にオフロード
ユーザーに使える余剰CPUがあるとき、なぜ自分でサンドボックスを起動するのですか?
しかし、これだけの工夫にもかかわらず、トークンの消耗量は超新星爆発のように増加しました。
100億。100億トークン。それは12500冊の『戦争と平和』に相当します。1ヶ月で。
どうやって実現したのか?仮に各実行が10分かかるとして、一体どうやって100億トークンを消費するのか?
実は、10〜20分の連続稼動時間があれば、人々は「forループ」の妙技を発見するのに十分でした。トークンの消費をユーザーがアプリ内でオンラインで過ごす時間と結びつけることができると、物理法則が全てを支配し始めます。Claudeにタスクを与え、自らの仕事をチェックし、再構築し、最適化し、このプロセスを繰り返し、会社が破産するまで続けます。
ユーザーはAPIのスケジューリングマスターとして、Anthropicの資金を使いながら24/7のコード変換エンジンを稼動させています。チャットからエージェントへの進化が、瞬く間に完了しました。その消費量は1000倍に増加しました。これは相転移であり、漸進的な変化ではありません。
そのため、Anthropicは無制限プランを撤回しました。彼らは2000ドル/月の試みをすることもできたでしょうが、教訓は彼らの料金が十分に高くなかったのではなく、この新世界ではどのサブスクリプションモデルも無制限利用を提供できないということです。
重要なのは:この新世界には、実行可能な固定料金のサブスクリプション価格が存在しないということです。
その計算は、基本的に成り立たなくなってしまいました。
他のすべての企業の囚人のジレンマ
これが他のすべての企業を解決不可能なジレンマに陥らせています。
すべてのAI企業は、使用量に応じて支払うことが彼らを救うことを知っています。また、これが彼らを殺すことも知っています。あなたが責任を持って$0.01/1kトークンで料金を設定する際、VCの投資を受けている競争相手は、月額20ドルで無制限のサービスを提供しているのです。
ユーザーはどこに行くと思いますか?
典型的な囚人のジレンマ:
- みんなが使用量に応じて支払う → 業界の持続可能性
- みんなが固定料金を選ぶ → 破産に向かって競争
- あなたが使用量に応じて支払って、他の人が固定料金を選ぶ → あなたは一人で死にゆく
- あなたが固定料金で、他の人が使用量に応じて支払う → あなたは勝つ(そして後で死ぬ)
このため、皆が「裏切る」ことを選びました。すべての人が重度のユーザーを subsidize(補助)し、みんなが「ホッケー・スティック」のような成長曲線を公開しました。最終的に、全員が「重要な料金更新」のアナウンスを出しました。
Cursor、Lovable、Replit——彼らはこの計算を理解しています。彼らは今日の成長、明日の利益、そして最終的な破産を選びましたが、これは次のCEOの問題です。
正直に言って?おそらく、それは正しい選択です。一回限りの競争において、マーケットシェアは利益率よりも重要です。VCたちが悪化したユニット経済モデルをカバーするために小切手を出し続ける限り…
Jasperに、音楽が止まったときに何が起こるか聞いてみてください。
「強制平倉」を回避するには?
我々はまだこのトークンの「コスト圧迫」を回避する可能性がありますか?
最近、Cognitionが150億ドルの評価額で資金調達しているという噂がありますが、彼らが公開した年間定期収入(ARR)は1億ドルにも満たず(私は5000万ドルに近いと思います)、Cursorが5億ドルのARRを基に100億ドルの評価額で資金調達していることと対照的です。収益が8倍も高く、評価額はわずか2/3です。VCたちはCognitionに関する秘密の何を知っているのでしょうか?彼らはすべてコードを書くAIインテリジェントです。Cognitionはこの死のスパイラルから脱出する方法を見つけたのでしょうか?(次回、このトピックを詳しく考察します)
逃げ道は3つあります:
1. 初日から使用量に応じて支払う
補助金なし。「ユーザーを獲得後、収益化」の戦略はなし。誠実な経済モデルだけです。理論的には素晴らしい考え方です。
しかし問題は、急成長している消費者向けAI企業がこのモデルを採用している例を見つけるのは容易ではありません。消費者はメーター課金に嫌悪感を抱いています。彼らは無制限プランに多くの費用を払う方が、予期しない請求書を受け取るよりも良いのです。すべての成功した消費者向けサブスクリプションサービス——Netflix、Spotify、ChatGPT——は固定料金です。一度メーターを加えると、成長は停滞します。
2. 非常に高い転換コスト ⇒ 高い利益率
これがDevinが全力を注いでいる方向性です。彼らは最近、シティバンクやゴールドマン・サックスと提携し、各社の4万人のソフトウェアエンジニア向けにDevinを展開することを発表しました。月額20ドルで、これは1000万ドルのプロジェクトです。しかし問題は、あなたはゴールドマンから1000万ドルのARRを得る方が良いのか、それとも専門的な開発者から5億ドルのARRを得る方が良いのかですか?
答えは明らかです:導入には6ヶ月の周期がかかり、コンプライアンスのチェック、安全監査、煩雑な調達プロセスが必要です。そのため、たとえ高盛の収益が得難くても、一度得られたら絶対に流失しません。唯一の決定権を持つ銀行の意思決定者が自らの評判をあなたに賭けるときだけ、これらの契約を獲得できるのです——それからすべての関係者がプロジェクトを成功させるために全力を尽くします。
これが、超大規模クラウドサービスプロバイダーを除き、最大のソフトウェア会社が「システム・オブ・レコード」(CRM / ERP / EHRsなど)をこの種の顧客に販売する企業である理由です。それらは80-90%の利益率を実現できるのです。顧客が容易に流出しないほど、価格に対して敏感ではなくなるのです。
競争相手が現れる頃には、あなたはすでに対方の官僚制度に深く入り込んでおり、サプライヤーを切り替えるには別の6ヶ月の販売周期が必要です。離れられないわけではないですが、CFOはもう一度サプライヤー評価を受けるためには、命を懸けたくないのです。
3. 垂直統合 ⇒ 基盤で収益を得る
これがReplitのアプローチです:コーディングエージェントをアプリホスティング、データベース管理、デプロイ監視、ロギングなどのサービスと統合することです。各トークンで赤字でも、新世代の開発者に提供する技術スタックの他のすべての層から価値を獲得します……Replitの垂直統合の深さを見ればわかりますね。
AIを赤字の誘引製品として扱い、AWSと競合できるサービスの消費を促進します。販売するのは推論能力ではなく、その他のすべてのことであり、推論はあなたのマーケティング費用に過ぎません。
その戦略の巧妙さは、コード生成が自動的にホスティングの需要を生み出すことです。すべてのアプリケーションが実行のための場所を必要とし、すべてのデータベースには管理が必要です。すべてのデプロイには監視が必要です。OpenAIやAnthropicが推論サービスで価格競争を行い、利益がゼロになるまで費やす際、あなたは他のすべてを所有しているのです。
「固定料金を用い、成長に全力を尽くす」ゲームを続けている企業は?彼らは歩く死体に過ぎません。ただし、彼らの高価な葬式は第4四半期に計画されています。
前路はどこにあるのか
私は常に創業者が「来年はモデルが10倍安くなる!」と言うのを見ますが、まるで救命の道を見つけたかのようです。もちろん安くなるでしょう。でも、あなたのユーザーはモデルの期待が20倍高まることも忘れないでください。そのゴールは、急速に遠ざかっています。
Windsurfのことを思い出してもらえますか?Cursorの利益表への圧力のため、彼らは脱出の手段を見つけられなかったのです。世界で最も垂直に統合されたアプリ層を持つAnthropicでさえ、無制限の固定サブスクリプションモデルを稼働させることはできませんでした。
「レバレッジを持ったベータがあなたに必要なすべて」で要約されたように——「先んじたところが勝つ」——今でも正確ですが、計画なしの先んじることは、単に他より早く墓に到達することを意味するだけです。ここには、Googleが赤字のビジネスに24億ドルの支票を出すことはありません。また「後で考えればいい」という選択肢もありません。なぜなら「後で」は、あなたのAWS請求があなたの総収入を上回ることを意味します。
さて、この世界でどうやってビジネスを設立すれば良いのでしょうか?短い答えは、新しい「クラウド」(neocloud)になることです——これが私の次の記事のタイトルでもあります。
しかし、少なくとも来年はモデルが10倍安いというのは事実です、そうでしょう。