Viết lời mở đầu

  • Giá mô hình giảm thực sự là một vấn đề hão huyền: những gì giảm giá là các mô hình cũ không ai sử dụng, người dùng sẽ luôn chỉ trả tiền cho “flagship” mới mạnh nhất.
  • Hố đen chi phí thực sự không phải là giá mỗi Token, mà là sự tiến hóa của khả năng AI: khi nhiệm vụ trở nên phức tạp hơn, mức tiêu thụ sẽ mất kiểm soát, và mô hình phí cố định hàng tháng sẽ bị “đè bẹp”.
  • Mô hình đăng ký AI là một “vấn đề của người tù”: nếu chọn trả theo lượng tiêu thụ, bạn sẽ mất thị trường; nếu chọn giá gói hàng tháng, bạn sẽ mất tương lai.
  • Có hai cách để thoát khỏi số phận “đốt tiền”: hoặc là xây dựng một “hào thành” có chi phí chuyển đổi cao, khiến khách hàng doanh nghiệp không thể rời bỏ; hoặc thực hiện tích hợp dọc, coi AI như một công cụ kéo khách hàng có lỗ, và kiếm lợi từ hạ tầng phía sau.

Đọc thêm

Chi phí thực sự của Token đang tăng vọt

Những lời hứa “chi phí mô hình ngôn ngữ sẽ giảm 10 lần” không cứu nổi dịch vụ đăng ký AI bị “ép giá”.

image.png

Hãy tưởng tượng rằng bạn đã thành lập một công ty và biết rõ rằng người tiêu dùng chỉ sẵn lòng trả tối đa 20 đô la mỗi tháng. Bạn nghĩ rằng không vấn đề gì, đây là cách điển hình của đầu tư mạo hiểm (VC) — tính phí theo chi phí, hy sinh lợi nhuận để đổi lấy tăng trưởng. Bạn đã tính đến chi phí thu hút khách hàng (CAC), giá trị lâu dài của khách hàng (LTV) và tất cả các chỉ số khác. Nhưng điều thú vị là bạn nhìn thấy biểu đồ nổi tiếng từ a16z, cho thấy chi phí của các mô hình ngôn ngữ lớn (LLM) giảm 10 lần mỗi năm.

Nguồn a16z

Vậy nên bạn tính toán: hôm nay bạn sẽ hòa vốn với mức giá 20 đô la/tháng, và năm sau, khi chi phí mô hình giảm 10 lần, tỷ lệ lợi nhuận sẽ lên tới 90%. Lỗ chỉ là tạm thời, và lợi nhuận là điều không thể tránh khỏi.

Logic này đơn giản đến mức cả trợ lý VC cũng có thể hiểu:

  • Năm thứ nhất: đạt điểm hòa vốn với giá 20 đô la/tháng
  • Năm thứ hai: với chi phí tính toán giảm 10 lần, tỷ lệ lợi nhuận đạt 90%
  • Năm thứ ba: bắt đầu mua sắm du thuyền

Chiến lược này có thể hiểu được: “Chi phí suy diễn của mô hình ngôn ngữ lớn giảm 3 lần mỗi 6 tháng, chúng ta chắc chắn có thể làm được.”

Nhưng 18 tháng đã trôi qua, tỷ lệ lợi nhuận vẫn là số âm chưa từng có… Dự án Windsurf đã tan rã, và cả Claude Code tuần này cũng buộc phải hủy bỏ gói không giới hạn ban đầu với giá 200 đô la/tháng.

Công ty vẫn đang tiếp tục thua lỗ. Mô hình thực sự đã trở nên rẻ hơn — chi phí của GPT-3.5 đã giảm 10 lần so với trước đây. Nhưng không hiểu vì sao, tỷ lệ lợi nhuận lại trở nên tệ hơn, thay vì tốt hơn.

Rõ ràng là có vấn đề gì đó ở đây.

Mô hình lỗi thời, giống như báo cũ

Giá của GPT-3.5 chỉ bằng một phần mười so với trước đây. Nhưng nó giống như điện thoại gập trong buổi ra mắt iPhone, không ai hỏi đến.

Khi một mô hình mới được công bố như là mẫu mực hàng đầu trong ngành (SOTA), 99% nhu cầu sẽ ngay lập tức chuyển sang nó. Người tiêu dùng cũng có những kỳ vọng tương tự về sản phẩm họ sử dụng.

Bây giờ, hãy cùng xem lịch sử định giá thực tế của những mô hình hàng đầu đáp ứng 99% nhu cầu trong mọi khoảng thời gian nhất định:

Nguồn iaiuse.com

Có điều gì bạn nhận thấy không?

  • Khi GPT-4 được phát hành với giá 60 đô la, mặc dù GPT-3.5 (mô hình hàng đầu trước đó) đã giảm giá 26 lần, mọi người vẫn chọn GPT-4.
  • Khi Claude 3 Opus được phát hành với giá 60 đô la, mặc dù giá của GPT-4 đã giảm, nhưng mọi người vẫn chuyển sang Claude.

Giá giảm 10 lần là có thật, nhưng chỉ áp dụng cho những mô hình cũ có hiệu suất kém như máy tính Commodore 64.

Vì vậy, đây chính là thiếu sót chết người đầu tiên của chiến lược “giá sẽ giảm”: nhu cầu thị trường chỉ tồn tại ở “mô hình ngôn ngữ mạnh nhất”, hết câu. Và chi phí của mô hình mạnh nhất luôn gần như giống nhau, vì nó phản ánh giới hạn chi phí của công nghệ suy diễn hiện tại.

Câu nói “Chiếc Honda Civic năm 1995 này hiện giờ đã rẻ hơn rất nhiều!” hoàn toàn vô nghĩa. Đúng là chiếc xe* cụ thể * đó đã trở nên rẻ hơn, nhưng giá đề xuất cho chiếc Toyota Camry 2025 là 30.000 đô la.

Khi bạn đang sử dụng AI — bất kể là lập trình, viết lách hay tư duy — bạn luôn theo đuổi chất lượng cao nhất. Không ai mở Claude lên rồi nghĩ: “Thôi, tôi sẽ dùng phiên bản tệ hơn, để tiết kiệm tiền cho sếp.” Chúng ta bẩm sinh đã có lòng tham trong nhận thức. Chúng ta muốn có “bộ não” tốt nhất có thể, nhất là khi liên quan đến thời gian quý giá của mình.

Tốc độ tiêu thụ của mô hình nhanh chóng vượt xa tưởng tượng

“Được rồi, nhưng điều này nghe vẫn khả thi, đúng không? Chúng ta chỉ cần duy trì hòa vốn mãi mãi thôi phải không?”

Ôi, đứa trẻ ngây thơ!

Mặc dù chi phí mỗi Token của các mô hình tiên tiến không trở nên đắt hơn, nhưng một điều tồi tệ hơn đã xảy ra: số lượng Token họ tiêu thụ, tăng trưởng theo kiểu hạt nhân.

Trước đây, ChatGPT chỉ tốn một câu để trả lời một câu hỏi đơn giản. Nhưng bây giờ, chức năng “nghiên cứu sâu” sẽ mất 3 phút để lên kế hoạch, 20 phút để đọc, và sau đó mất 5 phút để viết lại một báo cáo cho bạn, trong khi Opus 3 thậm chí sẽ mất 20 phút chỉ để phản hồi một câu “xin chào”.

Sự phát triển bùng nổ của học tăng cường (RL) và tính toán trong thời gian thử nghiệm (test-time compute) đã dẫn đến một kết quả mà không ai ngờ tới: chiều dài nhiệm vụ mà AI có thể thực hiện gấp đôi mỗi sáu tháng. Các nhiệm vụ trước đây trả về 1000 Token, giờ có thể trả về 100.000 Token.

Nguồn METR

Khi bạn ngoại suy xu hướng này, kết quả tính toán trở nên cực kỳ điên rồ:

Hôm nay, một “nghiên cứu sâu” kéo dài 20 phút có chi phí khoảng 1 đô la. Đến năm 2027, chúng ta sẽ có những cá thể có thể chạy liên tục 24 giờ mà không bị “lệch hướng”… Cộng thêm với giá cả ổn định của mô hình hàng đầu? Điều này có nghĩa là chi phí một lần chạy cao tới 72 đô la. Mỗi ngày, cho mỗi người dùng. Và bạn có thể chạy nhiều việc đồng thời nữa.

Một khi chúng ta có thể triển khai các cá thể hoạt động đồng bộ 24 giờ, chúng ta sẽ không chỉ đưa cho chúng một chỉ dẫn rồi chờ phản hồi. Chúng ta sẽ lên lịch cho nhiều công việc cùng một lúc. Một toàn bộ hạm đội nhân viên AI, đồng thời xử lý các vấn đề, đốt cháy Token như thể quay trở lại thời kỳ bong bóng internet năm 1999.

Rõ ràng — tôi phải nhấn mạnh điều này — khoản phí thuê bao hàng tháng 20 đô la thậm chí không đủ để hỗ trợ một người dùng thực hiện một nghiên cứu sâu hàng ngày có giá 1 đô la. Nhưng đó chính xác là tương lai mà chúng ta đang hướng tới. Mỗi lần tăng cường khả năng của mô hình, điều đó có nghĩa là chúng có thể tiêu tốn nhiều tài nguyên tính toán hơn một cách có ý nghĩa.

Điều này giống như bạn chế tạo ra một động cơ tiết kiệm nhiên liệu hơn, rồi cùng với hiệu suất tiết kiệm được mà chế tạo ra một chiếc xe tải khổng lồ. Đúng là mỗi gallon nhiên liệu có thể chạy xa hơn, nhưng tổng lượng nhiên liệu bạn tiêu thụ sẽ biến thành gấp 50 lần.

Đây chính là lý do sâu xa khiến Windsurf buộc phải chịu “đè giá” đến bờ vực — và cũng là tình thế khó khăn mà bất kỳ công ty khởi nghiệp nào áp dụng mô hình doanh thu “gói cố định + tiêu thụ Token cao” đang phải đối mặt.

Sự nỗ lực dũng cảm của Anthropic để chống lại “ép giá”

Thí nghiệm gói không giới hạn của Claude Code là nỗ lực tinh tế nhất mà chúng ta đã thấy để đối phó với cơn bão này. Họ đã cố gắng hết sức, nhưng cuối cùng vẫn bị đánh bại.

Chiến lược của họ thực sự rất thông minh:

1. Định giá cao gấp 10 lần

Trong khi Cursor thu phí 20 đô la/tháng, họ định giá 200 đô la/tháng. Họ để lại nhiều không gian đệm hơn cho mình trước khi bắt đầu chi phí.

2. Tự động mở rộng mô hình dựa trên khối lượng công việc

Khi khối lượng công việc tăng cao, chuyển đổi từ Opus (75 đô la/triệu Token) sang Sonnet (15 đô la/triệu Token). Sử dụng Haiku để tối ưu hóa nhiệm vụ đọc. Điều này giống như sự mở rộng tự động của AWS, chỉ có điều là nhằm vào “bộ não”.

Họ gần như chắc chắn đã xây dựng hành vi này trực tiếp vào trọng số của mô hình, đây là một kiểu thay đổi mà chúng ta có thể sẽ thấy nhiều hơn trong tương lai.

3. Chuyển tải nhiệm vụ lên máy của người dùng

Khi người dùng có CPU rảnh, tại sao lại phải khởi động sandbox riêng chứ?

Tuy nhiên, mặc dù có nhiều tinh tế kỹ thuật như vậy, lượng Token tiêu thụ vẫn phát triển như một siêu sao nổ.

Nguồn Vibreank

Một tỷ token. Một tỷ token. Điều này tương đương với 12.500 cuốn “Chiến tranh và hòa bình”. Trong vòng một tháng.

Làm thế nào mà có thể? Ngay cả khi mỗi lần chạy mất 10 phút, làm sao một người có thể tiêu tốn 1 tỷ token?

Hóa ra, thời gian chạy liên tục 10-20 phút vừa vặn đủ để mọi người khám phá được “cách sử dụng vòng lặp for”. Khi bạn tách rời lượng Token tiêu thụ với thời gian trực tuyến của người dùng trong ứng dụng, những quy luật vật lý sẽ bắt đầu chiếm ưu thế. Đưa một nhiệm vụ vào Claude để nó kiểm tra công việc của chính mình, tái cấu trúc, tối ưu hóa, rồi lặp lại cho đến khi công ty phá sản.

Người dùng trở thành bậc thầy lập lịch API, sử dụng tiền của Anthropic để vận hành một động cơ chuyển đổi mã liên tục 24/7. Sự chuyển mình từ trò chuyện sang cá thể xảy ra chỉ trong một đêm. Lượng tiêu thụ tăng gấp 1000 lần. Đây là một phép chuyển thể, không phải là sự chuyển đổi dần dần.

Vì vậy, Anthropic đã hủy bỏ gói không giới hạn. Họ hoàn toàn có thể thử nghiệm với giá 2000 đô la/tháng, nhưng bài học không phải ở việc họ không thu phí đủ cao, mà ở việc trong thế giới mới này, không có mô hình đăng ký nào có thể cung cấp sự sử dụng không giới hạn.

Điểm chính là: trong thế giới mới này, không hề tồn tại một mức phí đăng ký cố định khả thi.

Bài toán này đã không thể giải quyết từ gốc.

Vấn đề của tất cả mọi người

Điều này đã khiến tất cả các công ty còn lại rơi vào một tình huống nan giải.

Mỗi công ty AI đều biết rằng tính phí theo lượng tiêu thụ có thể cứu họ. Họ cũng biết điều đó sẽ giết chết họ. Khi bạn trách nhiệm thu phí 0.01 đô la/1k Token, thì đối thủ đang được VC đầu tư sẽ cung cấp dịch vụ không giới hạn với giá 20 đô la/tháng.

Hãy đoán xem người dùng sẽ đi đâu?

Một tình huống điển hình của người tù:

  • Tất cả đều tính phí theo lượng tiêu thụ → Ngành công nghiệp bền vững
  • Tất cả đều tính phí theo mức cố định → Cạnh tranh hướng đến phá sản
  • Bạn tính phí theo lượng tiêu thụ, người khác theo mức cố định → Bạn tự chết
  • Bạn tính phí theo mức cố định, người khác tính phí theo lượng tiêu thụ → Bạn thắng (rồi sau đó chết)

Vì vậy, tất cả đều chọn “phản bội”. Tất cả đều subsidize cho người dùng nặng. Tất cả đều công bố “đường cong tăng trưởng theo hình gậy khúc côn cầu”. Cuối cùng, tất cả đều ra thông báo “cập nhật giá quan trọng”.

Cursor, Lovable, Replit—họ đều hiểu bài toán này. Họ đã chọn tăng trưởng hôm nay, lợi nhuận ngày mai và cuối cùng là phá sản, nhưng vấn đề đó sẽ là trách nhiệm của CEO tiếp theo.

Nói thật? Có lẽ đây chính là đúng. Trong một cuộc chạy đua chiếm đất, thị phần quan trọng hơn lợi nhuận. Chừng nào các VC còn muốn viết séc để che đậy mô hình kinh tế đơn vị tồi tệ…

Hãy hỏi Jasper, điều gì sẽ xảy ra khi nhạc dừng lại.

Làm thế nào để tránh bị “ép buộc”?

Chúng ta có thể tránh khỏi sự “ép giá” của Token này không?

Gần đây có tin đồn rằng Cognition đang huy động vốn với mức định giá 15 tỷ đô la, trong khi doanh thu hàng năm của họ (ARR) chỉ chưa tới 1 triệu đô la (tôi đoán gần 50 triệu đô la). Điều này nổi bật so với Cursor, công ty đã huy động vốn với mức định giá 10 tỷ đô la dựa trên ARR 500 triệu đô la. Doanh thu cao gấp tám lần, nhưng định giá chỉ là hai phần ba. Các VC biết điều gì về Cognition mà chúng ta không biết? Đó đều là những cá thể AI lập trình. Liệu Cognition có tìm ra cách nào để thoát khỏi cái vòng tử thần này? (Tôi sẽ bàn chi tiết hơn về chủ đề này vào lần tới)

Có ba con đường:

1. Ngay từ ngày đầu tiên áp dụng phí theo lượng tiêu thụ

Không có trợ cấp. Không “trước tiên lấy người dùng, sau đó mới kiếm tiền”. Chỉ có mô hình kinh tế chân thực. Nghe thì tuyệt vời trong lý thuyết.

Nhưng vấn đề là, cho tôi xem một công ty AI tiêu dùng nào đang phát triển bùng nổ và tính phí theo lượng tiêu thụ. Người tiêu dùng ghét phí đo lường. Họ thà trả giá cho một gói không giới hạn còn hơn là nhận một hóa đơn bất ngờ. Mỗi dịch vụ đăng ký tiêu dùng thành công — Netflix, Spotify, ChatGPT — đều là phí cố định. Một khi bạn tăng phí đo lường, tăng trưởng đã chết.

2. Chi phí chuyển đổi cực cao ⇒ Tỷ suất lợi nhuận cao

Đây chính là hướng đi mà Devin đang dốc hết sức lực. Họ gần đây đã công bố hợp tác với Citibank và Goldman Sachs, triển khai Devin cho mỗi công ty gồm 40.000 kỹ sư phần mềm. Tính toán với 20 đô la mỗi tháng, đây là một dự án trị giá 10 triệu đô la. Nhưng vấn đề là: Bạn sẽ thích nhận 10 triệu đô la ARR từ Goldman Sachs, hay 500 triệu đô la ARR từ các lập trình viên chuyên nghiệp?

Câu trả lời thì rõ ràng: chu kỳ thực hiện kéo dài sáu tháng, kiểm tra tuân thủ, kiểm toán an toàn, quy trình mua sắm rắc rối có nghĩa là doanh thu từ Goldman Sachs khó đạt được, nhưng một khi đạt được thì sẽ không bao giờ mất đi. Bạn chỉ có thể thắng được hợp đồng này khi người ra quyết định duy nhất của ngân hàng đặt danh tiếng của mình vào bạn — và sau đó mọi người sẽ cố gắng hết sức để đảm bảo thành công của dự án.

Cũng chính vì lý do này mà ngoài các nhà cung cấp dịch vụ đám mây quy mô lớn, những công ty phần mềm lớn nhất đều là những đơn vị bán các hệ thống ghi chép (System-of-Record) cho họ (như CRM / ERP / EHR). Họ cũng có thể đạt được tỷ suất lợi nhuận 80-90%, vì khách hàng càng khó chịu, họ càng kháng cự giá cao hơn.

Đến khi đối thủ xuất hiện, bạn đã lún sâu vào hệ thống quan liêu của bên đó, và việc chuyển nhà cung cấp cần thêm một chu kỳ bán hàng kéo dài sáu tháng. Không phải bạn không thể rời đi, mà là CFO của bạn thà chết cũng không muốn trải qua một lần đánh giá nhà cung cấp nữa.

3. Tích hợp dọc ⇒ Kiếm tiền từ hạ tầng

Đây là cách chơi của Replit: kết hợp cá thể lập trình với các dịch vụ lưu trữ ứng dụng, quản lý cơ sở dữ liệu, giám sát triển khai, ghi nhật ký, v.v. Trong mọi Token đều thua lỗ, nhưng vẫn thu hút giá trị ở mọi tầng công nghệ mà họ cung cấp cho thế hệ lập trình viên mới… Hãy xem mức độ tích hợp dọc của Replit sâu đến mức nào.

Nguồn mattppal

Coi AI như một sản phẩm kéo khách thua lỗ, nhằm thúc đẩy tiêu thụ các dịch vụ có thể cạnh tranh với AWS. Những gì bạn bán không phải là khả năng suy diễn, mà là tất cả những điều còn lại, trong đó suy diễn chỉ là chi phí tiếp thị của bạn.

Điều tinh tế là, việc sinh mã tự nhiên tạo ra nhu cầu cho lưu trữ. Mỗi ứng dụng cần nơi để chạy. Mỗi cơ sở dữ liệu cần quản lý. Mỗi triển khai cần giám sát. Hãy để OpenAI và Anthropic chiến đấu về giá cả trong dịch vụ suy diễn, giết chết lợi nhuận, trong khi bạn sở hữu mọi thứ khác.

Những công ty vẫn đang chơi trò chơi “thả phí cố định, tăng trưởng bằng mọi giá”? Tất cả đều là xác sống. Chỉ khác là đám tang đắt đỏ của họ đã được định sẵn vào quý 4.

Hướng đi nào cho tương lai?

Tôi luôn thấy các nhà sáng lập chỉ vào câu “năm tới mô hình sẽ rẻ hơn 10 lần!” như thể đã tìm thấy một cái phao cứu sinh. Dĩ nhiên là sẽ như vậy. Nhưng kỳ vọng của người dùng về mô hình cũng sẽ tăng lên 20 lần. Khung thành đó đang nhanh chóng tránh xa bạn.

Còn nhớ Windsurf không? Do áp lực lên bảng cân đối của Cursor, họ đã không thể tìm ra cách thoát thân. Thậm chí cả Anthropic với ứng dụng tích hợp dọc nhất toàn cầu cũng không thể vận hành một mô hình đăng ký không giới hạn.

Mặc dù kết luận của bài viết “Leverage Beta là tất cả những gì bạn cần” — tức là “Hành động trước tốt hơn là thông minh” — vẫn đúng, nhưng không có kế hoạch hành động trước, chỉ có nghĩa là bạn đến nghĩa trang trước người khác. Ở đây không có Google sẵn sàng viết chi phiếu 2,4 tỷ đồng cho những hoạt động thua lỗ. Cũng không có “Chúng ta sẽ nghĩ ra cách sau”, vì “sau” chỉ có nghĩa là hóa đơn AWS của bạn sẽ vượt qua tổng doanh thu của bạn.

Vậy trong thế giới này, bạn sẽ xây dựng một công ty như thế nào? Câu trả lời ngắn gọn là, hãy trở thành một “đám mây mới” (neocloud) — đó cũng sẽ là tiêu đề bài viết tiếp theo của tôi.

Nhưng ít nhất, mô hình năm tới sẽ rẻ hơn 10 lần, đúng không?