서문

모델의 가격 인하는 허구이다: 가격이 내린 것은 누군가 쓰지 않는 구식 모델이며, 사용자들은 항상 가장 강력한 ‘신형 플래그십’을 위해 지불한다.
진짜 비용 블랙홀은 토큰의 단가가 아니라 AI 능력의 진화이다: 임무가 복잡해질수록 소모량이 통제 불능에 이르고, 고정 월 요금 모델은 ‘압사’하게 되어 있다.
AI 구독 모델은 ‘죄수의 딜레마’다: 사용량 기반 지불을 선택하면 시장을 잃게 되고; 월 정액제를 선택하면 미래를 잃게 된다.
‘돈을 태우는’ 운명을 벗어나기 위한 길은 단 두 가지다: 혹은 높은 전환 비용의 ‘방어벽’을 구축하여 기업 고객이 떠날 수 없게 하거나, AI를 손실이 나는 유입 도구로 받아들이고 후방의 기반 시설로 수익을 올리는 것이다.

연장 읽기

토큰의 진정한 비용이 치솟고 있다

“언어 모델 비용이 10배 하락할 것”이라는 소리는 압박받는 AI 구독 서비스를 구할 수 없다

상상해 보자. 당신이 회사를 창립하고 소비자들이 매달 최대 20달러를 지불할 의향이 있다는 것을 잘 알고 있다면, “문제없다, 이것은 VC의 전형적인 접근 방식이니.”하고 생각할 것이다. 비용으로 청구하여 이익보다 성장을 선택하게 된다. 고객 획득 비용 (CAC), 고객 생애 가치 (LTV) 등 모든 지표를 계산해 두었다. 그러나 흥미로운 점은, 당신이 유명한 a16z의 차트를 보았다는 것이다. 대형 언어 모델(LLM)의 비용이 해마다 10배 감소하고 있다는 내용을 보여준다.

그래서 당신은 계산해 보았다: 오늘 20달러/월의 가격으로 손익 분기점에 도달했고, 내년에 모델 비용이 10배로 떨어지면 이익률이 90%로 상승할 것이다. 손실은 일시적인 것이고, 이익은 반드시 올 것이다.

이 논리는 너무 간단해 VC의 보조원조차 이해할 수 있을 정도다:

1년 차: 20달러/월 가격으로 수지 타산 맞추기
2년 차: 계산 비용이 10배 하락하면서 이익률 90%
3년 차: 요트 구입

이런 전략은 이해할 만하다: “대형 언어 모델의 추론 비용은 6개월마다 3배로 줄어드니, 우리는 분명히 가능하다.”

하지만 18개월이 지나도 이익률은 여전히 전례 없는 마이너스… Windsurf 프로젝트는 이미 붕괴되었고, Claude Code조차 이번 주에 최초 200달러/월의 무제한 사용 패키지를 취소해야 했다.

회사는 계속해서 혈액을 흘리고 있다. 모델이 실제로 저렴해졌다는 사실은 맞다 — GPT-3.5의 비용은 과거보다 10배 낮아졌다. 하지만 어떻게 된 일인지 이익률은 더 악화되고 있다.

여기에는 분명 문제가 있다.

구식 모델, 어제의 신문과 같다

GPT-3.5의 가격은 과거의 10분의 1이다. 그러나 아이폰 발표회에서의 폴더폰과 마찬가지로, 아무도 관심을 두지 않는다.

업계의 최고(이른바 SOTA) 모델이 출시될 때, 99%의 수요는 즉시 그 모델로 옮겨간다. 소비자들은 그들이 사용하는 제품에 대해서도 같은 기대를 가지고 있다.

이제 특정 시점에서 99%의 수요를 차지하는 최신 모델의 실제 가격 역사에 대해 살펴보자:

무엇을 주목했는가?

GPT-4가 60달러에 출시되었을 때, 비록 GPT-3.5(이전의 최고 모델)는 26배 저렴해졌지만, 모든 이들은 여전히 GPT-4를 선택했다.
Claude 3 Opus가 60달러에 출시되었을 때, 비록 GPT-4가 이미 가격을 낮추었지만, 사람들은 여전히 Claude로 전환했다.

비용이 10배 하락한 것은 실제로 존재하지만, 오직 Commodore 64와 같은 구형 모델에 한정된다.

그래서, “비용이 감소할 것”이라는 전략의 첫 번째 치명적 결점은 여기에 있다: 시장의 수요는 항상 “가장 강력한 언어 모델”에만 존재할 뿐이다. 가장 강력한 모델의 비용은 항상 대체로 동일하다는 것이다. 이는 현재 추론 기술의 한계 비용을 반영하기 때문이다.

1995년식 혼다 시빅을 가리키며 “이 차는 지금 저렴해졌어!”라고 하는 것은 완전히 잘못된 주장이 될 것이다. 맞다, 그 특정 차량은 저렴해졌지만, 2025년형 도요타 캠리는 제안 가격이 3만 달러다.

당신이 AI를 사용할 때——프로그래밍, 글쓰기 또는 사고——항상 최고의 품질을 추구하게 된다. 아무도 Claude를 열고 “저렴한 옛날 버전을 써서 사장님께 돈을 아끼자”고 생각하지는 않는다. 우리는 본능적으로 인식적으로 탐욕스럽다. 우리는 귀중한 시간을 위해 최선을 다하고 싶어 한다.

모델의 비용 소모 속도는 상상 이상이다

“그래, 하지만 그건 관리할 수 있을 것 같아, 맞지? 우리는 단순히 항상 손익 분기점을 유지하면 되는 거야?”

오, 내 사랑하는 순진한 아이야.

모든 세대의 선진 모델의 단위 토큰 비용은 비싸지지 않았지만, 더 심각한 일이 발생했다: 그들이 소모하는 토큰 수가 폭발적으로 증가하고 있다.

이전에는 ChatGPT가 단일 문장 질문에 대해 단일 문장으로 응답하곤 했다. 그러나 지금은 “심층 연구” 기능이 3분 동안 계획을 세우고, 20분 동안 읽고, 다시 5분을 들여 보고서를 다시 작성하는 데 사용되고, Opus 3는 심지어 “안녕하세요”라는 문장에 20분을 소비하게 된다.

강화 학습(RL)과 시험 시의 계산(test-time compute)의 급속한 발전은 아무도 예상하지 못한 결과를 초래했다: AI가 수행할 수 있는 작업의 길이가 매 6개월마다 두 배로 늘어난 것이다. 과거에는 1000개 토큰을 반환하는 작업이 이제는 10만 개를 반환할 수 있게 되었다.

이 경향을 외삽하면 수학적 계산의 결과가 매우 미친 듯이 성장하게 된다:

오늘 하루 20분인 “심층 연구”의 실행 비용은 약 1달러이다. 2027년에는 우리는 “탈선” 없이 24시간 연속으로 실행할 수 있는 지능형 에이전트를 보유할 것으로 예상된다… 여기에 대형 모델의 안정적인 가격을 결합하게 되면? 이는 단일 실행 비용이 72달러에 달하게 된다. 매일, 각 사용자에게. 또 여러 명이 비동기적으로 실행될 수 있다.

우리가 지능형 에이전트를 비동기적으로 24시간의 작업량을 처리할 수 있게 된다면, 우리는 단순히 하나의 명령을 내리고 피드백을 기다리지만은 않을 것이다. 우리는 그것들을 배치하여 스케줄할 것이다. 전체 AI 작업자의 함대가 병렬로 문제를 처리하여 토큰을 태우듯이 1999년 인터넷 버블 시대로 돌아가는 것과 같다.

물론, 나는 이 점을 강조해야 한다 — 월 20달러의 구독 요금은 한 사용자가 매일 1달러의 심층 연구를 하는 것조차도 지원하지 못한다. 그러나 이것이 바로 우리가 앞으로 향하고 있는 미래이다. 모델 능력이 한 차원 향상될 때마다, 그들은 의미 있게 더 많은 계산 자원을 소모하게 될 것이다.

더 연료 효율이 좋은 엔진을 만들고, 그 절약된 연료 효율로 대형 트럭을 만든 것과 같다. 맞다, 갤런당 더 멀리 갈 수 있지만, 당신이 소모하는 총 기름의 양은도 50배로 증가하게 된다.

이것이 Windsurf를 “비용 압박”으로 인해 붕괴시킨 근본적인 이유이며, “고정 요금 구독 + 높은 토큰 소모” 비즈니스 모델을 채택한 모든 스타트업들이 직면한 절망이다.

Anthropic의 “비용 압박” 대응을 위한 용감한 시도

Claude Code의 무제한 패키지 실험은 우리가 이 폭풍에 맞서는 것을 본 가장 정교한 시도였다. 그들은 모든 방법을 동원했지만 결국 무너지고 말았다.

그들의 전략은 정말로 매우 똑똑했다:

1. 가격을 10배 높게 책정하다

Cursor가 월 20달러를 청구할 때, 그들은 200달러/월의 가격을 책정했다. 혈액이 흐르기 전에 더 많은 버퍼 공간을 마련해야 했다.

2. 요금의 자동 스케일링

업무가 늘어날 때, Opus(75달러/백만 토큰)에서 Sonnet(15달러/백만 토큰)으로 전환한다. 하이쿠를 활용해 읽기 작업을 최적화하는 것이다. 이는 AWS의 자동 스케일링처럼, ‘뇌’에 대한 것이다.

그들은 이 행동을 모델 가중치에 직접 구축한 것으로 거의 확신할 수 있다. 이는 우리가 앞으로 더 많은 패러다임 전환을 보게 될 형태다.

3. 사용자 기계로 처리 작업을 오프로드

사용자가 여분의 CPU를 보유하고 있을 때, 왜 직접 샌드박스를 시작해야 할까?

그러나 이렇게 많은 엔지니어링의 기발함에도 불구하고, 토큰 소비는 여전히 초신성 폭발처럼 증가하고 있다.

100억. 100억 개의 토큰. 이는 《전쟁과 평화》 12500권에 해당하는 양이다. 한 달 내에.

어떻게 가능할까? 한 번 실행하는 데 10분을 소모한다면, 개인이 100억 개의 토큰을 소비하는 것은 어떻게 가능한가?

10-20분의 연속 실행 시간이 있어야 사람들은 “for 루프”의 유용성을 발견할 만큼 충분하다. 한 번 Token 소비를 사용자가 앱 내에서의 온라인 시간과 분리하면, 물리 법칙이 모든 것을 지배하기 시작한다. Claude에게 작업을 주고, 자신의 작업을 점검하고, 재구성하고, 최적화한 후, 프로젝트가 파산할 때까지 이 과정을 반복하게 할 수 있다.

사용자는 API의 스케줄 조정 고수가 되어, Anthropic의 돈을 써서 24/7 코드 변환 엔진을 운영하고 있다. 대화에서 에이전트의 진화가 단 하루 만에 이루어졌다. 소비량은 1000배 증가했다. 이는 점프 변화가 있었던 것이다.

그래서 Anthropic은 무제한 패키지를 취소했다. 그들은 월 2000달러를 시도할 수 있었지만, 그들의 교훈은 그들이 요금을 너무 낮게 설정했다는 것이 아니라, 이 새로운 세계에서는 어떤 구독 모델도 무제한 사용을 제공할 수 없다는 것이다.

핵심은: 이 새로운 세계에서는 실행 가능한 고정 구독 가격이 존재하지 않는다.

이 수치는 근본적으로 맞추어질 수 없다.

나머지 모든 이들의 죄수의 딜레마

이로 인해 나머지 모든 회사들은 해결할 수 없는 딜레마에 빠져 있다.

모든 AI 회사들은 사용량에 따라 요금을 부과해야 그들을 구할 수 있다는 것을 알고 있다. 그들 또한 이것이 그들을 죽일 것임을 알고 있다. 당신이 책임감 있게 0.01달러/1k 토큰으로 요금을 부과할 때, VC 투자금을 소지한 경쟁자는 20달러/개월의 가격으로 무제한 서비스를 제공하고 있다.

사용자는 어디로 갈까요?

전형적인 죄수의 딜레마:

모두가 사용량에 따라 요금을 부과 → 산업 지속 가능성
모두가 고정 요금제 → 경쟁적으로 파산으로 향한다
당신은 사용량에 따라 요금을 부과하고, 다른 이들은 고정 요금제 → 당신만 홀로 죽는다
당신은 고정 요금제, 다른 이들은 사용량에 따라 요금을 부과 → 당신이 승리한다(그러고 나서 나중에 죽는다)

그래서 모두가 “배신”하기로 선택했다. 모두가 중증 사용자에게 보조금을 지급하고, 모두가 “하키 스틱” 성장 곡선의 그림을 내놓는다. 결국, 모두가 “중요한 가격 업데이트” 공지를 발표하게 된다.

Cursor, Lovable, Replit — 그들은 이 수치를 이해한다. 그들은 오늘의 성장과 내일의 이익, 그리고 결국의 파산을 선택했지만, 그것은 차기 CEO의 문제가 될 것이다.

솔직히 말해서? 아마 맞는 말일지 모른다. 한 지역을 차지하는 운동에서는 시장 점유율이 이익률보다 더 중요하다. VC들이 여전히 나쁜 단위 경제 모델을 은폐하기 위해 수표를 쓰기를 원한다면…

Jasper에게 물어보라. 음악이 멈추면 어떤 일이 벌어질지.

“강제 청산” 당하지 않으려면?

우리 모두가 이 토큰의 “비용 압박”을 피할 수 있을까?

최근 Cognition이 150억 달러의 기업 가치를 목표로 자금을 조달하고 있다는 소문이 돌고 있다. 외부에 발표한 연간 지속적 수익 (ARR)은 1억 달러에도 미치지 않은 상태다(내 추정으로는 5000만 달러에 더 가깝다). 이는 Cursor가 5억 달러 ARR를 기반으로 100억 달러의 가치로 자금을 조달하는 것과 극명한 대조를 이룬다. 수익은 여덟 배가 많지만, 가치는 2/3에 불과하다. VC들이 Cognition에 대해 우리가 모르는 비밀을 알고 있는 것인가? 그들은 모두 코드를 작성하는 AI 에이전트이다. Cognition은 이 죽음의 나선에서 벗어나고 있는 건가? (다음에 나는 이 주제로 더 깊이 들어가 보겠다)

세 가지 해결책이 있다:

1. 첫 날부터 사용량 기반 요금을 채택하라

보조금 없이. “먼저 유저를 확보한 후 수익화하라”는 메시지 없이. 오직 정직한 경제 모델만이 있어야 한다. 이론적으로는 환상적이다.

하지만 문제는, 폭발적으로 성장하고 있는 사용량 기반의 소비자 AI 회사를 찾는 것은 쉽지 않다는 점이다. 소비자는 측정 요금을 좋아하지 않는다. 그들은 무제한 패키지에 더 많은 돈을 지불하는 것을 선호하며, 예상치 못한 청구서를 받는 것을 원하지 않는다. 모든 성공적인 소비자 구독 서비스—Netflix, Spotify, ChatGPT—는 고정 요금제이다. 한 번 계량 요금제를 추가하면, 성장은 죽어버린다.

2. 매우 높은 전환 비용 ⇒ 높은 이익률

이는 Devin이 전력으로 추진하는 방향이다. 그들은 최근 씨티은행 및 골드만삭스와 협력하여 두 회사의 소프트웨어 엔지니어 4만 명에게 Devin을 배포한다고 발표했다. 월 20달러 기준, 이는 1000만 달러의 프로젝트이다. 하지만 문제는: 당신은 골드만삭스에서 1000만 달러의 ARR를 확보하고 싶습니까, 아니면 전문 개발자에게서 5억 달러의 ARR를 원하십니까?

답은 분명하다: 6개월에 걸친 실행 주기, 준수 검토, 보안 감사, 복잡한 조달 프로세스는 골드만삭스의 수익을 어렵게 만들지만, 일단 확보하게 되면 결코 잃을 수 없는 것이다. 당신은 은행의 유일한 의사 결정자가 자신의 명성을 당신에게 걸기까지 이 계약을 확보해야 한다 — 그러면 모든 사람이 프로젝트의 성공을 보장하기 위해 최선을 다할 것이다.

이것이 왜 최대 규모의 클라우드 서비스 제공업체를 제외하고는 최대 소프트웨어 기업들이 CRM/ERP/EHRs와 같은 “기록 시스템”을 판매하는 회사들인지를 설명하게 된다. 이들은 80-90%의 이익률을 달성하는데, 고객이 이탈하기 어려울수록 가격에 대한 민감도는 낮아진다.

경쟁자가 출현할 때에는 당신은 상대방의 관료 체계에 깊이 들어가 있으며, 공급자를 전환하기 위해 또 다른 6개월의 영업 주기가 필요하다. 떠나지 못할 이유는 없다. 그러나 당신의 CFO는 다시 한번 공급자 평가를 경험하는 것을 원하지 않는다.

3. 수직 통합 ⇒ 인프라에서 이익을 내다

이것은 Replit의 접근 방식이다: 코드 생성 에이전트를 애플리케이션 호스팅, 데이터베이스 관리, 배포 모니터링, 로그 기록 등 서비스와 결합하는 것이다. 각 토큰에서 손해를 보고 있지만, 차세대 개발자에게 제공되는 기술 스택의 모든 다른 층면에서 가치를 확보하게 된다…… Replit의 수직 통합 정도가 얼마나 깊은지 살펴보면 알 수 있다.

AI를 손실이 발생하는 유입 제품으로 간주하여 AWS와 경쟁할 수 있는 서비스 소비를 촉진하라. 당신이 판매하는 것은 추론 능력이 아니라, 다른 모든 것이며, 추론은 단지 마케팅 비용일 뿐이다.

그 방식의 뛰어난 점은 코드 생성이 자연적으로 호스팅에 대한 수요를 창출한다는 점이다. 모든 애플리케이션은 실행할 장소가 필요하다. 모든 데이터베이스는 관리가 필요하다. 모든 배포는 모니터링이 필요하다. OpenAI와 Anthropic이 추론 서비스에서 가격 전쟁을 벌여 제로 이익으로 끌어내릴 때, 당신은 모든 것을 소유하게 된다.

아직도 “고정 요금제, 불문율적 방식으로 성장”하는 게임을 하는 회사들은? 그들은 좀비와 같다. 그들의 비싼 장례식은 4분기에 예정되어 있다.

앞으로의 길

나는 항상 창립자들이 “내년에 모델 비용이 10배 저렴해질 것!”이라는 말을 하며 마치 구세주처럼 여기는데, 물론 그렇게 될 것이다. 그러나 당신의 사용자는 모델에 대한 기대도 20배 상승하게 될 것이다. 그 목표는 점점 더 멀어질 것이다.

Windsurf를 기억하는가? Cursor의 수익 보고서에 대한 압박 때문에 그들은 탈출구를 찾지 못했다. 세계에서 가장 수직적으로 통합된 애플리케이션 계층을 가진 Anthropic조차 무제한 사용의 고정 구독 모델을 작동시킬 수 없었다.

“레버리지 베타가 당신에게 필요한 모든 것”이라는 글의 요약—즉, “앞서가는 것이 절정의 지성을 초월한다”—은 여전히 사실이다. 그러나 무계획의 선행은 단순히 당신이 다른 이들보다 먼저 무덤을 향할 뿐이다. 여기에는 구글이 적자를 내는 사업에 24억 달러의 수표를 쓰지 않는다. 또한 “나중에 해결하자”라는 발상은 없다. 왜냐하면 “나중”은 당신의 AWS 청구서를 총 수익보다 높아지게 만들기 때문이다.

그렇다면, 이런 세상에서 당신은 어떻게 회사를 운영해야 할까? 간단히 말하면, 당신은 ‘신 클라우드(NeoCloud)’가 되어야 한다 — 이것이 내가 다음 글의 제목이다.

하지만 최소한, 내년 모델은 10배 저렴해질 것이다, 그렇지?