Giriş

Model fiyatlarının düşmesi yanlış bir algıdır: Düşen fiyatlar, kimsenin kullanmadığı eski modellere aittir; kullanıcılar her zaman en güçlü “yeni amiral gemisi” için ödemeyi tercih eder.
Gerçek maliyet tuzağı, Token birim fiyatı değil, AI yeteneklerinin evrimidir: Görevler ne kadar karmaşık olursa, tüketim kontrolsüzleşir ve sabit aylık ücret modeli kesinlikle “aşınacaktır”.
AI abonelik modeli bir “mahkum ikilemi”dir: Kullanım başına ödeme seçerseniz, pazarı kaybedersiniz; sabit fiyatlı abonelik seçerseniz, geleceği kaybedersiniz.
“Para yakma” kaderinden kurtulmanın iki yolu vardır: Ya yüksek geçiş maliyetine sahip bir “savunma hattı” inşa etmek, böylece kurumsal müşterilerinizi kaybettirmemek; ya da AI’yı zarar eden bir yönlendirme aracı olarak görmek ve arka plandaki altyapıdan para kazanmak.

İlgili Okumalar

Tokenların Gerçek Maliyeti Hızla Artıyor

“Dil modeli maliyetleri 10 kat düşecek” gibi saçmalıklar, “maliyet sıkışması” yaşayan AI abonelik hizmetlerini kurtaramaz.

Hayal edin, bir şirket kurdunuz ve tüketicilerin ayda en fazla 20 dolar ödemeye istekli olduğunu biliyorsunuz. “Sıkıntı yok” diye düşünüyorsunuz, bu tipik bir VC yaklaşımıdır—maliyet üzerinden ücretlendirip, kârı büyümek uğruna feda etmek. Müşteri kazanım maliyeti (CAC), müşteri yaşam boyu değeri (LTV) gibi tüm kriterleri hesapladınız. Ama işin ilginç tarafı şudur ki, o ünlü a16z grafiğini gördünüz ve büyük dil modellerinin (LLM) maliyetinin her yıl 10 kat düştüğünü gösteriyor.

Böylece hesaplamalara başladınız: Bugün 20 dolar/ay fiyatla denge sağlarsam, model maliyeti gelecek yıl 10 kat düşerse, kâr oranım %90’a yükselebilir. Zarar sadece geçici, kâr kaçınılmaz.

Bu mantık o kadar basit ki, VC asistanı bile anlayabilir:

İlk yıl: 20 dolar/ay fiyatla denge sağlamak
İkinci yıl: Hesaplama maliyeti 10 kat düştüğünde %90 kâr marjına ulaşmak
Üçüncü yıl: Yat alımına başlamak

Bu strateji anlaşılabilir: “Büyük dil modeli çıkarım maliyetleri her 6 ayda bir 3 kat azalıyor, kesinlikle başaracağız.”

Fakat 18 ay geçti, ve kâr oranı tarihsel olarak eşi görülmemiş bir şekilde negatif… Windsurf projesi dağılmaya başladı, bu hafta Claude Code bile en başta 200 dolar/ay olan sınırsız kullanım paketini iptal etmek zorunda kaldı.

Şirket hala kan kaybediyor. Modeller gerçekten de ucuzladı—GPT-3.5’in maliyeti geçmişe göre 10 kat düştü. Ama bir şekilde, kâr oranı daha da kötüleşti.

Burada kesinlikle bir sorun var.

Eski Modeller, Dünkü Gazete Gibi

GPT-3.5’in fiyatı geçmişteki fiyatın onda biri. Ama 2007 model bir flip telefon kadar ilgi görmüyor.

Yeni bir model, endüstrinin en iyisi (SOTA) olarak piyasaya sürüldüğünde, talebin %99’u anında ona kayar. Tüketiciler, kullandıkları ürünlerden de aynı beklentiyi taşırlar.

Şimdi, herhangi bir dönemde %99 talebi elinde tutan öncü modellerin gerçek fiyatlandırma tarihine bakalım:

Bir şey fark ettiniz mi?

GPT-4 60 dolarla piyasaya sürüldüğünde, GPT-3.5 (önceki en iyi model) 26 kat ucuzladı, ama herkes yine de GPT-4’ü tercih etti.
Claude 3 Opus 60 dolarla piyasaya çıktığında, GPT-4’ün fiyatı düştüğü halde, insanlar yine de Claude’a yöneldiler.

Maliyetlerin 10 kat düştüğü doğru, ama bu sadece, performansı antik bilgisayar Commodore 64 seviyesinde olan eski modellere aittir.

İşte bu yüzden “maliyetler düşecek” stratejisinin birinci ölümcül hatası: Pazar talebi yalnızca “en güçlü dil modeline” aittir, nokta. Ve en güçlü modelin maliyeti her zaman aşağı yukarı aynı olacaktır, çünkü bu, mevcut çıkarım teknolojisinin sınır maliyetlerini yansıtmaktadır.

1995 yapımı bir Honda Civic’e “bu araç şu anda çok daha ucuz!” demek tam bir çelişki. Doğru, o belirli araç ucuzlamış olabilir, ama 2025 model bir Toyota Camry’nin önerilen perakende fiyatı 30.000 dolardır.

AI kullandığınızda — ister programlama, ister yazma, ister düşünme olsun — her zaman en yüksek kaliteyi ararsınız. Hiç kimse Claude’u açıp, “Belki o eski versiyonu kullanırım, patrona biraz para kazandırayım” demez. Zihnen açgözlü olma eğilimindeyiz. Bizim için değerli olan zamanımız olduğunda, en iyi “beyni” almak isteriz.

Modellerin Para Yakma Hızı, Hayal Edemeyeceğiniz Kadar Hızlı

“Tamam, ama bu hâlâ yönetilebilir görünüyor, değil mi? Sadece her zaman dengede kalmalıyız, değil mi?”

Ah, benim sevgili naif çocuğum.

Her yeni nesil öncü modelin birim Token maliyeti daha pahalı hale gelmedi, fakat daha kötü bir durum ortaya çıktı: harcadıkları Token sayısı, nükleer patlama gibi bir artış gösterdi.

Geçmişte, ChatGPT’nin tek bir cümleye verdik cevap dahi, bir cümle oluyordu. Ama şimdi, “derin araştırma” özelliği 3 dakika planlama, 20 dakika okuma ve ardından 5 dakika boyunca bir rapor yazmak için harcayabilirken, Opus 3 bile sadece “merhaba” demek için 20 dakika çalışabiliyor.

Takviye öğrenme (RL) ve test zamanı hesaplama (test-time compute) üzerindeki muazzam gelişmeler, beklenmeyen bir sonucu doğurdu: AI’nin tamamlayabileceği görevlerin uzunluğu her altı ayda bir katlanıyor. Geçmişte 1000 Token döndüren görevler şimdi 100.000 Token dönüyor.

Bu trendi dışa vurduğunuzda, matematiksel sonuçlar oldukça çılgın hale geliyor:

Bugün, 20 dakikalık bir “derin araştırma” çalışmasının maliyeti yaklaşık 1 dolardır. 2027’de süreli olarak 24 saat içinde çalışabilecek akıllı ajanlar elde edeceğiz… Bunun üstüne öncü modellerin stabil fiyatını eklersek? Bu, her bir çalışmanın maliyetinin 72 dolara kadar yükselebilmesi demektir. Kullanıcı başına, günde. Ve biriyle aynı anda birden fazla çalışabilir.

Bir kez akıllı ajanları 24 saat görevi asenkron olarak çalıştırabilir hale geldiğimizde, ona sadece bir talimat verip geriye doğru yanıt beklemeyeceğiz. Onları topluca zamanlayacağız. Bütün AI işçi filosu, sorunları eş zamanlı olarak işleyip Token tüketirken, 1999 internet balonu dönemine geri dönermiş gibi olacağız.

Belirgin olan — bunu vurgulamam gerekiyor — her ay 20 dolarlık bir abonelik ücreti, bir kullanıcıyı her gün 1 dolarlık derin araştırma yapabilmesi için destekleyemez. Ama tam da bu geleceğe doğru gidiyoruz. Model yeteneklerindeki her gelişim, daha anlamlı bir şekilde daha fazla hesaplama kaynağı tüketmeleri anlamına geliyor.

Bu, daha az yakıt tüketen bir motor yaptığınızda, tasarruf ettiğiniz yakıt verimliliğiyle dev bir kamyon yapmaya benziyor. Evet, her galon yakıt ile daha fazla mesafe kat ediyorsunuz, ama toplamda tükettiğiniz yakıt miktarı da 50 katına çıkıyor.

İşte bu da Windsurf’un “maliyet sıkışması” sebebi — ve sabit fiyatlı abonelik + yüksek yoğunlukta Token tüketen iş modeli benimseyen her yeni girişimin karşılaştığı zor bir durumu ortaya çıkarıyor.

Anthropic’in “maliyet sıkışmasını” önleme konusundaki cesur girişimi

Claude Code’un sınırsız paket denemesi, bu fırtınayla başa çıkmanın en akıllıca çaba yöntemlerinden biridir. Her türlü çabayı harcadılar ama nihayetinde yine de yıkıldılar.

Stratejileri gerçekten çok zekiceydi:

1. Fiyatı 10 kat artırmak

Cursor 20 dolar/ay alırken, 200 dolar/ay fiyatlandırdılar. Kan kaybetmeden önce kendilerine daha fazla tampon alan sundular.

2. Yüksekliğe göre modeli otomatik olarak esnetmek

Görev yoğun olduğunda Opus’tan ($75/milyon Token) Sonnet’a ($15/milyon Token) geçmeleri. Okuma görevlerini optimize etmek için Haiku kullanmak. Bu, AWS’nin otomatik ölçeklendirmesine benziyor, sadece “beyin” için.

Muhtemelen bu tür bir davranışın doğrudan model ağırlıklarına inşa edildi. Gelecekte daha fazla paradigmanın bu yönde değişmesini görebiliriz.

3. İşlem görevlerini kullanıcı makinelerine yüklemek

Kullanıcının hali hazırda boş bir CPU’su varken, neden kendi kumanda alanınızı başlatıyorsunuz ki?

Ancak, tüm bu mühendislik zekalarına rağmen, Token tüketimi süpernova patlaması gibi büyümeye devam etti.

On milyar. On milyar Token. Bu, 12,500 adet Savaş ve Barış’a eşdeğerdir. Bir ay içerisinde.

Bunu nasıl başardılar? Her seferinde 10 dakika çalıştırırlarsa, bir kişi nasıl 10 milyar Token tüketebilir?

Gerçek şu ki, sürekli 10-20 dakikalık çalışma süreleri, insanların “for döngüsü”nün sihrini keşfettikleri an yeterliydi. Token tüketimini, kullanıcıların uygulama içindeki çevrimiçi süreleri ile ayırdığınızda, fizik yasaları her şeyi devralmaya başlıyor. Claude’a bir görev verin, işlerini kontrol etmesini sağlayın, yeniden yapılandırın, optimize etsin ve bu süreci tekrar etmesini isteyin, sonuçta şirket iflas eder.

Kullanıcı, Anthropic’in parasıyla 24/7 bir kod dönüştürme motorunu çalıştırmanın API yöneticisi haline geldi. Sohbetten akıllı ajana geçiş bir gecede gerçekleşti. Tüketim 1000 kat arttı. Bu bir faz değişikliği, giderek değil.

Dolayısıyla Anthropic, sınırsız paketlerini iptal etti. 2000 dolar/ay fiyat denemesi yapabilirlerdi, ama öğretici olan, ücretlendirme değil; bu yeni dünyada hiçbir abonelik sisteminin sınırsız kullanım sunamayacağıdır.

Anahtar nokta şudur: Bu yeni dünyada uygulanabilir bir sabit abonelik fiyatı yok.

Bu hesap artık temelde düzgün yapılmıyor.

Diğer Tüm Şirketlerin Mahkum İkilemi

Bu, diğer tüm şirketleri çözümsüz bir duruma soktu.

Her AI şirketi, kullanım başına ödeme ile kurtarılabileceğini biliyor. Aynı zamanda bunun onları öldüreceğinin de farkındalar. Sorumlu bir şekilde $0.01/1k Token fiyatlandırması yaparken, VC yatırımı alan rakipleriniz sınırsız hizmeti 20 dolar/ay fiyatıyla sunuyor.

Tahmin edin kullanıcı nereye gidecek?

Tipik bir mahkum ikilemi:

Herkes kullanım başına ödeme yapıyor → Sektör sürdürülebilir
Herkes sabit fiyatla ödemeyi tercih ediyor → İflasa koşuyor
Siz kullanım başına, diğerleri sabit fiyatlı → Siz tek başınıza iflas ediyorsunuz
Siz sabit fiyatla ödeniyor, diğerleri kullanım başına → Siz kazandınız (ve sonra daha geç iflas edersiniz)

Bu nedenle herkes “ihanet” seçeneğini seçti. Herkes yoğun kullanıcıları sübvanse ediyor. Herkes “hokey sopası” tarzında büyüme grafiklerini paylaşıyor. Sonuç olarak, herkes “önemli fiyat güncellemeleri” ile ilgili duyurular yaptı.

Cursor, Lovable, Replit - hepsi bu hesabı anlıyor. Bugünün büyümesini, yarının kârını ve nihai iflası seçiyorlar ama bu, sonraki CEO’nun sorunu.

Açıkçası? Belki de bu doğru. Bir erime sürecinde pazar payı, kâr marjından daha önemlidir. VC’ler hala kötü birimler ekonomik modelleri gizlemek için çek fişlerine devam etmeye istekliyse…

Jasper’a sorun, müzik durduğunda ne olacağını.

“Zorunlu Tasfiye”den Kaçınmak Mümkün mü?

Bu Token’ın “maliyet sıkışmasını” önleyebilir miyiz?

Son günlerde, Cognition’un 150 milyar dolar değerleme ile finansman sağladığı yönünde söylentiler var ve dışarıya duyurdukları yıllık tekrarlanan gelir (ARR) neredeyse 1 milyar dolardan az (sanırım daha yakın 50 milyon dolar). Bu, Cursor’un 500 milyon dolar ARR üzerinden 100 milyar dolar değerlemeyle finansman sağlaması ile tam zıt. Gelir 8 kat fazla ama değerleme sadece üçte iki. VC’ler, Cognition hakkında bilmediğimiz ne tür sırlar biliyor? Hepsi kod yazan AI akıllı ajanları. Cognition bu ölüm spiralinden kurtulmanın bir yolunu bulmuş olabilir mi? (Bunu bir sonraki yazımda ayrıntılı olarak inceleyeceğim)

Üç yol var:

1. İlk günden itibaren kullanım başına ödeme almak

Sübvansiyon yok. “Önce kullanıcı edinin, sonra monetizasyon yapın” yok. Sadece dürüst bir ekonomik model. Teorik olarak harika görünüyor.

Ama sorun şu: bana patlayıcı bir şekilde büyüyen, kullanım başına ödeme yapan bir tüketici AI şirketi göster. Tüketiciler, metrik üzerinden ücretlendirilmekten nefret eder. Beklenmedik bir fatura almak yerine, sınırsız bir pakete daha fazla para verirler. Başarılı her tüketici abonelik servisi — Netflix, Spotify, ChatGPT — sabit fiyatlıdır. Bir ölçüm ile eklediğinizde, büyüme ölür.

2. Aşırı yüksek geçiş maliyetleri → Yüksek kâr oranları

Bu, Devin’in tamamen yöneldiği bir yoldur. Geçtiğimiz günlerde, Citi ve Goldman Sachs ile ortaklıklarını duyurdular ve her birinin 40.000 yazılım mühendisini Devin ile donatacaklar. Aylık 20 dolar üzerinden, bu 10 milyon dolarlık bir projedir. Ama soru şu: Yüksek maliyete sahip bir ARR elde etmenin mi, yoksa profesyonel geliştiricilerden 500 milyon dolarlık bir ARR elde etmenin mi peşindesiniz?

Cevap açıktır: Altı ay süresince uygulama döngüsü, uyum süreçleri, güvenlik denetimleri ve karmaşık alım süreçleri, Goldman Sachs’ın gelirinin kazanç peşinde pek zor olmasını sağlıyor ancak bir kez kazanıldığında asla kaybolmayacak. Bu sözleşmeleri elde etmek için, bankanın tek karar vericisinin sizin adınıza saygınlığını riske atması gerekir - sonra herkes projenin başarısını sağlamak için elinden geleni yapar.

Bu nedenle, süper büyük bulut hizmet sağlayıcıları dışında, en büyük yazılım şirketleri genellikle “sistem kaydı” (System-of-Record) gibi şirketlerdir (CRM / ERP / EHR’ler). Bunlar %80-90 kâr oranlarına ulaşabilirler çünkü müşteri kaybı zorlaştıkça fiyat konusunda daha az hassas olabiliyorlar.

Rekabetçi karşı karşıya geldiğinde, karşı tarafın bürokrasi yapısına derinden yerleştikten sonra tedarikçi değiştirmek bir altı aylık satış döngüsü gerektiriyor. Bu, bırakamayacağınız anlamına gelmiyor; CFO’nuz bir daha tedarikçi değerlendirmesi yaşamak için ölmeyi tercih eder.

3. Dikey entegrasyon → Altyapıdan para kazanmak

Bu, Replit’in yaklaşımıdır: Kod yazma akıllı ajanını uygulama barındırma, veri tabanı yönetimi, dağıtım izlemesi, günlük kaydı gibi diğer hizmetlerle birleştirerek. Her Token üzerinde zarar ederken, yeni nesil geliştiriciler için teknik yığın üzerine değer toplamaktadır… Replit’in dikey entegrasyon seviyesini görün.

AI’yı zarar eden bir yönlendirme ürünü olarak görerek, AWS ile rekabet edebilecek hizmetlerin kullanımını teşvik edebilirsiniz. Gördüğünüz şey çıkarım yeteneği değil, diğer her şeydir; çıkarım sadece pazarlama giderlerinizdir.

Bunu başarmanın güzelliği, kod oluşturmanın doğal olarak barındırma talebini yaratmasıdır. Her uygulamanın bir yere çalışmayı gerektirir. Her veritabanının yönetimi gerekir. Her dağıtım izlenmelidir. OpenAI ve Anthropic’in çıkarım hizmetlerinde fiyat savaşı yapmalarına ve kar marjını sıfıra indirmelerine izin verin; ayrıca siz tüm diğer özelliklere sahip olursunuz.

“Fiks ücret, bu çırpınmanın her şeyidir” oyununu oynamaya devam edenler? Hepsi birer zombi. Ama onların pahalı cenazeleri dördüncü çeyrekte ayarlanmıştır.

Gelecekte Ne Var?

Her zaman kurucuların “gelecek yıl model 10 kat ucuzlayacak!” diye işaret ettiğini görüyorum, sanki bir kurtuluş ipine yapışmış gibi. Tabii ki öyle olacak. Ama sizin kullanıcılarınızın model beklentisi de 20 kat yükselecek. O kalıplar, hızla sizden uzaklaşıyor.

Windsurf’u hatırlıyor musunuz? Cursor’un kâr tablosunun baskısının etkisiyle, kendilerine bir çıkış yolu bulamadılar. Dünyanın en dikey entegrasyona sahip uygulama katmanına sahip Anthropic bile sınırsız bir sabit abonelik modelini hayata geçiremedi.

“Beta ihtiyacı, işinize yarayacak her şeydir” makalesinin özeti - yani “bir adım önde olmak, akıllı olmaktan daha iyidir” hâlâ doğrudur, ancak plansız önde olmanın sadece diğerlerinden önce mezara ulaşmak anlamına geldiği anlaşılmalıdır. Burada 24 milyar dolarlık çek veren bir Google yok. Ve “sonra düşünürüz” de yok, çünkü “sonra” demek, AWS faturalarınızın toplam gelirinizden fazla olacağı anlamına geliyor.

Peki, bu dünyada bir işletmeyi nasıl kurarsınız? Kısa cevap, “yeni bulut” (neocloud) olmanızdır — bu, bir sonraki yazımın başlığı.

Ama en azından, gelecek yıl modelin 10 kat ucuz olacağını biliyoruz, değil mi?