خطة الاشتراك مقابل 20 دولار أمريكي تقتل شركات الذكاء الاصطناعي. انخفاض أسعار الرموز مجرد وهم، الحقيقة هي أن ما يكلف غاليًا هو جشعك - تعلم الذكاء الاصطناعي ببطء 164
مقدمة
- انخفاض أسعار النماذج هو فكرة خاطئة: ما ينخفض في الأسعار هو النماذج القديمة التي لا تستخدم. المستخدمون دائمًا ما يدفعون مقابل “الطراز الأحدث” الأقوى.
- الفجوة الحقيقية في التكلفة ليست في سعر الرموز، بل في تطور قدرات الذكاء الاصطناعي: كلما كانت المهام أكثر تعقيدًا، زادت استهلاك الموارد، ونموذج الأسعار الثابت سيتعرض للضغط.
- نموذج الاشتراك في الذكاء الاصطناعي هو نوع من “مأزق السجناء”: إذا اخترت الدفع حسب الاستخدام، ستخسر السوق؛ وإذا اخترت سعر الاشتراك، ستخسر المستقبل.
- الهروب من مصير “حرق الأموال” له طريقان فقط: إما بناء “خندق” بتكاليف تحويل عالية، مما يجعل عملاء الشركات غير قادرين على مغادرة؛ أو إجراء تكامل عمودي، حيث يتم اعتبار الذكاء الاصطناعي كأداة توصيل بدون ربح، والربح يكون من البنية التحتية الخلفية.
قراءات ممتدة
- 【طرائف الرموز】لماذا يتم حساب تكلفة الذكاء الاصطناعي بالرموز؟ استكشاف الأسباب
- 【سهل الفهم】7B، 70B، 175B؟ ما معنى معلمات نموذج الذكاء الاصطناعي؟ كيف تختار الشركات الحل الصحيح للنماذج الكبيرة؟
- تكاليف الرموز ترتفع
التكلفة الحقيقية للرموز في ارتفاع
الجملة الخاطئة “تكاليف نماذج اللغة ستنخفض بمقدار 10 أضعاف” لن تنقذ خدمات الاشتراك في الذكاء الاصطناعي التي تتعرض للضغط من التكاليف
تخيل أنك أسست شركة وتعرف تمامًا أن المستهلكين لن يدفعوا أكثر من 20 دولارًا في الشهر. تفكر في الأمر، هذا مقبول، إنها طريقة نموذجية من مستثمري رأس المال المخاطر - تعتمد على التكلفة، وتتخلى عن الأرباح من أجل النمو. لقد قمت بحساب تكلفة الحصول على العميل (CAC)، قيمة العميل مدى الحياة (LTV) وجميع المؤشرات الأخرى. لكن الأمر يصبح مثيرًا للاهتمام: رأيت الرسم البياني الشهير من a16z، الذي يُظهر أن تكلفة النماذج الكبيرة للغة (LLM) تتراجع بمقدار 10 أضعاف سنويًا.
لذا، بدأت تفكر: إذا حققت التوازن بين الإيرادات والنفقات بسعر 20 دولارًا شهريًا، وبحلول السنة القادمة تنخفض تكلفة النماذج بمقدار 10 أضعاف، فسترتفع هوامش الربح إلى 90%. الخسائر ستكون مؤقتة، والأرباح حتمية.
هذا المنطق بسيط لدرجة أن حتى مساعدي مستثمري المخاطر يمكنهم فهمه:
- السنة الأولى: تحقيق التوازن المالي بسعر 20 دولارًا شهريًا
- السنة الثانية: مع انخفاض تكاليف الحوسبة بمقدار 10 أضعاف، يصل الربح إلى 90%
- السنة الثالثة: البدء في شراء اليخوت
يمكن فهم هذه الاستراتيجية: “تكاليف استدلال النماذج الكبيرة تنخفض بمقدار 3 أضعاف كل 6 أشهر، لذلك نحن نستطيع ذلك”.
لكن بعد 18 شهرًا، لا تزال هوامش الربح تصل إلى أرقام سالبة تاريخيًا… مشروع “Windsurf” قد انهار، حتى Claude Code اضطرت هذا الأسبوع إلى إلغاء اشتراك الاستخدام غير المحدود الذي كان 200 دولار في الشهر.
تواصل الشركة خسارة الأموال. النماذج أصبحت بالفعل أرخص - تكلفة GPT-3.5 انخفضت بمقدار 10 أضعاف. لكن لسبب ما، ظلت الهوامش تتدهور، بدلاً من أن تتحسن.
هناك شيء غير صحيح.
النماذج القديمة، كالجريدة البالية
تكلفة GPT-3.5 هي عُشر تكلفة ما كانت عليه سابقًا. لكنها أيضًا مثل الهواتف القابلة للطي التي كانت موجودة في مؤتمر إطلاق iPhone، لا أحد يهتم بها.
عندما يتم إطلاق نموذج جديد باعتباره الأفضل في مجاله (SOTA)، تنتقل 99% من الطلبات فورًا إليه. إن توقعات المستهلكين تجاه المنتجات التي يستخدمونها هي نفسها.
الآن، دعونا نستعرض تاريخ التسعير الفعلي للنماذج المتقدمة التي تسيطر على 99% من الطلب في أي فترة زمنية معينة:
هل لاحظت شيئًا؟
- عندما تم إطلاق GPT-4 بسعر 60 دولارًا، على الرغم من أن GPT-3.5 (النموذج السابق الرائد) أصبح أرخص بمقدار 26 مرة، إلا أن الجميع اختار GPT-4.
- عند إطلاق Claude 3 Opus بسعر 60 دولارًا، رغم تخفيض GPT-4، قام الناس بالتحول بشكل جماعي نحو Claude.
انخفاض التكلفة بمقدار 10 أضعاف أمر حقيقي، لكنه ينطبق فقط على النماذج القديمة التي تعاني من أداء يكاد يضاهي كمبيوتر Commodore 64 القديم.
لذا، فإن هذا هو العيب القاتل الأول لاستراتيجية “سوف تنخفض التكلفة”: الطلب في السوق موجود فقط على “أفضل نموذج لغوي”، والانتهاء من ذلك. وتكلفة أفضل نموذج دائمًا ما تكون متقاربةً، إذ تعكس حدود تكنولوجيا الاستدلال الحالية.
الإشارة إلى سيارة هوندا سيفيك 1995 قائلاً “هذه السيارة أصبحت أرخص الآن!” هو مجرد هراء. صحيح، تلك السيارة المحددة قد انخفضت في السعر، لكن سعر تويوتا كامري 2025 هو 30,000 دولار.
عندما تستخدم الذكاء الاصطناعي - سواء في البرمجة أو الكتابة أو التفكير - فأنت دائمًا تسعى للحصول على أعلى جودة. لا أحد سيفتح Claude ثم يفكر: “لماذا لا أستخدم النسخة الأقل جودة وأوفر بعض المال لرئيسي؟” نحن بالفطرة نريد الأفضل. نريد “أفضل عقل” يمكننا الحصول عليه، خاصة عندما يتعلق الأمر بوقتنا الثمين.
سرعة حرق النماذج للمال تفوق الخيال
“حسنًا، لكن يبدو أنني يمكنني التعامل مع ذلك، أليس كذلك؟ علينا فقط الحفاظ على التوازن المالي إلى الأبد، أليس كذلك؟”
أوه، يا طفل الجهل البريء.
على الرغم من أن تكلفة الوحدة لكل نموذج متقدم لم تزداد، إلا أنه حدث شيء أسوأ: عدد الرموز التي تستخدمها هذه النماذج ارتفع بشكل غير مسبوق.
في الماضي، كانت ChatGPT تعطي إجابة واحدة على سؤال مكون من جملة واحدة. أما الآن، فإن ميزة “البحث العميق” قد تستغرق 3 دقائق للتخطيط، و20 دقيقة للقراءة، و5 دقائق لإعادة كتابة تقرير لك، في حين أن Opus 3 قد يستغرق حتى 20 دقيقة للرد على مجرد “مرحبا”.
التطور السريع في التعلم التعزيزي (RL) والحوسبة في وقت الاختبار (test-time compute) أدى إلى نتيجة غير متوقعة: طول المهمة التي يمكن للذكاء الاصطناعي التعامل معها تضاعف كل 6 أشهر. مهمة كانت تعيد 1000 رمز، أصبحت الآن بإمكانها إعادة 100,000 رمز.
عندما تقوم بنشر هذا الاتجاه، تصبح الحسابات الرياضية جنونية بشكل كبير:
اليوم، تكاليف تشغيل “البحث العميق” لمدة 20 دقيقة تبلغ حوالي 1 دولار. بحلول عام 2027، سنمتلك وحدات قادرة على العمل على مدار 24 ساعة دون “الانحراف”… مع نماذج مستقرة في الأسعار؟ هذا يعني أن تكلفة التشغيل المحتملة تصل إلى 72 دولارًا لكل عملية تشغيل. يوميًا، لكل مستخدم. كما يمكن أن تتم فيها عمليات متعددة بشكل متزامن.
بمجرد أن نكون قادرين على نشر الوحدات للعمل بشكل متزامن على مدار 24 ساعة، لن نكتفي بإعطائها تعليمات واحدة ثم الانتظار للتغذية الراجعة. سنقوم بجدولة أعمالها بشكل جماعي. أسطولاً كاملاً من العاملين في مجال الذكاء الاصطناعي، يعالج المشاكل بشكل متوازي، مستخدمين الرموز كما لو كنا في أزمة فقاعة الإنترنت عام 1999.
من الواضح - ويجب أن أؤكد على ذلك - أن رسوم الاشتراك في 20 دولارًا شهريًا لا تكفي حتى لدعم مستخدم واحد للقيام ببحث عميق يوميًا بتكلفة 1 دولار. لكن هذه هي بالضبط المستقبل الذي نتجه نحوه. كل تحسين في قدرة النموذج يعني أن بإمكانه استهلاك المزيد من الموارد الحاسوبية بشكل ذي معنى.
إنه مثل أنك قمت ببناء محرك أكثر كفاءة في استهلاك الوقود، ثم استخدمت كفاءة الوقود التي وفرتها لبناء شاحنة عملاقة. صحيح، يمكنك قطع مسافة أطول لكل جالون من الوقود، لكن إجمالي كمية الوقود التي تستهلكها أصبحت 50 مرة أكبر.
هذه هي الأسباب الرئيسية وراء اندفاع Windsurf نحو “ضغط التكاليف” حتى الانهيار - وهي نفس المعضلة التي تواجهها任何شركة ناشئة تعتمد على نموذج “التسعير الثابت + استهلاك عالٍ للرموز”.
محاولة Anthropic الشجاعة لمواجهة “ضغط التكاليف”
تجربة الاشتراك غير المحدود من Claude Code هي واحدة من أكثر المحاولات براعة التي رأيناها لمواجهة هذه العاصفة. استخدموا كل حيلة في جعبتهم، لكنهم انهاروا في النهاية.
استراتيجيتهم كانت ذكية جدًا:
1. تسعير أعلى بمقدار 10 مرات
عند سعر 20 دولارًا شهريًا من Cursor، قاموا بتسعير 200 دولار شهريًا. قبل أن يبدأوا في الخسارة، تركوا لأنفسهم هامش حذر أكبر.
2. توسيع النماذج تلقائيًا حسب الحمل
عندما تكون المهام أكثر صعوبة، يتم التبديل من Opus ($75 لكل مليون رمز) إلى Sonnet ($15 لكل مليون رمز). واستخدام Haiku لتحسين مهام القراءة. يشبه ذلك توسيع موارد AWS تلقائيًا، لكنه يستهدف “العقول”.
يمكنهم التأكد من أنهم قاموا ببناء هذا السلوك مباشرة في أوزان النموذج، وهي إحدى التغيرات المحتملة التي قد نشهد المزيد منها في المستقبل.
3. تحميل المهام إلى أجهزة المستخدمين
عندما يكون لدى المستخدم CPU فارغة، لماذا يجب عليهم تشغيل بيئة الرمال بمفردهم؟
ومع ذلك، على الرغم من كل هذه الحيل الهندسية، لا يزال استهلاك الرموز ينمو كما لو كان انفجار نجم جديد.
مليار. مليار رمزية. يعادل 12500 نسخة من “الحرب والسلام”. في شهر واحد.
كيف حدث ذلك؟ حتى لو كانت كل عملية تشغيل تستغرق 10 دقائق، كيف يمكن لمرء أن يستهلك 10 مليار رمز؟
اتضح أن 10-20 دقيقة من زمن التشغيل المستمر، كانت كافية لتعريف الناس بفوائد “حلقة for”. بمجرد أن تفصل بين استهلاك الرموز ومدة وجود المستخدم في التطبيق، تبدأ القوانين الفيزيائية بتولي الأمور. أعطِ Claude مهمة لفحص عمله، وإعادة هيكلته، وتحسينه، ثم تكرار هذه العملية حتى تفلس الشركة.
تحول المستخدمون إلى سادة جدولة واجهة برمجة التطبيقات، مشغلين محرك تحويل الشيفرة على مدار الساعة، مما جعل استهلاك الرموز يرتفع بمقدار 1000 مرة. هذه ليست عملية تدريجية، بل تحول مفاجئ.
لذا، ألغت Anthropic الاشتراك غير المحدود. ربما كان بإمكانها تجربة تسعير 2000 دولار في الشهر، لكن الدرس ليس في أنهم لم يقوموا بتسعير مرتفع بشكل كاف، بل في أنه في هذا العالم الجديد، لا يمكن لأي نموذج اشتراك تقديم استخدام غير محدود.
المفتاح هو أن: في هذا العالم الجديد، لا يوجد سعر اشتراك ثابت صالح.
الحسابات هنا لم تعد تخرج متوازنة.
مأزق كل الآخرين
هذا يجعل كل الشركات الأخرى في مأزق لا مخرج منه.
كل شركة ذكاء اصطناعي تعرف أن الدفع حسب الاستخدام يمكن أن ينقذهم. وهم يعرفون أيضًا أن ذلك سيقضي عليهم. عندما تفرض رسومًا قدرها 0.01 دولار لكل 1k رمز بشكل مسؤول، يقابلها منافسون يمولهم مستثمرو رأس المال المخاطر يقدمون خدمات غير محدودة بسعر 20 دولارًا في الشهر.
تخيل إلى أين سيذهب المستخدمون؟
مأزق السجناء الكلاسيكي:
- إذا كان الجميع يدفع حسب الاستخدام → سينمو السوق بشكل مستدام
- إذا كان الجميع يدفع سعر ثابت → سيتجه الجميع نحو الإفلاس
- إذا كنت تدفع حسب الاستخدام، وآخرون يسددون سعرًا ثابتًا → ستموت وحدك
- إذا كنت تدفع سعرًا ثابتًا، وآخرون يدفعون حسب الاستخدام → ستفوز (ثم تموت لاحقًا)
لذا، اختار الجميع “الخيانة”. الجميع يخصص الدعم للمستخدمين الأثرياء. الجميع يظهر منحنيات نمو “شكل الهوكي”. في النهاية، أصدر الجميع إعلانًا عن “تحديث مهم للأسعار”.
Cursor, Lovable, Replit - جميعهم يدركون هذه الحسابات. اختاروا نمو اليوم، ربح الغد، مع الإفلاس النهائي، لكن ذلك سيكون مشكلة المدير التنفيذي القادم.
صدقون؟ قد تكون هذه الفكرة صحيحة. في حملة حصر الأراضي، تكون الحصة السوقية أهم من هوامش الأرباح. طالما أن مستثمري رأس المال المخاطر مستعدون لمواصلة كتابة الشيكات لتغطية نماذج الاقتصاديات الضعيفة…
اذهب واسأل Jasper ماذا سيحدث عندما يتوقف الموسيقى.
كيف نتجنب “الإفلاس القسري”؟
هل لا يزال بإمكاننا تجنب “ضغط تكاليف” هذه الرموز؟
مؤخراً، هناك شائعات تشير إلى أن Cognition يرفع تمويله بتقييم قدره 15 مليار دولار، بينما إيراداته الشهرية المتكررة (ARR) الأقل من 100 مليون دولار (وأنا أعتقد أنها أقرب إلى 50 مليون دولار). وهذا يتناقض بشكل حاد مع Cursor الذي يجمع تمويلًا بقيمة 10 مليارات دولار بناءً على 500 مليون دولار من ARR. الإيرادات أعلى بأكثر من ثماني مرات، لكن التقييم هو ثلثين فقط. ماذا يعرف مستثمرو رأس المال المخاطر عن أسرار Cognition التي لا نعرفها؟ كلهم وكالات ذكاء اصطناعي تكتب الشيفرة. هل عثرت Cognition على طريقة للهروب من هذه الدوامة المميتة؟ (سأناقش هذا الموضوع بمزيد من التفصيل في المرة القادمة)
هناك ثلاث طرق للخروج:
1. استخدم نموذج الدفع حسب الاستخدام من اليوم الأول
بدون دعم. بدون “جذب المستخدمين أولاً، ثم تحقيق العائد”. فقط نموذج اقتصادي صادق. تبدو هذه النظرية رائعة.
لكن المشكلة هي، أعطني مثالاً على شركة ذكاء اصطناعي استهلاكية تنمو بسرعة وتستخدم نموذج الدفع حسب الاستخدام. يكره المستهلكون الدفع بالقياس. يفضلون دفع المزيد مقابل اشتراك غير محدود بدلاً من الحصول على فاتورة غير متوقعة. كل خدمة اشتراك استهلاكية ناجحة - مثل Netflix، Spotify، ChatGPT - تستخدم نموذج السعر الثابت. بمجرد أن تضيف عدادًا، يتوقف النمو.
2. تكاليف تحويل عالية ⇒ هوامش ربح عالية
هذا هو الاتجاه الذي يسعى إليه Devin بكل قوته. وقد أعلنوا مؤخرًا عن شراكتهم مع Citibank وGoldman Sachs، حيث سيعملون على نشر Devin لنحو 40,000 مهندس برمجيات لكلا الشركتين. على أساس 20 دولارًا شهريًا، ستكون هذه صفقة بقيمة 10 مليون دولار. لكن السؤال هو: هل ترغب في الحصول على 10 مليون دولار مكانة ARR من Goldman Sachs، أم من المطورين المحترفين بمبلغ 500 مليون دولار من ARR؟
الإجابة واضحة: دورة التنفيذ التي تستمر ستة أشهر، مراجعة الامتثال، تدقيق الأمان، وعملية الشراء المعقدة، تعني أن إيرادات Goldman Sachs قد تكون صعبة ولكن بمجرد ربحها، فإنها لن تفقد أبدًا. يمكنك الفوز بهذه العقود فقط عندما يضع صانع القرار الوحيد في البنك سمعته على المحك—وجميع المعنيين سيبذلون قصارى جهدهم لضمان نجاح المشروع.
هذا هو السبب أيضًا وراء كون أكبر شركات البرمجيات هي تلك التي تبيع “أنظمة السجل” (مثل CRM، ERP، EHRs) لأكثر من شركات خدمات الحوسبة السحابية الواسعة. كما يمكنهم تحقيق هوامش ربح تبلغ 80-90%، لأن كلما كان من الصعب على العملاء الفراق، كان هناك عدم حساسية أكبر للسعر.
وعندما يظهر المنافسون، تكون قد غصت في البنية التحتية للعميل، وستحتاج دورة مبيعات أخرى لمدة ستة أشهر لتغيير الموردين. ليس أنه لا يمكنك مغادرة، بل إن المدير المالي يفضل الموت على خوض تقييم آخر للمورد.
3. التكامل العمودي ⇒ تحقيق الربح من البنية التحتية
هذه هي طريقة Replit: جمع وكلاء البرمجة مع استضافة التطبيقات، إدارة قواعد البيانات، مراقبة النشر، وتسجيل السجلات. كل رمز يُباع بسعر خسارة، لكن يتم التقاط القيمة من جميع الجوانب الأخرى لل stack الفني المخصص للجيل الجديد من المطورين… انظر إلى عمق التكامل العمودي لـ Replit لترى ذلك.
استخدم الذكاء الاصطناعي كمنتج لخدمة العملاء، للدفع من أجل استهلاك الخدمات القادرة على المنافسة مع AWS. ما تبيعه ليس القدرة على الاستدلال، بل كل ما عدا ذلك، يكون الاستدلال مجرد جزء من نفقات التسويق.
تكمن براعته في أن إنشاء الشيفرة يخلق طلبًا فطريًا على خدمات الاستضافة. تحتاج كل应用 لتحمل المكان. تحتاج كل قاعدة بيانات للإدارة. تحتاج كل عملية نشر إلى المراقبة. بينما يتقاتل OpenAI وAnthropic في حرب أسعار على خدمات الاستدلال، يقاربون الربح من كل شيء آخر.
أما الشركات التي لا تزال تلعب لعبة “السعر الثابت، والنمو بأي تكلفة”؟ إنهم مجرّد كائنات سابحة. حجوزاتهم المكلفة قد جرى ترتيبها فقط في الربع الرابع.
وجهتنا
أرى دائمًا المؤسسين يشيرون إلى “دورة عشرة أضعاف في أسعار النماذج في العام المقبل!” وكأنهم أمسكوا بحبل نجاة. بالتأكيد ستحصل. لكن توقعات مستخدميك على النموذج سترتفع بمقدار 20 ضعفًا. تلك الأهداف تبتعد بسرعة عنك.
هل تتذكر Windsurf؟ بسبب ضغوط Cursor على بياناتها المالية، لم تتمكن من إيجاد مخرج. حتى مع وجود أكثر التطبيقات تكاملًا عموديًا في Anthropic، لم يتمكنوا من تشغيل نموذج اشتراك ثابت بلا حدود.
على الرغم من أن ملخص “رفع المستوى يعد كل ما تحتاجه” لا يزال صحيحًا - أي “التقدم خطوة قبل الآخرين أفضل من أن تكون ذكيًا للغاية” - فإن التقدم بلا تخطيط لا يعني إلا أنك وصلت إلى القبر قبل الآخرين. هنا لا يوجد Google سيكتب شيكًا بـ 2.4 مليار دولار للأعمال التي تعاني من خسائر. ولا يوجد “سنجرب مرة أخرى لاحقًا”، لأن “لاحقًا” يعني أن قمامة AWS ستتجاوز إجمالي عائدك.
لذا، في هذا العالم، كيف ستبني عملك؟ الجواب الموجز هو أن تصبح “سحابة جديدة” (neocloud) - وهو أيضًا عنوان مقالي التالي.
لكن على الأقل، ستحصل على نماذج أرخص بعشرة أضعاف العام المقبل، أليس كذلك؟