【توكن مواضيع ممتعة】لماذا يتم احتساب رسوم الذكاء الاصطناعي حسب التوكن؟ دعونا نكتشف!—دليل تعلم الذكاء الاصطناعي040
مقدمة
- سمعت أن الذكاء الاصطناعي يُحتسب بالتوكنات؟
- استخدامه يستهلك الكثير من التوكنات،
- فإذا تركت الكمبيوتر طوال الليل، هل يستهلك الكثير من التوكنات، وكأنك خسرت منزلاً؟
- لماذا نستخدم التوكن للاحتساب؟
- سمعت أن التوكنات تُحتسب في اتجاهين،
- الاستفسار عن الذكاء الاصطناعي يكلف، والردود أيضاً تكلف، أليس هذا مبالغاً فيه؟
- هل يمكن للذكاء الاصطناعي أن يتحدث كثيراً دون فائدة!؟
- هل التوكن هي الكلمات أم الحروف؟
- كيف تتم احتساب رسوم الأحرف الصينية؟
- كيف تتم احتساب رسوم الأحرف العربية؟
- ما هي المعاني المختلفة للتوكن في سياق المعلوماتية في الشركات؟
- المعلوماتية التقليدية تعتمد على الهيكل وقواعد البيانات،
- لماذا تظهر مشكلة التوكن في تطبيقات الذكاء الاصطناعي؟
تحاول هذه المقالة الإجابة عن هذه الأسئلة: ما هو التوكن الذي نسمع عنه كثيراً؟ المقال طويل، تابع القراءة.
في تاريخ تطور الحواسيب، غالباً ما تظهرTerminology تبدو مبهرة لكنها تدخل حياة الجميع مع مرور الوقت؛ كـ Prompt كأحد الأمثلة، والتوكنات كذلك.
فهل هي وسيلة احتساب رائعة قدمتها OpenAI، أم لأسباب أخرى؟
لنبدأ من أصل هذه التوكنات.
في بيئة الشركات، يساعد استخدام تقنيات الذكاء الاصطناعي في تقليل التكاليف وزيادة الكفاءة. معرفة ما هو التوكن يساهم في فهم كيفية تنفيذ الذكاء الاصطناعي في الشركات. بشكل أبسط، يمكن أن نفهمه على أنه كُتل بناء، حيث يسمح بتشكيل التطبيقات التي نحتاجها لزيادة الكفاءة.
أساسيات التوكن
المفهوم الأساسي للتوكن
لننظر أولاً إلى الوصف المتعلق بالتوكن من OpenAI:
- 1 توكن ~= 4 أحرف إنجليزية
- 1 توكن ~= ¾ كلمة
- 100 توكن ~= 75 كلمة
او - 1-2 جملة ~= 30 توكن
- 1 فقرة ~= 100 توكن
- 1500 كلمة ~= 2048 توكن
هل تشعر بالارتباك بعد قراءة كل هذا؟ ما الفرق بين ذلك وبين معرفة عدد الطرق لكتابة “سيرة“؟ دعونا نرى كيف تبدو في الواقع:
تعلم الذكاء الاصطناعي بدقة، ومشاركة المعرفة بفرح
كم عدد التوكن في هذه الجملة؟ يبدو أنها 6 كلمات، لذا يجب أن تكون 6 توكن، أليس كذلك؟ للأسف، ليست كذلك!
في ChatGPT 4، يظهر أنها 10 توكن، حيث تم احتساب علامات الترقيم بشكل منفصل، وتم تقسيم كلمة Joyfully
إلى Joy
و fully
.
من البرمجة إلى الحوار: الحاجة إلى التوكن
اللغة الأساسية للحواسيب مكونة من رموز ثنائية (0 و 1)، وهي الشكل الأساسي لكل البرامج والبيانات. سواء استخدمنا لغات برمجة متقدمة مثل Python أو Java، أو أنواع الملفات المتعددة مثل الصور ومقاطع الفيديو، يتم تحويلها دائماً إلى هذه اللغة الماكنية. في علوم الحاسوب التقليدية، يبذل الخبراء قصارى جهدهم لتحويل تعقيد العالم الحقيقي إلى نماذج مجردة محددة مثل السلاسل النصية (مجموعة من الحروف) والأعداد (الأرقام) لمعالجة المعلومات. هذه الطريقة فعالة جداً في التعامل مع البيانات الهيكلية مثل الحسابات الرياضية أو استعلامات قواعد البيانات.
لكن مع تقدم التكنولوجيا وزيادة احتياجات الناس، نريد أن تتمكن الحواسيب من معالجة ليس فقط الأرقام والكود، بل أيضاً فهم ومعالجة اللغة الطبيعية، وهي لغتنا اليومية. وهنا يدخل ميدان معالجة اللغة الطبيعية (NLP، Natural Language Processing)، الساعي لتمكين الحواسيب من فهم وتفسير وإنتاج اللغة الإنسانية.
نحتاج إلى التوكن لأن اللغة الطبيعية معقدة، ومتنوعة، وتعتمد على السياق، مما يجعل معالجة الأمور أكثر تعقيدًا. نحتاج لحل كيفية فهم الحواسيب لعبارات مثل “اليوم الجمعة، ماذا نفعل في عطلة نهاية الأسبوع؟ هل نبقى في المنزل ونتعلم الذكاء الاصطناعي؟”، وتحليل انطباعاتها أو ترجمتها إلى لغات أخرى. في مثل هذه السيناريوهات، تصبح الأنواع التقليدية من البيانات غير كافية.
لذلك، نحن بحاجة لإدخال مفهوم التوكن. التوكنية تعني تقسيم نصوص معقدة إلى وحدات أصغر وأسهل على الحاسوب معالجتها مثل الكلمات، والعبارات، أو علامات الترقيم. هذا يسمح للحاسوب بمعالجة اللغة بشكل أكثر كفاءة، واستخلاص المعاني من النصوص، بدلاً من مجرد حساب عدد الأحرف.
من الحتمية إلى الغموض: التعلم البرمجي التقليدي يتعامل مع البيانات الواضحة والمتوقعة، بينما يتعلق معالجة اللغة الطبيعية بتفسير الكلمات المتعددة المعاني والسياقات المختلفة.
من البيانات الهيكلية إلى غير الهيكلية: في حين أن البيانات الهيكلية تتعلق بقواعد البيانات المخططة، فإن NLP يتعامل مع النصوص الطبيعية الحرة.
ما هو التوكن؟ ولماذا نحتاج لتحويل النص إلى توكنات؟
تخيلوا استخدام الذكاء الاصطناعي التوليدي، أحد التطبيقات النموذجية هو القدرة على تلخيص سريع، حيث لا نحتاج لقراءة كل كلمة لنفهم المعلومات الرئيسية. تلعب التوكنات دورًا حاسمًا في هذا المعنى، حيث تساعد الحاسوب على “فهم” والتعامل مع كميات كبيرة من النصوص.
ما هو التوكن؟
في معالجة اللغة الطبيعية، يشير التوكن إلى المقاطع ذات المعنى في النص. قد تكون هذه المقاطع كلمات، أو عبارات، أو علامات ترقيم، تمامًا كما هو موضح في المثال أعلاه.
لماذا تحويل إلى توكن؟
تحويل النص إلى توكن أشبه بتفكيك تقرير تجاري معقد إلى أجزاء رئيسية أو تقسيم محتوى رسالة إلى نقاط. هذه التفكيك يمكّن الحاسوب من تحليل اللغة بشكل أكثر فاعلية، مما يسمح بتنفيذ مهام مثل البحث عن المعلومات القانونية، والترجمة الآلية، أو تحليل المشاعر.
على سبيل المثال، إذا افتتح شخص ما فرعًا لعلامته التجارية الجديدة، ويريد تحليل تقييمات العملاء لتحسين المنتج، فإن تقسيم التعليقات إلى توكنات يساعده في التعرف على النقاط الشائعة أو السلبية.
يبدو أن التوكنات هي كلمات، لكن كيف الوضع في الحقيقة؟
الفرق بين التوكن والحروف والكلمات وعلاقتها.
التعريف | الخصائص | المثال | |
---|---|---|---|
حرف | عناصر أساسية تشكل النص | لا تعبر دائمًا عن معنى كامل بشكل مستقل، ويمكن أن تتجمع مع أحرف أخرى لتشكيل كلمات. | سعيد |
كلمة | تتألف من أحرف وتعبر عن معنى | وحدة أساسية لنقل المعلومات، تعبر عن معانٍ أكثر عمقًا مقارنة بالحروف. | أنا سعيد |
توكن | عادة ما يشير إلى الكلمات، لكنه أكثر مرونة، يمكن أن يكون عبارات، أو علامات ترقيم، أو جذور، أو بادئات وغيرها، | يعتمد تعريف التوكن على استخدامه، مثل تحليل النص، أو الترجمة الآلية. | I ، m ، happy |
عند هذه النقطة، بدأنا نفهم أن الأمر يعتمد إلى حد كبير على إدراك الناس للغة نفسها.
على الرغم من أن الحروف، والكلمات، والتوكنات تختلف من الناحية الفنية، إلا أنها مترابطة في معالجة النصوص. الحروف هي أساس تكوين الكلمات، بينما تعتبر الكلمات مكونات التوكن. في التطبيقات العملية، يعتمد التعرف على التوكن واستخدامه على فهم الحروف والكلمات.
على سبيل المثال، إذا كنا نحلل تقرير حول اتجاهات السوق، من خلال التوكن، يمكننا بسرعة التعرف على كلمات رئيسية مثل “نمو”، “مخاطر”، “فرص” ليتمكن التنفيذيون من فهم المحتوى الرئيسي للتقرير.
بشكل عام، التوكنات هي وسيلة تساعد الحاسوب على معالجة وفهم النصوص، مما يجعل المعالجة الآلية ممكنة، ويدعم اتخاذ القرارات المدفوعة بالبيانات بشكل أكثر فعالية.
ولكن كيف يتم إنشاء التوكنات وكيف تتم معالجتها؟ نحن بحاجة للخروج من التفكير البرمجي التقليدي للإجابة على هذا.
إنشاء ومعالجة التوكن
كيف يتم إنشاء التوكنات؟ العملية الدقيقة لتحويل النص إلى توكنات.
graph LR A[عملية معالجة النص] A1[التحضير المسبق] A2[تقسيم الكلمات] A3[تحويل إلى توكن] A4[المعالجة اللاحقة] A --> A1 A --> A2 A --> A3 A --> A4 A1 --> B1[إزالة الأحرف غير المتعلقة] B1 --> B1a[مثل شفرات الويب] A1 --> B2[توحيد النص] B2 --> B2a[موحد حالة الأحرف] B2 --> B2b[تحويل بين الحروف المعقدة والبسيطة] A1 --> B3[إزالة كلمات التوقف] B3 --> B3a[مثل "من"، "قد" إلخ] A2 --> C1[تقسيم الكلمات الإنجليزية] C1 --> C1a[استنادًا إلى الفراغات وعلامات الترقيم] A2 --> C2[تقسيم الكلمات الصينية] C2 --> C2a[تعتمد على الخوارزميات لتحديد حدود الكلمات] A3 --> D1[دمج الكلمات] D1 --> D1a[مثل الأسماء الخاصة "نيويورك"] D1 --> D2[التعرف على العبارات أو التركيبات الثابتة] D1 --> D3[اعتبار علامات الترقيم توكنات مستقلة] A4 --> E1[تحديد الكلمات] A4 --> E2[تحديد دور المعاني]
تختلف النماذج في معالجة التوكنات، ولتسهيل فهم ذلك، نقدم هذه الخطوات. في استخراج القيمة من البيانات المخزنة في النظام المعلوماتي، نحتاج إلى تحديد أولويات القيمة ودراسة تكاليف المعالجة المناسبة.
على سبيل المثال
إنشاء التوكن
التحضير المسبق
حسناً، هنا نص نموذجي يحتوي على مزيج من الصينية، والإنجليزية، والأرقام، ويتضمن أيضًا بعض العناصر التي تحتاج إلى معالجة مسبقة:
1 | في 2024، تطورت تكنولوجيا الذكاء الاصطناعي بسرعة. على سبيل المثال، أصدرت OpenAI نموذج GPT-4o، وهو نموذج قوي للغاية، وقد حقق تقدمًا بارزًا في معالجة <code>اللغة الطبيعية</code>. ولكن، نحتاج لإزالة بعض كلمات الوقف الشائعة التي لا تحمل معلومات، مثل "من"، "قد"، إلخ. لمزيد من التفاصيل حول هذه التقنيات، يُرجى زيارة موقعنا. |
إزالة الأحرف الزائدة:
- إزالة عناصر شفرات الويب مثل
<code>
و</code>
، حيث لا تحتوي عادة على معلومات مفيدة في النص.
- إزالة عناصر شفرات الويب مثل
توحيد النص:
- تحويل جميع الأحرف الإنجليزية إلى أحرف صغيرة للتخلص من فرق الحالة، مثل “OpenAI” تصبح “openai”.
- تحويل الأحرف المعقدة إلى أحرف بسيطة، إذا كان النص يحتوي على أحرف معقدة، على سبيل المثال، تحويل “發展” إلى “发展”.
إزالة كلمات التوقف:
- التعرف على كلمات شائعة لا تحمل عادة معلومات مهمة وإزالتها، مثل “من”، “قد”، إلخ.
بعد هذه الخطوات التحضيرية، سيكون النص أكثر تقنينًا، مما يسهل عملية تقسيم الكلمات ومعالجة التوكنات، مما يحسن دقة وكفاءة المهام التحليلية اللاحقة.
1 | في 2024، تطورت تكنولوجيا الذكاء الاصطناعي بسرعة. على سبيل المثال، أصدرت OpenAI نموذج GPT-4o، وهو نموذج قوي للغاية، وقد حقق تقدمًا بارزًا في معالجة اللغة الطبيعية. ولكن، نحتاج لإزالة بعض كلمات الوقف الشائعة التي لا تحمل معلومات، مثل "قد"، إلخ. لمزيد من التفاصيل حول هذه التقنيات، يُرجى زيارة موقعنا. |
تقسيم الكلمات
تقسيم الكلمات، كما يتضح من الاسم، يعني أخذ الكلمات من الجملة لتسهيل المعالجة لاحقًا. نحن الآن بصدد العثور على المكان المناسب لقطع سلسلة من الخرز.
كيف نقوم بتقسيم الكلمات؟ من الطرق التقليدية التي قد نفكر فيها هي استخدام قاموس لتطابق الكلمات. هذه كانت من الطرق المستخدمة تاريخياً. بعد تقسيمها، تبدو كالتالي:
1 | في / 2024 / تطورت / تكنولوجيا / الذكاء الاصطناعي / بسرعة / . / على / سبيل / المثال / ، / أصدرت / OpenAI / نموذج / GPT-4o / ، / وهو / نموذج / قوي / للغاية / ، / وقد / حقق / تقدمًا / بارزًا / في / معالجة / اللغة / الطبيعية / . / لكن / ، / نحتاج / لإزالة / بعض / كلمات / الوقف / الشائعة / التي / لا / تحمل / معلومات / ، / مثل / "من" / ، / "قد" / إلخ / . / لمزيد / من / التفاصيل / حول / هذه / التقنيات / ، / يُرجى / زيارة / موقعنا |
لكن يجب أن نلاحظ أن عملية تقسيم الكلمات تحتوي على تفاصيل كثيرة. بوجه عام، هناك عدة طرق:
تحديد حدود الكلمة:
- بالنسبة للغات مثل الإنجليزية التي تستخدم الفراغات كفواصل، الأمر بسيط نسبيًا، كما نفهم عند قراءة الإنجليزية ممكن بسهولة من خلال الفراغات.
- للغات مثل الصينية، الأمر معقد أكثر لأنه لا توجد فواصل واضحة، وغالبًا ما يتطلب تحديد التركيب اللغوي استخدام طرق أخرى، مثل القواميس أو القواعد.
استخدام القواميس والقواعد:
- الطريقة المعتمدة على القاموس: فنحن نبحث من قائمة كبيرة (قاموس) للتعرف على النص. هذه الطريقة بسيطة لكنها محدودة، حيث قد تكون الكلمات الجديدة أو النادرة غير موجودة في القاموس.
- الطريقة المعتمدة على القواعد: تستخدم هذه الطريقة قواعد معينة لتحديد العلاقات بين الحروف، مثل قواعد النحو والسياق.
طرق إحصائية وتعلمية:
- تستخدم الطرق الإحصائية لتحليل البيانات لمعرفة أي حروف تظهر معًا بشكل متكرر. من خلال تحليل كميات كبيرة من البيانات النصية، تتعلم هذه الطرق وتكسب القدرة على التنبؤ بحدود الكلمات.
طرق هجينة:
- عادةً ما يتم دمج الطرق المذكورة لتسهيل الدقة والملاءمة في تقسيم الكلمات.
ببساطة:
- الإنجليزية: يعتمد على الفراغات وعلامات الترقيم.
- الصينية: يستخدم الخوارزميات لتحديد حدود الكلمات.
تقسيم الكلمات من خلال أداة جيدة — Jieba، التي لم يتم تحديثها منذ 4 سنوات.
المنطق التقليدي لتقسيم الكلمات لا يأخذ في الاعتبار المعاني السياقية للكلمات في نص، دعونا نرى مثالاً.
1 | لماذا / دائماً / تتحدث / عن / call |
دائماً
هو اسم، لكن لماذا
هو كلمة. هذه التداخلات الجميلة تمتلك وجهاً جذاباً جداً!
بعد تقسيم الكلمات، يتم الشروع في عملية تحويلها إلى توكنات.
تحويل إلى توكن
تحويل التوكن هو خطوة حيوية في معالجة البيانات النصية، حيث يتم تقسيم توكنات النص بشكل أكثر دقة لتناسب احتياجات التحليل والمعالجة اللاحقة. دعونا نستخدم النص الذي قدمته لتوضيح عملية تحويل التوكن.
دمج الأسماء المركبة والعبارات المحددة:
- يتم اعتبار “OpenAI” و “GPT-4o” كتوكنات منفصلة لأنهما أسماء خاصة تحمل معنى مستقلاً.
- ينبغي أيضًا اعتبار “اللغة الطبيعية” كتوكن واحد لأنفسها كتركيبة ثابتة.
اعتبار علامات الترقيم توكنات مستقلة:
- علامات الترقيم مثل الفاصلة (،)، والنقطة (.)، وعلامات الاقتباس (“”) يجب أن تُعتبر توكنات مستقلة لأنها تلعب دورًا في بناء الجملة.
معالجة علامات الاقتباس:
- الإبقاء على المساحات داخل علامات الاقتباس (مثل“”) كخطأ أو توكن غير ذي مغزى وإزالتها.
نتيجة عملية تحويل التوكن
1 | في / 2024 / تطورت / تTechnology / الذكاء / الاصطناعي / بسرعة / . / على / سبيل / المثال / ، / أصدرت / OpenAI / نموذج / GPT-4o / ، / وهو / نموذج / قوي / للغاية / ، / وقد / حقق / تقدمًا / بارزًا / في / معالجة / اللغة / الطبيعية / . / لكن / ، / نحتاج / لإزالة / بعض / كلمات / الوقف / الشائعة / التي / لا / تحمل / معلومات / ، / مثل / "، / ، / إلخ. / . / لمزيد / من / التفاصيل / حول / هذه / التقنيات / ، / يُرجى / زيارة / موقعنا |
هذه النتيجة معالجة بشكل أوثق وأكثر دلالة، مما يجعلها مناسبة لمهام معالجة اللغة الطبيعية اللاحقة مثل تحليل النصوص، وتحليل المشاعر. من خلال عملية تحويل دقيقة إلى توكن، نستطيع التقاط المعاني الهيكلية والبلاغية للنصوص، مما يُوفر أساسًا لفهم النصوص وتحليلها بعمق.
يُذكر أن تحويل التوكن وكتل البيانات مرتبطان ولكنهما مختلفان، حيث التحويل يعنى تحويل المحتوى إلى قيم رقمية، وسنتناول ذلك لاحقًا.
دور القواميس في إنشاء التوكنات.
من خلال التحليل السابق، نرى أن للقواميس دورًا كبيرًا في عملية إنشاء التوكنات.
تحديد الحدود، ضمان التناسق، ضغط المعلومات، زيادة سرعة المعالجة، الحفاظ على المعاني:
من خلال الحفاظ على تحديث القواميس، يمكن تحسين عملية إنشاء التوكنات باستمرار، لتوافق التغيرات اللغوية وظهور كلمات جديدة، مما يرفع من دقة وكفاءة النظام بشكل عام.
معالجة الأحرف الخاصة (مثل علامات الترقيم، والفراغات).
في عملية إنشاء التوكنات، معالجة الأحرف الخاصة هي قضية تتطلب اهتماماً خاصاً. الأحرف الخاصة مثل علامات الترقيم والفراغات تحمل أهمية هيكلية ودلالية في النص:
علامات الترقيم: تشير علامات الترقيم عادةً إلى هيكل الجملة، مثل النقطة في نهاية الجملة، أو الفاصلة المستخدمة للفصل بين العناصر. يتم اعتبار علامات الترقيم توكنات قائمة بذاتها لأنها تؤثر على نبرة الجملة وقدرتها على تغيير المعنى.
الفراغات: في الإنجليزية ولغات أخرى تستخدم أحرف لاذعة، تعتبر الفراغات طريقة الفصل الأساسية. في عملية تحويل التوكن، لا يتم الاحتفاظ بالفراغات كتوكنات ولكن وجودها مهم لتحديد حدود الكلمات. ومع ذلك، في بعض النصوص التنسيقية، قد تُستخدم الفراغات لجماليات بصرية.
أحرف التنسيق الخاصة: مثل علامة الجدولة (Tab) وعلامة السطر الجديد (\n) أيضًا تلعب دورًا في تنسيق النص. في بعض الأحيان قد يحتاج لمعالجة خاصة، مثلاً في معالجة الملفات النصية البسيطة.
تعتبر المعالجة الصحيحة لهذه الأحرف الخاصة جزءًا أساسيًا لضمان تحويل النصوص بشكل سليم إلى توكنات، حيث تؤثر استراتيجيات المعالجة بشكل مباشر على جودة التحليل النصي المستخدم. عند تصميم أنظمة معالجة اللغة الطبيعية، ينبغي أن تُؤخذ استراتيجيات التعامل مع هذه الأنواع من الشخصيات بعين الاعتبار لتلبية احتياجات البيانات والمستخدمين المختلفة.
من خلال المحتوى السابق، نفهم أن كل لغة تتطلب معالجة مختلفة عند التعامل مع التوكنات، وهذه الاختلافات تساعدنا على فهم الأمور بشكل أفضل.
تنوع التوكنات وملاءمتها
طرق تحويل التوكنات في لغات مختلفة
اختلاف البنية النحوية والقواعد اللغوية في مختلف اللغات يتطلب أن تتمتع طرق تحويل التوكنات بالكثير من المرونة والملاءمة. على سبيل المثال:
الإنجليزية واللغات الأوروبية الغربية: عادةً ما يستخدمون الفراغات كفواصل بين الكلمات، مما يجعل عملية تحويل التوكنات أكثر بساطة. على سبيل المثال، يمكن تقسيم الجملة “The quick brown fox” إلى “The”، “quick”، “brown”، “fox” باستخدام الفراغات بسهولة.
الصينية واليابانية والكورية: تلك اللغات لا تمتلك فواصل واضحة بين الكلمات، لذا تصبح عملية تحويل التوكن أكثر تعقيدًا. قد يتطلب التفسير آليات إضافية مثل القواميس أو النماذج الإحصائية لتمييز أي مجموعة من الأحرف تمثل معنى واحد مثل “تطوير سريع” والتي يجب أن تُعتبر كتوكن واحد.
العربية والعبرية: يجب أن تأخذ هذه اللغات في الاعتبار اتجاه الكتابة (من اليمين لليسار) وكذلك مشكلة ربط الأحرف، مما يتطلب متطلبات فريدة لبرامج تحويل التوكن.
فهم هذه الاختلافات يعزز القدرة على معالجة البيانات متعددة اللغات في البيئات التجارية العالمية، مما يُحسن واجهات المستخدم وإنشاء المحتوى، وبالتالي تعزيز تجربة المستخدم وتوسيع السوق.
كيف يتم تحديد حجم التوكنات ودرجة دقتها؟
حجم التوكن ودرجة دقته يعتمد على احتياجات التطبيق المحددة وعمق المعالجة المتوقع:
التوكنات الدقيقة: تُستخدم عادةً في السياقات التي تتطلب فهماً عميقاً للغة، مثل تحليل المشاعر أو البحث الدلالي. على سبيل المثال، تقسيم الكلمات المركبة إلى مكوناتها يمكن أن يساعد في كشف الفروقات الدقيقة في المعاني.
التوكنات الخشنة: تُستخدم في حالات تتطلب معالجة سريعة لكميات كبيرة من البيانات النصية، مثل تصنيف المستندات أو استخراج الكلمات الرئيسية الأولية. تُبسط التوكنات الكبيرة التعقيد وتقلل من الحاجة إلى حسابات معقدة.
تحديد دقة التوكن عادةً يتطلب موازنة بين سرعة المعالجة ودقة المعاني. معرفة المديرين التنفيذيين بهذا يمكن أن يساعد في اتخاذ قرارات أكثر استنارة عند تنفيذ مشاريع الذكاء الاصطناعي حول استخدام التقنيات والأدوات المناسبة لتلبية احتياجات الأعمال الفعلية.
فهم طرق تحويل التوكن في مختلف اللغات ومبادئ تحديد حجم التوكن يمكن أن يساعدك في:
- تحديد مشاريع الذكاء الاصطناعي: فهم تعقيد وتحليلات تحويل التوكن يساعدك في اتخاذ قرارات مستنيرة عند شراء أو تطوير حلول الذكاء الاصطناعي.
- تحسين العمليات العالمية: القدرة على تحويل التوكنات في بيئات متعددة اللغات هي مفتاح نجاح الأنشطة العالمية وتعزز من التواصل عبر الثقافات.
- رفع كفاءة معالجة البيانات: اختيار دقة التوكنات المناسبة يمكن أن يحسن من كفاءة معالجة البيانات وتكاليفها.
فماذا عن تأثير التوكن على النماذج؟
التوكن وأداء نماذج الذكاء الاصطناعي
تؤثر استراتيجية التوكن إلى حد ما على فضاء السياق للنموذج الكبير. عند محادثتنا مع الذكاء الاصطناعي، يكون لدينا عدة تفاعلات، إذا كانت هذه المحتويات كثيرة، قد ينسى الذكاء الاصطناعي المحتويات السابقة. ويمكن فهم هذه النقطة على أنها حدود سياقية. إليكم المزيد عن حدود نموذج اللغة الكبيرة من السنة الماضية.
المصدر: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf
هذا هو البيانات من العام الماضي، إليكم صورة من Gemini.
المصدر: https://beebom.com/gemini-1-5-pro-announced/
تستطيع kimi المحلية معالجة ملفات PDF بحجم 100M، أصبح حجم فضاء السياق نقطة مركزية في الحصول على العملاء. بينما ما التأثيرات التي يحملها ذلك؟
وفقًا للقوانين الحديثة، فإن استراتيجيات التوكن المختلفة تندرج تحت فئات خوارزمية أساسية، وبالتالي فإن تحسين استراتيجيات التوكن لا يمكن أن يكون أكثر فعالية مقارنة بشراء المزيد من وحدات معالجة الرسومات.
أثر التوكن على أداء النماذج
sequenceDiagram participant U as المستخدم participant I as معالجة الإدخال participant M as الحساب النموذجي participant S as نظام التخزين U->>+I: تقديم تاريخ المحادثة (عدد التوكنات) I->>+M: تحليل التوكنات والتحضير للبيانات M->>+M: حساب الانتباه الذاتي Note over M: حساب العلاقة بين كل توكن والآخر M->>+S: طلب ذاكرة إضافية Note over S: زيادة تخصيص الذاكرة بناءً على عدد التوكنات S-->>-M: تأكيد تخصيص الذاكرة M->>M: استمرار حساب الرد M-->>-I: إرسال الرد المتولد
كيف يؤثر عدد التوكنات على تعقيد الحساب وذاكرة النماذج؟
في نماذج الذكاء الاصطناعي التوليدي، مثل GPT-4 أو غيرها من النماذج المعتمدة على Transformer، يرتبط عدد التوكنات مباشرة بتعقيد الحساب وذاكرة النموذج المستخدمة. كلما زاد عدد التوكنات، كان على النموذج معالجة المزيد من نقاط البيانات، مما يزيد من العبء الحسابي أثناء التدريب والاستدلال، كما يزيد من حاجة الذاكرة. على سبيل المثال، أثناء تدريب نموذج لغوي، يحتاج النموذج لتخزين وحساب علاقة كل توكن مع كافة التوكنات الأخرى، وهذا يكون واضحًا جداً في آلية الانتباه الذاتي للنموذج.
مثال توضيحي: إذا اعتبرنا مشروع دردشة ذكي، إذا كان تاريخ المحادثة المدخل طويلًا (أي عدد التوكنات كبير)، قد يتباطأ النموذج في توليد الرد، ويستهلك موارد حسابية أكبر. مثلاً، إذا كان تاريخ المحادثة يتضمن آلاف التوكنات، قد يؤدي ذلك إلى انخفاض ملحوظ في سرعة المعالجة، خاصةً على الأجهزة ذات الموارد المحدودة.
يمكننا أن نستنتج أن تلك الشركات الكبرى في تصنيع النماذج لا تزيد من سعة نماذجها لأسباب عملية. هل يعني حجم أكبر أداء أفضل؟
هل المزيد من التوكنات تعني أداء نموذج أفضل؟
ليس بالضرورة أن المزيد من التوكنات دائماً تعني أداء نموذج أفضل. في الذكاء الاصطناعي التوليدي، يمكن أن يساعد العدد المناسب من التوكنات النموذج في التقاط وفهم السياق بشكل أفضل، مما يحسن من صلة وجودة المخرجات. ومع ذلك، يعتبر وجود الكثير من التوكنات قد يؤدي إلى إدخال معلومات غير ذات صلة، مما يقلل من فعالية النموذج وجودة مخرجاته.
مثال توضيحي: في نظام الذكاء الاصطناعي لتوليد التقارير، يمكن أن يضمن تقسيم التوكنات بدقة إبراز المعلومات المهمة، بدلاً من انغماسها في العديد من التفاصيل غير الضرورية. على سبيل المثال، إذا كان النظام يحتاج إلى توليد ملخصات من العديد من الأخبار المالية، قد تؤدي الكثير من التوكنات إلى تقارير متخمة ومتجاهلة للمعاني الأساسية.
تُعتبر معالجة الملفات الكبيرة من قبل الشركات الكبرى المحتمل استخدام استراتيجيات مشابهة لاستراتيجية التخزين السحابي، حيث يدخل الشخص A ملفاً، وعندما يدخل الشخص B، قد لا يتم تحليل الملف مجددًا، بل يستخدم نتائج التحليل القديمة. مع زيادة المحتوى، يظهر ميزته الخاصة في المنتجات.
تحسين استخدام التوكنات
كيف نجد نقطة التوازن بين عدد التوكنات وأداء النموذج؟
ترتبط استراتيجيات التوكن هنا بشكل مباشر باستراتيجيات استخدامنا العادية ضمن النصوص، مما يعزز النتائج لتحقيق توقعاتنا.
البحث عن نقطة التوازن بين عدد التوكنات وأداء النموذج هو المفتاح لضمان أن النماذج الذكية فعالة ودقيقة في ذات الوقت. غالباً ما يتطلب ذلك تجربة الأخطاء وتعديلها، واستخدام تقنيات ضبط النموذج المتقدمة.
مثال توضيحي: في أنظمة توليد المحتوى الآلي، فإن كيفية التوازن بين استخدام التوكنات تعتبر من التحديات النموذجية. قد تحتاج الأنظمة إلى استخراج المعلومات الجوهرية من نصوص طويلة لتوليد ملخصات. في وسط ذلك، يأتي اختيار عدد مناسب من التوكنات الذي يحافظ على كمية معلومات كافية مع تجنب تعقيدات الهيكلة الزائدة.
العلاقة بين التوكنات ونافذة السياق وتأثيرها على جودة النصوص المولدة.
في الذكاء الاصطناعي التوليدي، ترتبط التوكنات وضبط نافذة السياق بشكل مباشر بجودة النصوص المتولدة من ناحية تواصلها وسلاستها. كلما زادت مساحة النافذة، زادت المعلومات التاريخية التي يمكن للنموذج الاعتماد عليها في توليد النص، مما يلبي انسيابية أكبر وطبيعية في النصوص المولّدة.
مثال توضيحي: إذا استخدم نموذج ذكاء اصطناعي لتوليد مقالات مدونة تقنية، إذا كانت مساحة النافذة صغيرة جداً، قد لا يستطيع النموذج الربط الفعال بين أجزاء المقال، مما يؤدي إلى فقدان الاتصال في المحتوى المتولد. من خلال تحسين استخدام التوكنات وضبط حجم نافذة السياق، يمكن تحسين جودة المقال وزيادة قابلية القراءة.
دعونا ننتقل إلى الموضوع الذي بدأنا بالحديث عنه. بالنسبة للأنظمة التطبيقة، نهدف إلى تحسين تجربة المستخدم، لكن يجب أن نأخذ تكاليف المشروع بعين الاعتبار.
التطبيقات التجارية للتوكنات ونماذج احتساب الرسوم
لنلق نظرة على جدول يوضح كيفية احتساب الرسوم للنماذج الكبيرة
بشكل عام، يمكن أن تنقسم استخدامات النماذج الكبيرة إلى محادثات عبر الويب واستدعاءات برمجية عبر API. على الويب، يستخدم OpenAI نموذج قياسي كتعرف لـ 20 دولارًا شهريًا. أما في حالة استدعاء API، الأمور تكون معقدة أكثر بكثير.
لعبة القط والفأر، حتى مع ChatGPT Plus، لا تزال هناك حدود لعدد الجولات خلال ثلاث ساعات. العديد من الأشخاص حاولوا استخدام برامج مشابهة عبر الويب باستخدام ChatGPT بدلاً من استدعاء API، وتم التخلص من هذا النوع من الأكواد المصدرية!
ذات يوم، كان منطق احتساب خدمة الاتصالات يعتمد على طول مدة المكالمات، وتاريخ مماثل لمرحلة من الربحية العالية، ثم جاء نموذج الاشتراكات الشهرية، مشابه لأسلوب احتساب رسوم التوكن اليوم.
منطق احتساب التوكن
لماذا نستخدم احتساب الرسوم بالتوكن؟ ما هو منطقيته ونموذج الأعمال؟
يعتبر نموذج احتساب الرسوم بالتوكن شائعًا في خدمات الذكاء الاصطناعي، خاصة عند استخدام نماذج لغوية مثل OpenAI. تعتمد طريقة الاحتساب على كمية الاستخدام الفعلية، أي عدد التوكنات التي تتم معالجتها في كل طلب.
المنطقية:
تعود منطقيته إلى قدرة النموذج على عكس استهلاك الموارد بشكل دقيق. كل توكن يمثل وحدة من المعلومات التي يجب معالجة النموذج. وبالتأكيد، المزيد من التوكنات تعني المزيد من استهلاك الموارد. لذلك، هذه الطريقة تضمن أن يدفع المستخدمون حسب الاستهلاك الفعلي، مما يشجعهم على تحسين إدخالهم وتجنب الهدر غير الضروري.
نموذج الأعمال:
من الناحية التجارية، يوفر نموذج احتساب التوكن إطاراً مرنًا وعادلاً لمزودي خدمات الذكاء الاصطناعي. يمكن لمزودي الخدمة تحديد مستويات سعر مختلفة بناءً على الحمل التشغيل والتكاليف، لجذب العملاء بمختلف الاحتياجات، ودعم قاعدة عملاء متنوعة من المطورين الصغار إلى المؤسسات الكبيرة.
مقارنة احتساب التوكن مع طرق احتساب أخرى (مثل عدد الكلمات، وعدد الأحرف، والوقت)
بالنظر إلى طرق احتساب أكثر شيوعاً، يمكن أن يتمتع احتساب التوكن بمزايا محددة وقيود:
احتساب عدد الكلمات والأحرف: هذه الطرق واضحة وسهلة الفهم والتخطيط. ومع ذلك، نادرا ما تأخذ في الاعتبار تعقيد المعالجة والاستخدام الفعلي للموارد. على سبيل المثال، معالجة جملة طويلة تحتوي على مفردات بسيطة قد تكون أسهل من التعامل مع مصطلح تقني، ومع ذلك، قد يكون احتساب التكلفة على أساس عدد الكلمات أعلى.
احتساب بالأساس الزمني: نموذج الاحتساب القائم على الزمن (مثل احتساب بضع دقائق أو ساعات) يصلح للخدمات المستمرة، مثل معالجة البيانات أو التعلم عبر الإنترنت. لكن بالنسبة للمهام السريعة القائمة على الطلب، قد يؤدي هذا النموذج إلى احتساب التكاليف بشكل غير عادل.
graph TD; A[احتساب التوكن] -->|يعكس الاستخدام الفعلي للموارد| B[توزيع عادل للموارد]; A -->|يحفز كفاءة إدخال البيانات| C[تشجيع التبسيط]; D[احتساب عدد الكلمات/عدد الأحرف] -->|بسيط وواضح| E[سهل الفهم والتخطيط]; D -->|لا يأخذ تعقيد المعالجة في الاعتبار| F[قد يؤدي إلى تضليل في التكاليف]; G[احتساب زمانی] -->|ملائم للخدمات المستمرة| H[معالجة البيانات الحية/التعلم عبر الإنترنت]; G -->|غير مناسب للمهام السريعة| I[قد يؤدي إلى عدم المساواة في الحسابات];
يوفر احتساب التوكن مقياسًا أوضح يمكنه تمكين تدفق الاستخدام الفعلي للموارد.
بشكل مشتملي، تتضمن التكاليف بالنسبة للشركات المصنعة للنماذج الكبرى ما يلي بشكل تقريبي:
- تكاليف البحث والتطوير (الأيدي العاملة + التجارب)
- تكاليف التدريب (الموارد الحاسوبية + معالجة البيانات)
- تكاليف النشر (البنية الأساسية + تخزين البيانات)
- تكاليف الصيانة والتحديث
- تكاليف التنظيم الأخلاقي (أمان البيانات، توافق البيانات)
لا يبدو معقولاً أن تتوزع هذه التكاليف عبر التوكن، وتبقى الأمور ضمن تقديرات المتخصصين في المجال، قد تكون الطريقة الأكثر ملاءمة للتقدير في هذه المرحلة.
التأثير الواقعي للاحتساب بالتوكن
تأثير طرق الاحتساب المختلفة على المستخدمين والمطورين.
يعني نموذج احتساب الرسوم بالتوكن أن يحتاج المستخدم إلى إدارة طلبات API بعناية للسيطرة على التكاليف. يجب على المطورين تصميم استفسارات فعالة لتقليل استخدام التوكن الزائد وتحقيق أقصى فائدة من كل طلب. يعزز هذا النوع من الاحتساب المطورين لتحسين إدخالات البيانات وعمليات المعالجة، ولكن يمكن أن يزيد أيضًا من تعقيد تطوير العمليات أو الصيانة المطلوبة.
يستفيد المزود أيضًا، حيث يساعده احتساب التوكن في التوازن بين تحميل الخادم، وتوقع الإيرادات، وتحسين تخصيص الموارد. يمكن أن عملها كآلية ملاحظات لتوجيه تحسين المنتجات وتعديل استراتيجيات التسعير، لمساعدة المزود على تلبية احتياجات السوق بشكل أفضل.
كيفية تحسين استخدام التوكن للحد من التكاليف؟
تحسين استخدام التوكن هو مفتاح السيطرة على التكاليف. يمكن تحقيق ذلك من خلال الوسائل التالية:
- ترشيد بيانات الإدخال: قبل إرسال الطلبات، يجب إزالة البيانات غير الضرورية والنصوص الزائدة، والحفاظ فقط على المعلومات الرئيسية.
- استخدام تصميم استفسارات فعال: تصميم استفسارات محسوبة لتجنب التعقيدات أو الطلبات المعقدة.
- استغلال استراتيجيات التخزين المؤقت: لتقليل الاستعلامات على الخدمات الخلفية عن طريق استخدام نتائج الاستفسارات الشائعة.
- المراقبة والتحليل: تحليل دورى لبيانات استهلاك التوكن، لتحديد مناطق التحسين، وضبط الاستراتيجيات للحد من الهدر.
من خلال هذه الاستراتيجيات، يمكن ليس فقط تقليل التكاليف، بل أيضًا تحسين سرعة استجابة النظام ورضا المستخدم، مما يتيح ميزة في السوق التنافسية.
القيمة التجارية للتوكن وحالات التطبيقات
التطبيق العملي للتوكن في الأعمال
في تشغيل الشركات، يمكن أن تعزز تقنيات تحويل التوكن من كفاءة معالجة البيانات وجودة اتخاذ القرارات. بالنسبة للمديرين التنفيذيين غير التقنيين، يمكن أن يساعد فهم استخدام التوكن في تقييم استثماراتهم التكنولوجية ودفع الابتكار التجاري.
graph LR; A[وجهة نظر تقنية: دور التوكن في معالجة اللغة الطبيعية] B[وجهة نظر تجارية: دور التوكن في تعزيز قيمة الشركات] A --> A1[استخراج المعلومات\nالاستخراج السريع للمعلومات الهامة] A --> A2[تحليل المشاعر\nتحديد مشاعر العملاء] A --> A3[تلخيص تلقائي\nإنشاء ملخصات للوثائق] B --> B1[تحسين التفاعل مع العملاء\nخدمة عملاء على مدار الساعة] B --> B2[تحليل السوق\nالحصول على معلومات الاتجاهات] B --> B3[توصيات شخصية\nزيادة معدل المعاملات] style A fill:#8ecae6,stroke:#333,stroke-width:4px style B fill:#90be6d,stroke:#333,stroke-width:4px style A1 fill:#219ebc,stroke:#333,stroke-width:2px style A2 fill:#219ebc,stroke:#333,stroke-width:2px style A3 fill:#219ebc,stroke:#333,stroke-width:2px style B1 fill:#ffb703,stroke:#333,stroke-width:2px style B2 fill:#ffb703,stroke:#333,stroke-width:2px style B3 fill:#ffb703,stroke:#333,stroke-width:2px
وجهة نظر تقنية: دور التوكن في معالجة اللغة الطبيعية
يعد تحويل التوكن عملية تفكيك بيانات النصوص المعقدة إلى وحدات سهلة الإدارة، مما يمكّن أنظمة الذكاء الاصطناعي من إجراء تحليلات فعالة. تكون هذه العملية حيوية في معالجة اللغة الطبيعية، حيث تمكن الآلات من “فهم” اللغة البشرية وسرعة تنفيذ مهام مثل:
- استخراج المعلومات: تساعد التوكنات في استخراج المعلومات الهامة بسرعة من نصوص كبيرة مثل تسليط الضوء على المواد القانونية بطريقة سريعة.
- تحليل المشاعر: من خلال تحليل ردود عمل العملاء المرتبطة بالتوكنات، يمكن للشركات التعرف على مشاعرهم نحو المنتجات أو الخدمات، مما يمكنهم من تعديلها وفق ذلك.
- تلخيص تلقائي: تعزز تقنيات تحويل التوكن من القدرة على توليد ملخصات تلقائية، مما يزيد كفاءة العمل للعاملين في المعرفة.
وجهة نظر تجارية: دور التوكن في تعزيز قيمة الشركات
في الجانب التجاري، لا تعزز التوكنات فقط الكفاءة العملياتية، بل تفتح أيضًا نماذج عمل جديدة وقنوات إيرادات:
- تحقيق تحسين في التعامل مع العملاء: من خلال استخدام الشات بوتات المعتمدة على التوكن، يمكن تقديم خدمات عملاء على مدار الساعة وبالتالي زيادة رضا العملاء وتقليل تكاليف الخدمة.
- تحليل السوق: يساعد تحليل التوكن في استخلاص البيانات السريعة حول اتجاه السوق، مما يمكّن من دعم القرارات الاستراتيجية.
- تخصيص التوصيات: في منصات التجارة الإلكترونية، يمكن لتقنية تحويل التوكن تحليل سلوكيات العملاء في الشراء، مما يساعد على تقديم توصيات مخصصة ومن ثم زيادة معدل التحويل.
تحليل حالات عملية
روبوتات خدمة العملاء
أحد التطبيقات النموذجية هو روبوتات خدمة العملاء. على سبيل المثال، أعطت شركة اتصالات محاولة نشر روبوت خدمة العملاء المعتمد على التوكنات للرد على استفسارات المستخدمين مثل الاستفسارات حول الفواتير أو انقطاع الخدمة. يقوم الروبوت بتحليل استفسارات العملاء (بعد تحويلها إلى توكنات) للإجابة الصحيحة بسرعة أو إحالة القضية إلى القسم المناسب.
أنظمة توصية المحتوى
في مجالات الإعلام والترفيه، تُستخدم أنظمة التوصية تقنيات التحويل التوكن لتحليل عادات المشاهدة أو القراءة للمستخدمين واقتراح أفلام جديدة أو كتب أو مقالات قد تهمهم. يعد نظام التوصية في Netflix مثالاً على ذلك، حيث يحلل أوصاف العروض السابقة التي تابعها المستخدم للتنبؤ بالعروض التي قد تعجبه.
القيمة التجارية للتوكن وآفاق التطبيقات
في الأنشطة التجارية، فهم واستخدام التوكن بشكل فعّال يمثل حجر الزاوية لنجاح مشاريع الذكاء الاصطناعي. إدراك القيمة التجارية للتوكن وتحدياته هامة لوضع الاستراتيجيات والتوجه لاستيعاب الابتكار التكنولوجي.
التطبيقات التجارية للتوكن
وجهة نظر تقنية: دور التوكن
تحقق التوكنات في معالجة اللغة الطبيعية من معالجة المعلومات بشكل فعال. باختصار، تحويل التوكنات هو عملية تقسيم النصوص الطويلة المعقدة إلى كتل معالجة صغيرة، مما يمنح نماذج التعلم الآلي قاعدة عملية.
- معالجة البيانات: عند معالجة استفسارات العميل، تحليل ردود السوق، أو إدارة كميات ضخمة من الوثائق، فإن تحويل التوكنات يجعل المعلومات المعقدة سهلة الإدارة.
- رفع الكفاءة: بفضل تحويل التوكنات، يمكن لنماذج الذكاء الاصطناعي التعرف بسرعة على المعلومات المهمة، مما يسرع من عمليات اتخاذ القرار.
وجهة نظر تجارية: القيمة الاقتصادية للتوكن
فمن الناحية التجارية، يعد التوكن أحد الأجزاء المهمة في التنفيذ التكنولوجي، ويرتبط مباشرة بتحسين الكفاءة التشغيلية، وتعزيز تجربة العملاء، وفتح نماذج عمل جديدة.
تحسين خدمة العملاء: سهلت التوكنات إمكانية الأتمتة، مما مكن من استخدام نظم الاستجابة التلقائية لتحسين الاستجابة السريعة والمناسبة لاستفسارات العملاء، وبالتالي زيادة رضاهم عن العلامة التجارية.
التسويق الشخصي: من خلال تحليل سلوكيات وتفضيلات العملاء بفضل التحليل المعتمد على التوكنات، يمكن للشركات تقديم محتوى تسويقي مخصص، مما يعمل على زيادة معدلات التحويل.
التوجهات المستقبلية وآفاق التحديات
اتجاهات قادمة
مع تقدم التقنيات الذكية، من المتوقع أن تصبح تطبيقات التوكن أكثر ذكاءً وتنوعًا:
- التطبيقات عبر الوسائط: ستمتد تقنيات التوكن لتشمل معالجة أنواع أخرى من المحتوى مثل الفيديو والصوت، مما يدعم تطبيقات أوسع نطاقًا.
- التحسين الذكي: ستصبح طرق إنشاء ومعالجة التوكنات أكثر ذكاءً، مثل استخدام الذكاء الاصطناعي في تعديل دقة وعدد التوكنات لتلبية احتياجات الأعمال المتغيرة.
التحديات التجارية والفرص
- أمان البيانات والخصوصية: يبقى الحفاظ على أمان البيانات وخصوصية المستخدمين أحد التحديات الأساسية، لا سيما عند معالجة المعلومات الحساسة.
- تكامل التكنولوجيا: يعد كيفية دمج تقنيات التوكن بسلاسة مع الأنظمة والعمليات القائمة من المبادئ الأساسية لتحقيق التحولات التكنولوجية.
- العدالة والشفافية: تعتبر تأكيد القرارات الناتجة عن تحليل التوكنات عادلة وشفافة، مما يعزز من ثقة جميع المعنيين.
الخاتمة
عند كتابة هذا المقال، أعطت لين مياو الاتجاهات الحديثة (شكرًا)، https://arxiv.org/abs/2104.12369، من خلال ممارسات نموذج بانغو من هواوي، يُظهر أن تطوير التوكنات في المجال الصيني قد يتجه نحو المزيد من التبسيط، ما زال الأمر يحتاج إلى مزيد من المراقبة.
قبل كتابة هذا المقال، كان فهمي للتوكنات محدوداً بالتعريف البسيط الذي يقول إن حرفاً واحداً يساوي توكناً واحداً، وأيضاً كنت أخلط بين التوكن والقياس، فما زالت هناك حاجة لعمليات التحويل للتوكن. لنتبنى الذكاء الاصطناعي بفاعلية، ونستعد للتغيير، نتساءل كيف يمكن أن تُستخدم البيانات بشكل أفضل في أنظمة الشركات الحالية؟ يمكن أن تبدأ هذه العملية من هنا!
الروابط المرجعية
- https://platform.openai.com/tokenizer
- https://arxiv.org/abs/2104.12369
- https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
- https://www.coindesk.com/learn/a-beginners-guide-to-ai-tokens/
- https://ogre51.medium.com/context-window-of-language-models-a530ffa49989
- https://cobusgreyling.medium.com/rag-llm-context-size-6728a2f44beb
- https://www.humanfirst.ai/blog/how-does-large-language-models-use-long-contexts
- https://slator.com/10-large-language-models-that-matter-to-the-language-industry/
- https://yourgpt.ai/blog/general/long-context-window-vs-rag
- https://github.com/datawhalechina/hugging-llm/blob/main/content/chapter1/ChatGPT%E5%9F%BA%E7%A1%80%E7%A7%91%E6%99%AE%E2%80%94%E2%80%94%E7%9F%A5%E5%85%B6%E4%B8%80%E7%82%B9%E6%89%80%E4%BB%A5%E7%84%B6.md
- https://gpt-tokenizer.dev/