写在前面

คุณเคยได้ยินไหมว่า AI คิดเงินตาม Token?
- การใช้งานนี้ใช้ Token เยอะจัง
- คอมพิวเตอร์เปิดทั้งคืน ใช้ Token ไปเยอะ จะรู้สึกเหมือนเสียเงินซื้อบ้านเลยไหม?
ทำไมต้องใช้ Token ในการคิดเงิน?
- มีคนบอกว่า Token คิดเงินแบบสองทาง
- ถาม AI คิดเงิน แล้วคำตอบก็คิดเงินด้วย นี่มันไม่เกินไปหน่อยเหรอ?
- แล้ว AI จะไม่พูดจาเหลวไหลบ้างเหรอ!
Token คือตัวอักษรหรือคำกันแน่?
- แล้วภาษาจีนจะคิดเงินยังไง?
- แล้วภาษาอาหรับจะมีวิธีการคิดเงินยังไง?
Token มีความหมายต่างกันในกระบวนการทำให้ข้อมูลในภาคธุรกิจอย่างไร?
- เทคโนโลยีสารสนเทศแบบดั้งเดิมสร้างโครงสร้างและดูแลฐานข้อมูล
- ทำไมการใช้ AI ถึงมีปัญหาเกี่ยวกับ Token?

บทความนี้จะพยายามตอบคำถามที่เรามักจะได้ยินเกี่ยวกับ Token มันคืออะไร? เพราะมันมีข้อสนใจหลายๆ ด้าน มาอ่านกันเถอะ

ในประวัติศาสตร์การพัฒนาด้านคอมพิวเตอร์ มักจะมีคำศัพท์ที่ดูน่าทึ่ง แต่สุดท้ายก็ถูกใช้งานในชีวิตประจำวันจนกลายเป็นเรื่องธรรมดา อย่างเช่น คำว่า Prompt ซึ่งเป็นตัวอย่างหนึ่ง และแน่นอนว่า Token ก็เช่นเดียวกัน แม้ว่ามันจะยังไม่หยุดอยู่แค่นั้น

แล้วฟังก์ชันตัวนี้เกิดขึ้นจาก OpenAI? หรือเป็นเพราะบริษัทอื่นๆ ในวงการเห็นว่านี่คือวิธีการคิดเงินที่ดีที่สุด? มาคุยกันจากจุดเริ่มต้นกันเลย

ในสภาพแวดล้อมขององค์กร การใช้เทคโนโลยี AI เพื่อช่วยให้ลดต้นทุนและเพิ่มประสิทธิภาพ การเข้าใจเกี่ยวกับ Token จะช่วยให้เราเข้าใจการลงมือใช้ AI ในองค์กรได้ดีขึ้น สามารถเข้าใจได้ว่า Token เปรียบเสมือนบล็อกที่เราต้องรวมกันเพื่อสร้างแอปพลิเคชันที่เราต้องการ ทำให้ประสิทธิภาพดีขึ้น

Token 基础

Token 基本概念

ก่อนอื่นเรามาดู OpenAI บรรยายเกี่ยวกับ Token:

1 Token ≈ 4 อักษรภาษาอังกฤษ
1 Token ≈ ¾ คำ
100 Tokens ≈ 75 คำ
หรือ
1-2 ประโยค ≈ 30 Tokens
1 ย่อหน้า ≈ 100 Tokens
1,500 คำ ≈ 2048 Tokens

อ่านแล้วรู้สึกยังไง? งงไหม? มันคล้ายๆ กับการถามว่าคนในวรรณกรรมจะรู้จักการเขียนคำว่า “หวน” กี่แบบคืออะไรไหม? มาลองมองดูอีกสักครั้ง:

Learning AI Meticulously, Sharing Knowledge Joyfully

เดาได้ไหมว่าวลีนี้มี Token เท่าไหร่? 6 คำ ก็ต้องเป็น 6 Token แน่นอน? ไม่มีทาง!

ใน ChatGPT 4 มันคือ 10 Token โดยพิจารณาจากสีที่พอกรูปร่าง ดูเหมือนสัญลักษณ์เครื่องหมายจะถูกนับแยกต่างหาก โดย Joyfully ถูกแบ่งเป็น Joy และ fully ซึ่งกัน

从代码到对话：引入 Token 的必要性

ภาษาหลักของคอมพิวเตอร์ทำจากรหัสไบนารีที่เป็น 0 และ 1 ซึ่งเป็นแบบฟอร์มพื้นฐานที่สุดของโปรแกรมและข้อมูล ไม่ว่าจะเป็นภาษาโปรแกรมระดับสูงที่เราใช้ เช่น Python หรือ Java รวมถึงไฟล์มัลติมีเดียต่างๆ เช่น รูปภาพและวิดีโอ ก็จะถูกแปลงเป็นภาษาของเครื่อง ในทางวิทยาศาสตร์คอมพิวเตอร์แบบดั้งเดิม ผู้เชี่ยวชาญพยายามพิสูจน์ความยุ่งยากในโลกแห่งความจริงผ่านการกำหนดประเภทข้อมูลที่ชัดเจนเช่น สตริง (ชุดของตัวอักษร) และจำนวนเพื่อจัดการข้อมูล วิธีการนี้ทำงานได้ดีเมื่อจัดการกับข้อมูลที่มีโครงสร้าง เช่น การคำนวณทางคณิตศาสตร์หรือการค้นหาฐานข้อมูล

แต่เมื่อเทคโนโลยีพัฒนาขึ้นและความต้องการมากขึ้น เราต้องการให้คอมพิวเตอร์ไม่เพียงแค่จัดการกับตัวเลขและรหัส แต่ยังสามารถเข้าใจและจัดการกับภาษาเป็นธรรมชาติ ซึ่งก็คือภาษาที่เราใช้ในชีวิตประจำวันของเรา นี่คือการนำเอาฟิลด์การประมวลผลภาษาธรรมชาติ (NLP) ซึ่งมีจุดมุ่งหมายเพื่อทำให้คอมพิวเตอร์เข้าใจ อธิบาย และสร้างภาษาในวิธีที่มนุษย์สื่อสาร

เมื่อพิจารณาถึงลักษณะเด่นของภาษาธรรมชาติ เช่น ความหลากหลาย การพึ่งพาบริบท และความคลุมเครือ ความท้าทายที่เรามีไม่ใช่เรื่องง่ายอย่าง 1+1=2 แต่เรากำลังแก้ไขว่าอย่างไรให้คอมพิวเตอร์เข้าใจประโยคที่ว่า “วันนี้วันศุกร์ เสาร์-อาทิตย์ไปที่ไหนดี? อยู่บ้านเรียน AI ดีไหม?” และวิเคราะห์อารมณ์หรือแปลไปยังอีกภาษาหนึ่ง ในกรณีนี้ ประเภทข้อมูลแบบดั้งเดิมอาจไม่เพียงพอ

ดังนั้นนี่คือเหตุผลที่เราต้องนำเสนอแนวคิดของ Token Tokenization คือการทำให้ข้อมูลข้อความที่ซับซ้อนแตกออกเป็นหน่วยที่เล็กลงและคำนวณได้ง่ายขึ้น เช่น คำ วลี หรือเครื่องหมายวรรคตอน ด้วยวิธีนี้ คอมพิวเตอร์จะสามารถจัดการกับการประมวลผลทางภาษาได้อย่างมีประสิทธิภาพมากขึ้น โดยสามารถแปลความหมายจากข้อความแทนที่จะนับเพียงจำนวนตัวอักษรเท่านั้น

从确定性到模糊性：โปรแกรมมิ่งด้านดั้งเดิมจัดการกับข้อมูลที่ชัดเจนและสามารถคาดการณ์ได้ ในขณะที่ NLP เกี่ยวข้องกับการตีความคำหลายความหมายและภาษาที่สัมพันธ์กับบริบท

从结构化到非结构化：เมื่อเปรียบเทียบกับฐานข้อมูลหรืออัลกอริธึมที่มีโครงสร้าง NLP ให้การจัดการกับข้อมูลภาษาเชิงเสรีที่รวดเร็ว

什么是 Token？为什么需要将文本转换成 Token？

ลองนึกดู ในช่วงเวลาสมัย AI รุ่นที่สร้างสรรค์ แห่งหนึ่งที่มีการใช้งานอย่างเห็นได้ชัดคือการสรุปข้อมูลอย่างรวดเร็ว โดยที่เราไม่จำเป็นต้องอ่านประโยคแต่ละประโยค เราสามารถเข้าใจข้อมูลสำคัญได้อย่างรวดเร็ว โดยที่ Token มีบทบาทสำคัญในการช่วยให้คอมพิวเตอร์ “เข้าใจ” และจัดการกับข้อความจำนวนมาก

Token คืออะไร?

ในกระบวนการประมวลผลภาษาธรรมชาติ Token มักหมายถึงชิ้นส่วนที่มีความหมายในข้อความ ชิ้นส่วนเหล่านี้อาจเป็นคำ วลี หรือเครื่องหมายวรรคตอน เช่นเดียวกับในกรณีในภาพด้านบน

ทำไมต้องแปลงเป็น Token?

การแปลงข้อความให้เป็น Token เหมือนกับการเปิดรายงานธุรกิจที่ซับซ้อนไปยังส่วนที่สำคัญหรือลดเนื้อหาในอีเมลให้เป็นโครงร่าง สิ่งนี้ทำให้คอมพิวเตอร์สามารถจัดการและวิเคราะห์ภาษาได้อย่างมีประสิทธิภาพมากขึ้น เพื่อทำงานที่เช่นการค้นหาข้อมูลสำคัญ แปลอัตโนมัติ หรือการวิเคราะห์อารมณ์

เช่น มีคนเปิดสาขาร้านใน Meituan ต้องการวิเคราะห์ความคิดเห็นจากลูกค้าเพื่อนำไปปรับปรุงผลิตภัณฑ์ (ปรับปรุง? ยอมรับก่อนละกัน) การแยกความเห็นเป็น Token ก็สามารถช่วยระบุปัญหาทั่วไปหรือตำหนิของคะแนนต่ำ

ดูเหมือนว่า Token คือคำ แต่ในความเป็นจริงล่ะ?

Token 与字符、单词的区别与联系。

	定义	特点	示例
字符	构成文本的基础元素`	不一定独立表达完整意义，与其他字符组合可形成词汇。	happy
单词	由字符构成，能够表达一定意义的耽误	是传达信息的基本单位，比单个字符表达的信息更丰富。	I’m happy
Token	通常对应单词，但是更灵活，可能是短语，标点，还有可能是词根，前缀等，	Token的定义取决于其用途，例如文本分析、机器翻译等。	`I`，`'m`, `happy`

เมื่อถึงจุดนี้ เราเริ่มรู้สึกได้ว่าทุกสิ่งขึ้นอยู่กับการเข้าใจภาษาอย่างแท้จริง

แม้ว่าตัวอักษร คำ และ Token อาจแตกต่างกันในทางเทคนิค แต่ทั้งหมดมีความชิดต่อกันในการประมวลผลข้อความ ตัวอักษรเป็นพื้นฐานที่สร้างคำและคำสื่อสารสร้าง Token ในการใช้งานจริง การระบุและใช้ Token ขึ้นอยู่กับการเข้าใจตัวอักษรและคำ

ตัวอย่างเช่น หากเราต้องการวิเคราะห์รายงานแนวโน้มตลาดผ่าน Tokenization เราสามารถระบุคำสำคัญได้อย่างรวดเร็ว (เช่น “การเติบโต” “ความเสี่ยง” “โอกาส” เป็นต้น) เพื่อช่วยให้ผู้บริหารเข้าใจเนื้อหาหลักของรายงาน

โดยรวมแล้ว Token เป็นวิธีช่วยให้คอมพิวเตอร์จัดการและ “เข้าใจ” ข้อความ ทำให้การประมวลผลข้อมูลอัตโนมัติเป็นไปได้ โดยสนับสนุนองค์กรในการตัดสินใจที่ใช้ข้อมูลให้อย่างมีประสิทธิภาพ

แล้ว Token ถูกสร้างและจัดการอย่างไร? นี่คือสิ่งที่เราต้องมองจากมุมมองการเขียนโปรแกรมแบบดั้งเดิมกัน

Token 生成与处理

Token 是如何生成的？文本转换成 Token 的具体流程。

  graph LR
  A[处理文本流程]
  A1[预处理]
  A2[分词]
  A3[Token化]
  A4[后处理]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[去除无关字符]
  B1 --> B1a[如网页代码]

  A1 --> B2[标准化文本]
  B2 --> B2a[统一大小写]
  B2 --> B2b[繁简转换]

  A1 --> B3[去除停用词]
  B3 --> B3a[如“的”，“了”等]

  A2 --> C1[英文分词]
  C1 --> C1a[基于空格和标点符号]

  A2 --> C2[中文分词]
  C2 --> C2a[依赖算法识别词汇边界]

  A3 --> D1[合并词汇]
  D1 --> D1a[如专有名词“纽约”]
  D1 --> D2[识别短语或固定搭配]
  D1 --> D3[将标点符号视为独立Token]

  A4 --> E1[词性标注]
  A4 --> E2[语义角色标注]

โมเดลต่างๆ อาจมีขั้นตอนที่แตกต่างกันขึ้นอยู่กับความซับซ้อน โดยเพื่อให้เข้าใจได้ง่ายให้ตัวอย่างที่ตรงไปตรงมา ในการทำให้ข้อมูลในองค์กรมีค่า เราต้องพิจารณา คุณค่า ข้อมูลและต้นทุนเพื่อทำการตัดสินใจอย่างเหมาะสม

ยกตัวอย่าง

Token 生成

预处理

มาตรงนี้มีข้อความตัวอย่างที่ผสมกันระหว่างภาษาจีน อังกฤษ และตัวเลข ซึ่งมีองค์ประกอบที่ต้องเตรียมตัวดังนี้:

在2024年，AI技术快速發展。例如，OpenAI 发布了GPT-4o模型，这个模型不仅性能强大，而且在处理<code>自然语言</code>方面具有突破性的进展。但是，我们需要去除一些常用但无信息量的停用词，比如“的”，“了”等等。关于这些技术的详情，请访问我们的官网

去除多余的字符：
- ลบแท็กโค้ดจากเว็บไซต์ เช่น <code> และ </code>, เพราะมักไม่มีข้อมูลที่มีประโยชน์ในเนื้อความ
标准化文本：
- แปลงอักษรภาษาอังกฤษทั้งหมดเป็นตัวพิมพ์เล็กเพื่อลบรอยแตกต่างในอักษร เช่น “OpenAI” เปลี่ยนเป็น “openai”
- แปลงอักษรแบบดั้งเดิมเป็นแบบสั้น หากมีตัวอักษรที่เป็นแบบดั้งเดิม เช่น เปลี่ยน “發展” เป็น “发展”
去除停用词：
- ระบุและลบคำที่ใช้บ่อยที่มักไม่มีข้อมูลสำคัญ เช่น “的”，“了”等

ผ่านขั้นตอนการเตรียมข้อมูลเหล่านี้ ข้อความจะมีความเป็นระเบียบเรียบร้อยมากขึ้น เพื่อให้ดำเนินการแยกคำและ Tokenization ต่อไป ทำให้การวิเคราะห์ที่ตามมามีความถูกต้องและมีประสิทธิภาพมากขึ้น

在2024年，AI技术快速发展。例如，OpenAI 发布GPT-4o模型，这个模型不仅性能强大，而且在处理自然语言方面具有突破性进展。但是，我们需要去除一些常用但无信息量停用词，比如“”，“”等等。关于这些技术详情，请访问我们官网

分词

分词 เป็นการแยกคำในประโยคให้สะดวกในการจัดการต่อไป เรามีสายลูกปัดเป็นประโยค เราต้องย้อนกลับและตัดในจุดที่เหมาะสม

แล้วจะแยกคำกันอย่างไร? วิธีที่เรานึกถึงบ่อยๆ คือใช้พจนานุกรม ที่นี่คือวิธีการที่曾经被使用过的方式。分好以后大概是这样的

在 / 2024 / 年 / ， / AI / 技术 / 快速 / 发展 / 。 / 例如 / ， / OpenAI / 发布 / GPT-4o / 模型 / ， / 这个 / 模型 / 不仅 / 性能 / 强大 / ， / 而且 / 在 / 处理 / 自然语言 / 方面 / 具有 / 突破性 / 进展 / 。 / 但是 / ， / 我们 / 需要 / 去除 / 一些 / 常用 / 但 / 无 / 信息量 / 停用词 / ， / 比如 / “ ” / ， / “ ” / 等等 / 。 / 关于 / 这些 / 技术 / 详情 / ， / 请 / 访问 / 我们 / 官网

แน่นอนว่ากระบวนการจริงควรจะมีความหลากหลายในการแยกคำ ซึ่งโดยทั่วไปจะมีหลายวิธี:

确定单词的边界：
- สำหรับภาษาอังกฤษที่ใช้พื้นที่แบ่งระหว่างคำ การแยกเป็นสิ่งที่ง่าย นั่นเพราะเมื่อเราทำความเข้าใจภาษาอังกฤษ เราสามารถบอกได้ง่ายว่าคำจบที่ไหน
- สำหรับภาษาจีน การเขียนจะถูกติดกันไม่มีช่องว่าง ดังนั้นเราจึงต้องใช้วิธีอื่นในการกำหนดว่าตัวอักษรไหนถือเป็นคำที่มีความหมาย
使用词典和规则：
- 基于词典的方法：เหมือนกับการค้นหาคำในพจนานุกรม เราจะค้นหาคำในรายการใหญ่ (พจนานุกรม) ที่เรามี แต่ไวรัสนักเรียนใหม่หรือคำที่ไม่ใช้บ่อยอาจไม่มีอยู่ในพจนานุกรม
- 基于规则的方法：ใช้กฎเฉพาะในการตัดสินความสัมพันธ์ระหว่างตัวอักษร เช่น ไวยากรณ์และบริบท เพื่อดูว่าควรรวมกันเป็นคำไหม
统计和学习方法：
- ใช้สถิติในการศึกษาว่าตัวอักษรหรืออักษรไหนมักจะเกิดร่วมกัน วิธีนี้ให้การวิเคราะห์ข้อมูลที่ใหญ่ขึ้นในการเรียนรู้แล้วคาดการณ์ขอบเขตของคำ
混合方法：
- ในการใช้งานจริง มักจะรวมหลายวิธีข้างต้นเพื่อเพิ่มความถูกต้องและความเหมาะสมของการแบ่งคำ

簡單來說：

英文：基于空格和标点符号分词
中文：使用算法识别词汇边界

เครื่องมือที่เก่งเรื่องการแบ่งคำภาษาจีน—Jieba แต่ก็หยุดอัปเดตมาสี่ปีแล้ว

ตรรกะเรื่องการแยกคำแบบดั้งเดิมไม่ได้พิจารณาความหมาย ความหมายในบริบทมากนัก ดูตัวอย่างด้านล่าง

1 2	你为/何总/打call 你/为何/总打call

何总 เป็นบุคคล ในขณะที่ 为何 คือ คำหนึ่ง คำที่มีความหมายที่ยอดเยี่ยมมาก!

เมื่อแยกคำเสร็จแล้ว จะเข้าสู่กระบวนการ Tokenization

Token化

Token化 เป็นขั้นตอนสำคัญในการจัดการข้อมูลข้อความ ที่จะพัฒนาหมายถึงการแบ่งปันและการจัดการหน่วยข้อความเพื่อตอบสนองต่อโจทย์การประมวลผลและการวิเคราะห์ในอนาคต โดยเราจะใช้ข้อความตัวอย่างที่คุณให้มาเพื่ออธิบายกระบวนการ Tokenization ให้ชัดเจนขึ้น

合并专有名词和特定短语：
- มองว่า “OpenAI” และ “GPT-4 o” เป็น Token เพียงตัวเดียว เพราะเป็นชื่อเฉพาะที่มีความหมายแยกได้
- “自然语言” แต่งอยู่ในรูปแบบเฉพาะและเป็นคำศัพท์เช่นเดียวกันในท้ายที่สุดเราก็จะพิจารณาเป็น Token ส่วนเดียว
标点符号作为独立 Token：
- เครื่องหมายวรรคตอน เช่น คอมม่า (，)、จุด (。) และอัญประกาศ (“ ”) จะถูกมองว่าเป็น Token แยกต่างหาก เพราะมีบทบาทในการกำหนดโครงสร้างและสัญญาณทางไวยากรณ์ หรือต้องระวังถึงความหมายประโยคด้วย
处理引用标记：
- มองความว่างในอัญประกาศว่าเป็น Token ไม่มีความหมายและถอดทิ้ง

ผลลัพธ์หลังการ Token化

在 / 2024 / 年 / ， / AI / 技术 / 快速 / 发展 / 。 / 例如 / ， / OpenAI / 发布 / GPT-4o / 模型 / ， / 这个 / 模型 / 不仅 / 性能 / 强大 / ， / 而且 / 在 / 处理 / 自然语言 / 方面 / 具有 / 突破性 / 进展 / 。 / 但是 / ， / 我们 / 需要 / 去除 / 一些 / 常用 / 但 / 无 / 信息量 / 停用词 / ， / 比如 / ， / 等等 / 。 / 关于 / 这些 / 技术 / 详情 / ， / 请 / 访问 / 我们 / 官网

การประมวลผลนี้ชัดเจนและอยู่ในรูปแบบที่สามารถดำเนินการต่อเนื่องได้ เป็นพื้นฐานการเข้าใจหลักในการวิเคราะห์เนื้อหาเพิ่มเติม

ต้องสังเกตว่า Tokenize และ Vectorization มีความสัมพันธ์กันแต่มีความแตกต่างกัน การทำ Vectorization คือต้องแปลงเนื้อหาให้อยู่ในรูปเลขสารสนเทศ ซึ่งจะกล่าวต่อไป

词汇表在 Token 生成中的作用。

จากการวิเคราะห์ก่อนหน้านี้เราได้รู้แล้วว่ากระบวนการสร้าง Token มีบทบาทสำคัญอย่างยิ่งในพจนานุกรม

边界识别、一致性保证、信息压缩、提高处理速度、语义维护：

การบริหารและอัปเดตพจนานุกรมเป็นการเพิ่มประสิทธิภาพในการสร้าง Token ที่สามารถปรับเปลี่ยนได้อย่างรวดเร็วตามความเปลี่ยนแปลงในภาษาและการเกิดคำใหม่ โดยยกระดับความสามารถและความแม่นยำของระบบทั้งหมด

特殊字符（如标点符号、空格）的处理。

ในการสร้าง Token การจัดการกับอักขระพิเศษเป็นเรื่องที่ต้องใส่ใจเป็นพิเศษ อักขระพิเศษ เช่น เครื่องหมายวรรคตอนและช่องว่างมักมีบทบาทสำคัญในข้อความ:

标点符号：标点通常用于表示句子结构，如句末的句号（。）、逗号（，）用于分隔列表项或从句，或引号（“”）用于标出直接引语等。在Token化时，标点通常被视为独立的Token，因为它们可以影响句子的语气和结构，有时甚至能改变句子的意义。
空格：在英文和其他使用拉丁字母的语言中，空格是用来分隔单词的主要手段。在Token化过程中，空格本身通常不保持为Token，但它的存在对于确定单词边界至关重要。然而，在某些格式化文本中，空格可能也用于视觉美观，这种情况下需要根据上下文决定处理方式。
特殊格式字符：如制表符（Tab）和换行符（\n）等在文本中也起到了格式控制的作用。这些字符在某些情况下可能需要被忽略或特殊处理，例如处理纯文本文件时。

การจัดการที่ไม่ถูกต้องกับอักขระพิเศษเหล่านี้อาจส่งผลกระทบต่อการ Tokenization อย่างถูกต้อง ซึ่งมีผลต่อการวิเคราะห์ข้อความและแอพพลิเคชันอย่างเด่นชัด เมื่อติดตั้งระบบ NLP จะต้องพิจารณากลยุทธิ์การจัดการกับอักขระเหล่านี้อย่างละเอียดและเหมาะสม เพื่อรองรับการทำงานที่ใช้งานได้

จากข้อมูลที่กล่าวถึงเราจะเห็นถึงความแตกต่างในการใช้ Token ในการแปลภาษา ซึ่งสามารถให้เราถึงสอดคล้องกันมากขึ้น

Token 的多样性与适应性

不同语言的 Token 化方法

รูปแบบหรือโครงสร้างของแต่ละภาษาและความแตกต่างของไวยากรณ์นั้นจำเป็นต้องใช้วิธีการ Tokenization ที่มีความยืดหยุ่นและเหมาะสมสูง เช่น:

英语和其他西欧语言：语言通常使用空格作为单词之间的分隔符，使得 Token 化相对直接。例如句子 “The quick brown fox” 可以简单地按空格分割成 “The”, “quick”, “brown”, “fox”。
中文、日语和韩语：这些语言没有明显的词与词之间的分隔符，因此 Token 化更为复杂。中文可能需要依赖词典或基于统计的模型来识别哪些字符组合在一起形成有意义的词汇。例如“快速发展”需被整体识别为一个单独的 Token 而不是分开的“快速”和“发展”。
阿拉伯语和希伯来语：文字可以书写从右到左，而在 Token 化时不仅需考虑书写方向，还需处理连写字母的问题，这对 Token 化算法提出了特殊要求。

การทำความเข้าใจดังกล่าวช่วยให้การจัดการข้อมูลหลายภาษาในธุรกิจโกลบอลดีขึ้น ทำให้มีการปรับปรุงส่วนติดต่อผู้ใช้และการสร้างเนื้อหาที่เพิ่มขึ้น

Token 的大小和粒度是如何确定的？

ขนาดและความละเอียดของ Token ขึ้นอยู่กับความต้องการที่เฉพาะเจาะจงของแอพพลิเคชันและความลึกในการประมวลผลที่คาดหวัง:

细粒度 Token：通常用于需要深度语言理解的场景，如情感分析或语义搜索。例如，将复合词进一步分解，可以帮助模型更细致地捕捉语言的微妙意义变化。
粗粒度 Token：适用于需要快速处理大量文本数据的场景，如文档分类或初步的关键词提取。粗粒度 Token 化减少了处理的复杂性和计算需求。

การตัดสินใจขนาดและความละเอียดของ Token มักเกี่ยวข้องกับความเร็วในการประมวลผลและความแม่นยำในการสื่อสาร ไดเร็คเตอร์ระดับสูงเข้าใจเรื่องนี้จะช่วยสร้างกลยุทธ์ในการทำเวิร์กเพลชที่มีการจัดการใช้ AI

การเข้าใจถึงวิธีการ Tokenization ของแต่ละภาษาและหลักการในการกำหนดขนาดและความละเอียดของ Token สามารถช่วยคุณ:

更好地评估 AI 项目：了解 Token 化的复杂性和挑战有助于在购买或开发相关 AI 解决方案时做出更为信息化的决策。

优化全球运营：适应多语言环境的 Token 化能力是全球化业务成功的关键，有助于改进跨文化通信和用户互动。

提升数据处理效率：选择合适的 Token 粒度可以在满足业务需求的同时优化数据处理效率和成本。

งั้น Token มีผลกระทบต่อประสิทธิภาพของโมเดล AI ยังไงกัน?

Token 与 AI 模型性能

Token กลยุทธ์ในบางส่วนอาจส่งผลต่อพื้นที่การตั้งค่าคอนเท็กซ์ของโมเดลขนาดใหญ่ การสนทนากับ AI มีการพูดคุยหลายครั้ง ถ้าข้อมูลมากเกินไป AI อาจลืมข้อมูลที่เราเคยพูดคุยกัน นี่คือการจำกัดขอบเขต สำหรับโมเดลขนาดใหญ่ปีที่ผ่านมา

src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

นี่คือข้อมูลของปีที่แล้ว ส่วนที่ต่อไปนี้คือภาพจาก Gemini

src： https://beebom.com/gemini-1-5-pro-announced/

ในประเทศจีน Kimi สามารถจัดการไฟล์ PDF ขนาด 100M พื้นที่บริบทมีขนาดใหญ่ ซึ่งได้กลายเป็นจุดยืนที่สำคัญในการทำการตลาดนั้น ผลกระทบมันคืออะไร?

จากสเกลลิ่งของกฎในตอนนี้ กลยุทธ์ Token ต่างๆ ถือเป็นพื้นฐานใต้การคำนวณต่างๆ กล่าวคือ กลยุทธ์ Token ที่ปรับแต่งให้ดีขึ้นนั้นยังไม่ได้ผลลัพธ์เท่ากับการซื้อการ์ดจอที่มีประสิทธิภาพสูงขึ้น

Token 对模型性能的影响

  sequenceDiagram

participant U as 用户

participant I as 输入处理

participant M as 模型计算

participant S as 存储系统

U->>+I: 输入对话历史（Token数量）

I->>+M: 解析Token并准备数据

M->>+M: 计算自注意力

Note over M: 对每个Token计算与其它Token的关系

M->>+S: 请求额外内存

Note over S: 根据Token数量增加内存分配

S-->>-M: 确认内存分配

M->>M: 继续计算响应

M-->>-I: 返回生成的响应

I-->>-U: 显示响应

Token 数量如何影响模型的计算复杂度和内存占用？

ในโมเดล AI ที่สร้างสรรค์ เช่น GPT-4 หรือโมเดลที่ใช้ Transformer อื่นๆ ความสัมพันธ์ของจำนวน Token จะส่งผลต่อความซับซ้อนในการประมวลผลของโมเดลและการใช้งานหน่วยความจำ ยิ่งเพิ่ม Token ใหม่ โมเดลต้องจัดการข้อมูลมากขึ้น ซึ่งไม่เพียงแต่เพิ่มภาระในการประมวลผลขณะเรียนรู้และอนุมาน แต่ยังเพิ่มหน่วยความจำด้วย ตัวอย่างเช่น ในการฝึกโมเดลภาษา โมเดลต้องเก็บและคำนวณเกี่ยวกับความสัมพันธ์ระหว่างทุก Token ด้วยกัน ซึ่งเป็นเรื่องที่เห็นได้ชัดมากในกลไก Self-Attention

案例说明： ลองนึกถึงโครงการแชทบอทที่สร้างสรรค์ หากประวัติการสนทนาที่ยืดเยื้อเกินไป (หมายถึงมีจำนวน Token มาก) โมเดลอาจทำให้การ生成 responses ช้าลง ใช้ทรัพยากรการคำนวณมากขึ้นได้ เช่น หากประวัติการสนทนา يحتوي数千个Token 可能会导致处理速度明显下降，尤其是在资源有限的设备上。

ที่ทุกองค์กรจะไม่ขยายขนาดโมเดลก็เพราะเหตุผลที่มีหมดไม่ใช่เพราะว่าใหญ่จะดี

更多的 Token 是否代表更好的模型性能？

อาจไม่ใช่ว่า Token มากขึ้นจะหมายถึงประสิทธิภาพที่ดีขึ้นตลอดเวลา ในการสร้าง AI ที่มีการสร้างเนื้อหาที่เกี่ยวข้องกับการทำให้โมเดลสามารถจับคลายกับบริบทได้อย่างถูกต้องและเพิ่มความสัมพันธ์และความถูกต้องการสื่อสาร แต่ถ้าเพิ่มจำนวน Token มากเกินไปอาจจะทำให้เกิดข้อมูลที่ไม่เกี่ยวข้องและทำให้ประสิทธิภาพและคุณภาพของการ输出ลดลง

案例说明： ในระบบ AI ที่生成市场报告中，การแบ่ง Token ที่แม่นยำช่วยให้รายละเอียดสำคัญได้รับการจัดการอย่างเด่นชัด，而不是沉迷于过多不必要的细节中。例如，系统需要从大量的财经新闻中生成简洁的概要，过多的 Token 可能会导致生成的报告杂乱无章，难以捕捉核心信息。

ว่าที่บริษัทใหญ่ใช้ไฟล์จำนวนมากในการประมวลผล มักใช้วิธีเดียวกับการจัดการกับ Cloud Drive คือ A อัปโหลดไฟล์ไป แล้ว B ก็อัปโหลด โดยไม่ต้อง解析ใหม่ โดยใช้ผลจาก A ที่เคย解析ไว้ และเมื่อเนื้อหาเพิ่มขึ้น ก็ทำให้เกิดความได้เปรียบผลิตภัณฑ์ของตน

优化 Token 使用

如何在 Token 数量和模型性能之间找到平衡点？

ที่นี่กลยุทธ์ Token ส่วนมากใช้สำหรับมนุษย์ทั่วไปใน אומנ等等 นี่อาจเป็นกรณีการจัดการให้การทำงานให้ได้อย่างเหมาะสม

การกำหนดระดับที่เหมาะสมที่สอดคล้องกันระหว่างจำนวน Token กับประสิทธิภาพของโมเดลเป็นหัวใจที่ทำให้โมเดล AI ที่สร้างเนื้อหามีความเร็วและแม่นยำ โดยการทดลองและการเรียนรู้ به

案例说明：ในระบบ生成内容，การบาลานซ์การใช้ Token เป็นความท้าทายที่เด่น ยกตัวอย่างจากข้อความยาว ต้องจัดการข้อมูลสำคัญให้สรุปในฟอร์แมตที่เหมาะสม ในทางนี้การเลือกจำนวน Token ที่เหมาะสมเพื่อให้ข้อมูลมีอยู่ในขณะที่หลีกเลี่ยงสภาวะของโมเดลที่ซ้ำซ้อนไม่ใช้

Token 和上下文窗口的关系及其对文本生成质量的影响。

在AI生成中，Token和上下文窗口的设置直接影响到文本生成的逻辑性和连贯性。如果上下文窗口过小，模型在生成文本时考虑的历史信息有限，可能导致内容的逻辑断裂。通过优化Token的使用和调整上下文的大小，可以显著提高文章的质量和可读性。

ต่อไปนี้คือสิ่งที่เรากล่าวถึงเกี่ยวกับการควบคุมคุณภาพการใช้งาน เรายังต้องพิจารณาค่าใช้จ่ายด้วย

Token 的商业应用与计费模型

先看一个表格，看一下目前大模型的计费情况

src： https://yourgpt.ai/tools/openai-and-other-llm-api-pricing-calculator

ทั่วไปแล้วการใช้โมเดลภาษาขนาดใหญ่มีการใช้วิธีแบ่งเป็นสองรูปแบบคือ การสนทนาออนไลน์与调用 API โดยในเว็บการใช้ OpenAI มักจะกลายเป็นปรกติในราคา 20 ดอลลาร์ต่อเดือน แต่ถ้าเรียกใช้ API อาจสูงกว่านั้นได้

การเสี่ยงยากที่จะทำให้ ChatGPT Plus แล้ว ยังมีการควบคุมการใช้เพื่อทำการ回合数ในช่วงเวลา 3 ชั่วโมง หลายคนจึงพยายามใช้งานผ่านเว็บซึ่งเป็นแนวทางเดียวกับการทำเว็บสคริปต์ แต่โค้ดเปิดแหล่งที่ใช้ก็โดนลบออกไปทั้งหมดแล้ว!

เคยมีตรรกะการคิดค่าบริการแบบอิงเวลาที่ดูเหมือนจะมีความยุติธรรม แต่วิธีการคิดค่าบริการแบบนั้นเองมีความท้าทาย

Token 计费逻辑

为什么使用 Token 计费？其合理性和商业模型。

Token 计费模型在 AI 服务，特别是在使用诸如 OpenAI 的语言模型服务中非常常见。该计费模式基于用户对服务的具体使用量，即每个请求中所处理的 Token 数量进行收费。

合理性：
Token 计费模型的合理性在于它能够较精确地反映用户对资源的实际消耗。每个 Token 代表了模型需要处理的一个单位信息，更多的 Token 意味着更多的计算资源消耗。因此，这种计费方式可以确保用户根据其实际使用量付费，同时激励用户优化其输入，避免不必要的浪费。

商业模型：
从商业角度看，Token 计费模型为 AI 服务提供商提供了一个灵活且公平的计费框架。它允许服务提供商根据系统负载和运营成本设置不同的定价级别，从而可以吸引不同需求的用户，支持从小型开发者到大型企业的多样化客户基础。

Token 计费与其他计费方式的比较（如字数、字符数、时间）

与其他常见的计费模式相比，Token 计费有其独特的优势和局限：

字数和字符数计费：这些计费方式简单明了，容易理解和预算。然而，它们通常不考虑处理的复杂性和计算资源的实际使用。例如，处理一个包含简单词汇的长句可能比处理一个技术术语更简单，但按字数计算费用可能更高。
时间基计费：以时间为基础的计费模型（如按分钟或小时计费）适用于持续服务，如流数据处理或在线学习。但对于基于请求的短任务，这种模型可能导致计费不公或不精确。

  graph TD;
    A[Token计费] -->|反映实际计算资源消耗| B[资源公平分配];
    A -->|优化输入效率| C[鼓励输入简化];
    D[字数/字符数计费] -->|简单明了| E[易于理解和预算];
    D -->|不考虑复杂性| F[可能导致费用不准确];
    G[时间基计费] -->|适合持续服务| H[流数据处理/在线学习];
    G -->|不适合短任务| I[可能导致计费不公];

Token 计费提供了一个更细致地度量，可以更公平地反映使用者对资源的实际消耗。

大模型公司的成本我们粗略看包括

研发成本（人力+实验）

训练成本（计算资源+数据处理）

部署成本（基础设施+存储成本）

维护更新成本

伦理合规成本（数据安全，数据合规）
这些成本都要通过 Token 来承载看起来不太现实，实际情况只能业内人士评估了。可能是目前阶段最合适的评估手段了。

Token 计费的实际影响

不同计费方式对用户和开发者的影响。

Token 计费模型对用户意味着需要更仔细地管理其 API 请求，以控制成本。开发者需要设计高效的查询，减少冗余的 Token 使用，从而最大化每个请求的价值。这种计费方式鼓励开发者优化数据输入和处理流程，但也可能增加开发的复杂性和前期的优化工作。

对于提供商而言，Token 计费可以帮助平衡服务器负载，预测收入和优化资源配置。它还可以作为产品优化和定价策略调整的反馈机制，帮助提供商更好地满足市场需求。

如何优化 Token 使用以降低成本？

优化 Token 使用คือการควบคุมค่าใช้จ่ายอย่างมีประสิทธิภาพ ซึ่งสามารถทำได้ดังนี้:

精简输入数据：在发送请求之前，剔除不必要的文本和冗余数据，只保留关键信息。
使用高效的查询设计：设计经过良好构思的查询，避免过于复杂或深入的链条请求。
利用缓存策略：对常见的或重复的请求使用缓存结果，减少对后端服务的查询。
监控和分析：定期分析 Token 消耗数据，找出优化点，调整策略以减少浪费。

通过这些方法，不仅可以减少成本，还可以提高系统的响应速度和用户满意度，从而在竞争激烈的市场中获得优势。

Token 的商业价值与应用案例

Token 在业务中的实际应用

在企业运营中，Token 化技术的应用可以显著提升数据处理效率和决策质量。对于非技术的企业高管来说，了解 Token 的应用可以帮助他们更好地评估技术投资和推动业务创新。

  graph LR;
    A[技术视角: Token 在自然语言处理的作用] 
    B[商业视角: Token 在增强企业价值中的作用]
    
    A --> A1[信息提取\n快速提取关键信息]
    A --> A2[情感分析\n识别客户情绪]
    A --> A3[自动摘要\n生成文档摘要]
    
    B --> B1[改进客户互动\n24X7 客户服务]
    B --> B2[市场分析\n获取趋势信息]
    B --> B3[个性化推荐\n增加交易量]
    
    style A fill:#8ecae6,stroke:#333,stroke-width:4px
    style B fill:#90be6d,stroke:#333,stroke-width:4px
    style A1 fill:#219ebc,stroke:#333,stroke-width:2px
    style A2 fill:#219ebc,stroke:#333,stroke-width:2px
    style A3 fill:#219ebc,stroke:#333,stroke-width:2px
    style B1 fill:#ffb703,stroke:#333,stroke-width:2px
    style B2 fill:#ffb703,stroke:#333,stroke-width:2px
    style B3 fill:#ffb703,stroke:#333,stroke-width:2px

技术视角：Token 在自然语言处理的作用

Token 化是将复杂文本数据分解成易于管理的单元的技术过程，使 AI 系统能够进行有效的数据分析和处理。这一过程在自然语言处理（NLP）中尤为关键，它使得机器能够“理解”人类语言，执行如下任务：

信息提取：Token 化帮助从大量文本中快速提取关键信息，如从法律文件中抽取相关条款。
情感分析：通过分析客户反馈的 Token，企业可以识别客户的情绪倾向，从而调整产品或服务。
自动摘要：Token 化技术能自动生成文档摘要，提高知识工作者的工作效率。

商业视角：Token 在增强企业价值中的作用

从商业角度看，Token 不仅提高操作效率，还可以开启新的业务模式和收入渠道：

改进客户互动：利用 Token 化的聊天机器人可以提供 24 X 7 的客户服务，提升客户满意度并降低服务成本。
市场分析：Token 化处理可以帮助企业从市场报告中快速获取趋势信息，指导战略决策。
个性化推荐：在电商平台中，Token 化技术可以分析用户的购买历史和浏览行为，提供个性化的商品推荐，增加交易量。

实际案例分析

客户服务机器人

一个典型的应用是客户服务机器人。例如，一家大型电信公司部署了基于 Token 化的客户服务机器人来处理用户查询，如账单问题、服务中断等。机器人通过分析用户的问题（已 Token 化），快速提供正确的答案或将问题转给适当的服务部门。

内容推荐系统

在媒体和娱乐行业，内容推荐系统利用 Token 化技术分析用户的观看或阅读习惯，从而推荐用户可能感兴趣的新电影、书籍或文章。例如，Netflix 的推荐系统就分析用户之前观看的节目的描述 Token，来预测用户可能喜欢的其他节目。

Token 的商业价值与应用展望

在企业应用中，理解和有效使用 Token 是推动 AI 项目成功的关键。把握 Token 的商业价值和挑战对于制定战略和驾驭技术创新尤为重要。

Token 的商业应用

技术视角：Token 的作用

Token 在自然语言处理（NLP）中的应用使得文本信息能够被 AI 系统有效处理。简而言之，Token 化是将大段的文本分解成小块处理单元的过程，这些处理单元（Token）为机器学习模型提供了操作的基础。

数据处理：在处理客户查询、分析市场反馈或管理大量文档时，Token 化使得这些复杂的文本数据变得易于管理和分析。
效率提升：通过 Token 化，AI 模型可以快速识别关键信息，从而加速决策过程，提升业务响应速度。

商业视角：Token 的经济价值

从商业角度看，Token 不仅仅是技术实现的组成部分，它直接关联到提升操作效率、增强客户体验和开拓新的商业模式。

客户服务优化：Token 化使得客户服务自动化变得可能，通过自动响应系统快速准确地处理客户请求，极大地提升了客户满意度和品牌忠诚度。
个性化营销：利用 Token 化分析用户行为和偏好，使企业能够提供高度个性化的营销内容，增加销售转化率。

Token 的未来展望与挑战

未来发展方向

随着 AI 技术的进步，Token 的应用预计将变得更加智能化和多样化：

跨模态应用：Token 技术将不仅限于文本处理，未来将扩展到视频、音频等多媒体内容的分析中，支持更广泛的应用场景。
智能优化：Token 生成和处理方法将更加智能，例如，通过 AI 自动调整 Token 的粒度和数量，以适应不同的业务需求。

商业挑战与机遇

数据安全与隐私：在 Token 化处理中确保数据安全和用户隐私是未来的主要挑战，尤其是在处理敏感信息时。
技术整合：如何将 Token 技术与现有的 IT 系统和业务流程无缝集成，是实现技术转化的关键。
公平性和可解释性：确保通过 Token 化得到的 AI 决策是公平和透明的，增强所有利益相关者的信任。

结语

在写这篇文章的时候，林淼给了当前的新方向(感谢)， https://arxiv.org/abs/2104.12369，从华为盘古模型的实践来看，中文领域的 Token 发展会偏向去工程化，还有待进一步观察。

在写这篇文章之前，对 Token 的理解仅限于一个汉字等于 1 个 Token 的模糊了解，也会把 Token 和向量化等同起来。在向量化之前，还有 Token 的工作。更好迎接 AI，更好拥抱变化，现有企业应用系统中的数据如何更好使用？可以从这里开始了！