Chào mở đầu

  • Nghe nói AI tính phí theo Token à?
    • Sử dụng thấy tiêu tốn nhiều Token ghê
    • Máy tính không tắt cả đêm, đã tiêu tốn nhiều Token, có phải cảm giác mất đi cả một ngôi nhà không?
  • Tại sao lại sử dụng Token để tính phí vậy?
    • Nghe nói Token là tính phí hai chiều
    • Hỏi AI phải mất phí, trả lời cũng mất phí, có vẻ hơi quá đáng nhỉ
    • Vậy AI còn không thể nói chuyện lan man nữa sao!
  • Token là từ hay ký tự?
    • Tiếng Trung tính phí thế nào nhỉ?
    • Tiếng Ả Rập tính phí ra sao?
  • Token có ý nghĩa gì khác trong quá trình số hóa doanh nghiệp?
    • Thông thường, số hóa truyền thống chỉ cần xây dựng cơ sở dữ liệu
    • Ứng dụng AI tại sao lại có vấn đề về Token?

Bài viết này cố gắng giải đáp các câu hỏi trên, để chúng ta hiểu rõ hơn về Token mà chúng ta thường nghe. Bài viết có hơi dài, hãy cùng theo dõi nhé.

Trong lịch sử phát triển của máy tính, thường xuất hiện nhiều thuật ngữ nghe có vẻ phức tạp, sau này dần dần bước vào đời sống của con người và trở nên quen thuộc, nhìn vào thuật ngữ Prompt chính là một ví dụ, Token cũng vậy, hiện tại xem ra nó thực sự đã vượt ra khỏi thế giới nội bộ.
Liệu đây có phải là cách tính phí tốt mà OpenAI đề xuất và được nhiều công ty trong ngành đồng tình? Hay còn lý do nào khác?
Chúng ta hãy bắt đầu từ nguồn gốc của nó.

Trong môi trường doanh nghiệp, việc sử dụng công nghệ AI để giảm chi phí và nâng cao hiệu suất, hiểu rõ về Token sẽ giúp chúng ta tiếp cận AI một cách dễ dàng hơn. Đơn giản mà nói, hiểu Token như là các mảnh ghép, thông qua việc lắp ráp các mảnh ghép này để hoàn thành ứng dụng chúng ta cần, từ đó nâng cao hiệu quả.

Token xây dựng

Cơ bản về Token

Khái niệm cơ bản về Token

Trước tiên, hãy cùng xem mô tả về Token từ OpenAI:

  • 1 token ~= 4 ký tự tiếng Anh
  • 1 token ~= ¾ từ
  • 100 tokens ~= 75 từ
    hoặc
  • 1-2 câu ~= 30 Token
  • 1 đoạn văn ~= 100 tokens
  • 1,500 từ ~= 2048 tokens

Sau khi đọc xong, cảm giác sao nhỉ, có khó hiểu không? Cái này khác gì so với việc Khổng Tử biết có mấy cách viết chữ “hồi”? Hãy cùng cảm nhận nào:

Learning AI Meticulously, Sharing Knowledge Joyfully

Đoán xem câu này có bao nhiêu Token? 6 từ, vậy chắc là 6 Token nhỉ? Thật tiếc, không phải vậy!

Learning AI Meticulously, Sharing Knowledge Joyfully

Trong ChatGPT 4, nó thuộc về 10 Token, theo màu sắc cho thấy, dấu câu được tính riêng, Joyfully bị tách ra thành Joyfully.

Từ mã nguồn đến đối thoại: Sự cần thiết của việc đưa Token vào

Ngôn ngữ cốt lõi của máy tính là mã nhị phân, được tạo thành từ 0 và 1, đây là hình thức biểu diễn cơ bản nhất của tất cả các chương trình và dữ liệu. Dù là ngôn ngữ lập trình cao cấp như Python, Java, hay các tệp đa phương tiện như hình ảnh và video, đều sẽ được chuyển đổi thành ngôn ngữ máy. Trong khoa học máy tính cổ điển, các chuyên gia cố gắng tối đa hóa sự trừu tượng hóa tính phức tạp của thế giới thực bằng cách xác định các kiểu dữ liệu rõ ràng như chuỗi (một chuỗi ký tự) và số nguyên (số). Phương pháp này rất hiệu quả trong việc xử lý dữ liệu có cấu trúc như tính toán toán học hay truy vấn cơ sở dữ liệu.

Tuy nhiên, với sự phát triển của công nghệ và nhu cầu gia tăng, chúng ta mong muốn máy tính không chỉ xử lý các con số và mã mà còn hiểu và xử lý ngôn ngữ tự nhiên, tức là ngôn ngữ hàng ngày của con người. Điều này đã đưa đến lĩnh vực xử lý ngôn ngữ tự nhiên (NLP, Natural Language Processing), với mục tiêu giúp máy tính hiểu, giải thích và tạo ra ngôn ngữ của con người.

Xét đến những đặc điểm của ngôn ngữ tự nhiên, như tính đa dạng, phụ thuộc ngữ cảnh và độ mơ hồ, chúng ta không còn đối mặt với những vấn đề đơn giản như 1+1=2. Bây giờ, chúng ta phải giải quyết làm thế nào để máy tính hiểu các câu như “Hôm nay là thứ Sáu, cuối tuần mình đi đâu chơi? Ở nhà học AI đi?” và phân tích cảm xúc của nó hoặc dịch nó sang ngôn ngữ khác. Trong những tình huống như vậy, các kiểu dữ liệu truyền thống trở nên không đủ.

Đó là lý do tại sao chúng ta cần đưa ra khái niệm Token. Token hóa là việc phân tách dữ liệu văn bản phức tạp thành các đơn vị nhỏ hơn, dễ dàng hơn cho máy tính xử lý, như từ, cụm từ hoặc dấu câu. Như vậy, máy tính có thể thực hiện xử lý ngôn ngữ một cách hiệu quả hơn, từ đó rút ra ý nghĩa từ văn bản, chứ không chỉ đơn giản là tính số lượng ký tự.

Từ tính chắc chắn đến độ mơ hồ: Lập trình truyền thống xử lý dữ liệu rõ ràng và có thể dự đoán, trong khi NLP định nghĩa ngôn ngữ đa nghĩa và phụ thuộc ngữ cảnh.

Từ có cấu trúc đến không có cấu trúc: So với cơ sở dữ liệu có cấu trúc hay thuật toán, NLP xử lý văn bản ngôn ngữ tự nhiên trôi chảy và dạng tự do.

Token là gì? Tại sao cần chuyển đổi văn bản thành Token?

Hãy tưởng tượng rằng, trong một kịch bản ứng dụng AI điển hình, một trong những mục tiêu chính là tóm tắt nhanh, chúng ta không cần phân tích từng từ một nhưng vẫn có thể nhanh chóng hiểu các thông tin chính. Token đóng một vai trò quan trọng trong quá trình này, giúp máy tính “hiểu” và xử lý một lượng lớn văn bản.

Token là gì?

Trong xử lý ngôn ngữ tự nhiên, Token thường chỉ các đoạn có ý nghĩa trong văn bản. Những đoạn này có thể là từ, cụm từ hoặc dấu câu, giống như trong ví dụ ở trên.

Tại sao lại chuyển đổi thành Token?

Việc chuyển đổi văn bản thành Token giống như việc phân tách một báo cáo thương mại phức tạp ra các phần chính hoặc rút ngắn nội dung email thành các điểm chính. Sự phân tách này giúp máy tính xử lý và phân tích ngôn ngữ hiệu quả hơn, từ đó thực hiện các nhiệm vụ như tìm kiếm thông tin chính, tự động dịch hay phân tích cảm xúc.

Ví dụ, một người đang vận hành một hệ thống chuỗi cửa hàng trên Meituan và muốn phân tích đánh giá của khách hàng để cải thiện sản phẩm (cải thiện? Tạm thời cho là vậy), việc phân tích các đánh giá thành các Token có thể giúp xác định các vấn đề thường gặp hoặc lý do phàn nàn.

Có vẻ Token là từ, nhưng thực tế thì sao?

Phân biệt Token và ký tự, từ vựng.

Định nghĩa Đặc điểm Ví dụ
Ký tự Thành phần cơ bản tạo thành văn bản Không nhất thiết phải diễn đạt một ý nghĩa hoàn chỉnh, có thể kết hợp với các ký tự khác để tạo thành từ. happy
Từ Được cấu thành từ ký tự và có thể diễn đạt một ý nghĩa cố định Là đơn vị cơ bản truyền tải thông tin, thông tin dày đặc hơn so với ký tự đơn lẻ. I’m happy
Token Thường tương ứng với từ, nhưng linh hoạt hơn, có thể là cụm từ, dấu câu và thậm chí là gốc từ, tiền tố, Định nghĩa của Token phụ thuộc vào ứng dụng, ví dụ như phân tích văn bản, dịch máy. I, 'm, happy

Đến đây, có vẻ như chúng ta đã hiểu được phần nào, đây chủ yếu phụ thuộc vào cách mọi người hiểu về ngôn ngữ.

Dù ký tự, từ và Token về mặt kỹ thuật có thể khác nhau nhưng trong xử lý văn bản, chúng rất liên quan. Ký tự là cơ sở để xây dựng từ, và từ là thành phần cấu thành Token. Trong ứng dụng thực tế, việc nhận diện và sử dụng Token phụ thuộc vào việc hiểu về ký tự và từ.

Ví dụ, nếu chúng ta muốn phân tích một báo cáo về xu hướng thị trường, thông qua Token hóa, chúng ta có thể nhanh chóng nhận diện các từ khoá (như “tăng trưởng”, “rủi ro”, “cơ hội”,…) giúp các nhà quản lý hiểu rõ nội dung cốt lõi của báo cáo.

Nói chung, Token là một phương pháp giúp máy tính xử lý và “hiểu” văn bản, cho phép xử lý tự động văn bản, từ đó hỗ trợ doanh nghiệp trong các quyết định dựa trên dữ liệu một cách hiệu quả hơn.

Vậy Token được tạo ra và xử lý như thế nào? Chúng ta cần thoát khỏi tư duy lập trình truyền thống để xem xét.

Tạo và xử lý Token

Token được tạo ra như thế nào? Quy trình cụ thể chuyển văn bản thành Token.

Các mô hình khác nhau có thể có các bước xử lý khác nhau, để dễ hiểu, chúng tôi đã cung cấp một số bước này. Trong việc khai thác giá trị dữ liệu số hóa, chúng ta cần xem xét đến mức độ ưu tiên của giá trị dữ liệu, kết hợp với chi phí xử lý dữ liệu để đưa ra đánh giá phù hợp.

Ví dụ

Token 生成

Tiền xử lý

Đây là một đoạn văn bản mẫu, trong đó có sự kết hợp giữa tiếng Trung, tiếng Anh và số, đồng thời cũng chứa một số yếu tố cần phải tiền xử lý:

1
Năm 2024, công nghệ AI phát triển nhanh chóng. Ví dụ, OpenAI đã phát hành mô hình GPT-4o, cái mà không chỉ mạnh mẽ mà còn có sự tiến bộ đột phá trong việc xử lý <code>ngôn ngữ tự nhiên</code>. Nhưng chúng ta cần loại bỏ một số từ dừng phổ biến nhưng không có thông tin như “của”, “đã”. Về chi tiết công nghệ này, vui lòng truy cập vào trang web của chúng tôi.
  1. Loại bỏ ký tự thừa:

    • Loại bỏ các thẻ mã HTML như <code></code>, vì chúng thường không chứa thông tin hữu ích trong văn bản.
  2. Chuẩn hóa văn bản:

    • Chuyển đổi tất cả các ký tự tiếng Anh sang chữ thường để loại bỏ sự khác biệt về chữ hoa chữ thường, chẳng hạn như “OpenAI” thành “openai”.
    • Chuyển đổi từ phồn thể sang giản thể, nếu văn bản có chứa từ phồn thể, ví dụ chuyển “發展” thành “发展”.
  3. Loại bỏ từ dừng:

    • Nhận diện và loại bỏ các từ thường xuyên nhưng không mang thông tin quan trọng, như “của”, “đã”…

Sau những bước tiền xử lý này, đoạn văn bản sẽ trở nên quy chuẩn hơn, thuận tiện hơn cho việc phân từ và Token hóa, nâng cao độ chính xác và hiệu quả của các nhiệm vụ phân tích tiếp theo.

1
Năm 2024, công nghệ AI phát triển nhanh chóng. Ví dụ, OpenAI đã phát hành mô hình GPT-4o, cái mà không chỉ mạnh mẽ mà còn có sự tiến bộ đột phá trong việc xử lý ngôn ngữ tự nhiên. Nhưng chúng ta cần loại bỏ một số từ không mang thông tin như “”, “”... Về chi tiết công nghệ này, vui lòng truy cập vào trang web của chúng tôi.

Phân từ

Phân từ, nghĩa là tách các từ trong một câu ra, thuận tiện cho quá trình xử lý tiếp theo. Chúng ta có một chuỗi hạt, tìm vị trí phù hợp để tách ra.

Vậy làm thế nào để phân từ? Chúng ta có thể nghĩ đến cách sử dụng một cuốn từ điển đối chiếu. Đây cũng là cách mà trong quá khứ đã được sử dụng. Sau khi phân từ xong, kết quả sẽ như sau:

1
Năm / 2024 / , / công nghệ / AI / phát triển / nhanh chóng / . / Ví dụ / , / OpenAI / đã / phát hành / mô hình / GPT-4o / , / cái / mà / không chỉ / mạnh mẽ / mà / còn / có / sự / tiến bộ / đột phá / trong / việc / xử lý / ngôn ngữ tự nhiên / . / Nhưng / , / chúng ta / cần / loại bỏ / một số / từ dừng / phổ biến / nhưng / không / mang / thông tin / , / như / " " / , / " " /... / Về / chi tiết / công nghệ này / , / vui lòng / truy cập / vào / trang web của chúng tôi

Tất nhiên, trong thực tế cần phân từ có nhiều yếu tố. Chủ yếu có một vài phương pháp lớn:

  1. Xác định ranh giới từ:

    • Đối với các ngôn ngữ sử dụng dấu cách như tiếng Anh, việc này tương đối đơn giản, giống như khi đọc tiếng Anh, chúng ta dễ dàng xác định một từ kết thúc và một từ mới bắt đầu.
    • Đối với các ngôn ngữ như tiếng Trung, vấn đề khá phức tạp vì chữ viết không có dấu cách rõ ràng. Lúc này, chúng ta cần sử dụng các phương pháp khác để xác định các ký tự nào nên kết hợp lại thành một từ có ý nghĩa.
  2. Sử dụng từ điển và quy tắc:

    • Phương pháp dựa trên từ điển: Giống như tra từ điển, chúng ta sử dụng một danh sách lớn (từ điển) để tìm kiếm và đối chiếu các từ trong văn bản. Cách này đơn giản nhưng có hạn chế vì từ mới hoặc từ hiếm có thể không có trong từ điển.
    • Phương pháp dựa trên quy tắc: Phương pháp này sử dụng các quy tắc nhất định để xác định mối quan hệ giữa các ký tự, như ngữ pháp và thông tin ngữ cảnh, để quyết định chúng có nên kết hợp thành một từ.
  3. Phương pháp thống kê và học máy:

    • Sử dụng dữ liệu thống kê để học cách các ký tự hoặc từ thường xuất hiện cùng nhau. Phương pháp này thông qua việc phân tích dữ liệu văn bản lớn, học hỏi và dự đoán ranh giới từ.
  4. Phương pháp hỗn hợp:

    • Trong ứng dụng thực tế, thường sẽ kết hợp các phương pháp trên để nâng cao độ chính xác và khả năng ứng dụng của việc phân từ.

Tóm lại:

  • Tiếng Anh: Phân từ dựa trên khoảng trắng và dấu câu.
  • Tiếng Trung: Sử dụng thuật toán để xác định ranh giới từ.

Phân từ Jieba

Mô-đun phân từ tốt nhất tiếng Trung—Jieba, tuy nhiên đã 4 năm không được cập nhật.

Logic phân từ truyền thống không cân nhắc nhiều đến nghĩa của từ trong ngữ cảnh cụ thể hay tình huống. Hãy xem một ví dụ dưới đây.

1
2
Bạn / vì sao / luôn / cổ vũ
Bạn / vì sao / luôn / cổ vũ

vì sao là một từ, bạn là một người. Nét duyên dáng của tình huống mơ hồ này quả thực thú vị!

Sau khi phân từ, chúng ta sẽ tiến hành Token hóa.

Token hóa

Token hóa là một bước quan trọng trong xử lý dữ liệu văn bản, nó tiếp tục tinh chỉnh và xử lý các đơn vị văn bản dựa trên phân từ, nhằm đáp ứng tốt hơn các nhu cầu phân tích và xử lý tiếp theo. Dưới đây, chúng ta sẽ sử dụng văn bản bạn đã cung cấp để cụ thể hóa quy trình Token hóa.

  1. Gộp các danh từ riêng và cụm từ đặc biệt:

    • Đưa “OpenAI” và “GPT-4o” xem như một Token riêng, vì chúng là danh từ riêng, mang ý nghĩa độc lập.
    • “ngôn ngữ tự nhiên” cũng cần được xem là một Token toàn phần bởi đây là một cụm từ cố định và thuật ngữ chuyên ngành.
  2. Dấu câu như một Token độc lập:

    • Dấu câu như dấu phẩy (,), dấu chấm (.) và dấu nháy kép (“ ”) cần được xem như các Token độc lập, vì chúng đóng vai trò ngữ pháp và cấu trúc trong văn bản.
  3. Xử lý các ký hiệu trích dẫn:

    • Các khoảng trắng trong dấu nháy trống (ví dụ: khoảng trắng trong “ ”) sẽ được xem là các Token lỗi hoặc không có ý nghĩa và cần được loại bỏ.

Kết quả Token hóa

1
Năm / 2024 / , / công nghệ / AI / phát triển / nhanh chóng / . / Ví dụ / , / OpenAI / đã / phát hành / mô hình / GPT-4o / , / cái / mà / không chỉ / mạnh mẽ / mà / còn / có / sự / tiến bộ / đột phá / trong / việc / xử lý / ngôn ngữ / tự nhiên / . / Nhưng / , / chúng ta / cần / loại bỏ / một số / từ dừng / phổ biến / nhưng / không / mang / thông tin / , / như / , / ... / Về / chi tiết / công nghệ này / , / vui lòng / truy cập / vào / trang web của chúng tôi

Kết quả xử lý này trở nên gọn gàng, có nghĩa hơn, và phù hợp hơn để phục vụ các nhiệm vụ NLP tiếp theo, chẳng hạn như phân tích văn bản, phân tích cảm xúc,…. Thông qua một quy trình Token hóa hợp lý, chúng ta có thể nhanh chóng nắm bắt ý nghĩa và đặc điểm cấu trúc của văn bản, tạo nền tảng cho việc hiểu và phân tích văn bản sâu hơn.

Lưu ý rằng, Token hóa và vector hóa là hai khái niệm liên kết nhưng khác nhau, vector hóa là quá trình chuyển đổi những nội dung này thành số liệu, sẽ được đề cập sau.

Vai trò của bảng từ vựng trong việc tạo Token.

Sau các phân tích trước đó, chúng ta biết rằng bảng từ vựng có vai trò rất lớn trong quá trình tạo Token.

Nhận diện ranh giới, Đảm bảo tính đồng nhất, Nén thông tin, Tăng tốc độ xử lý, Bảo vệ ngữ nghĩa:

Thông qua việc duy trì và cập nhật bảng từ vựng, quá trình tạo Token có thể được tối ưu hóa liên tục, thích ứng với sự thay đổi ngôn ngữ và sự xuất hiện của từ mới, từ đó nâng cao độ chính xác và khả năng ứng dụng của hệ thống.

Xử lý ký tự đặc biệt (như dấu câu, khoảng trắng).

Trong quá trình tạo Token, việc xử lý ký tự đặc biệt là một vấn đề cần chú ý. Các ký tự đặc biệt như dấu câu và khoảng trắng thường mang chức năng quan trọng về cấu trúc và ngữ nghĩa trong văn bản:

  1. Dấu câu: Thường dùng để thể hiện cấu trúc câu, như dấu chấm câu (.) kết thúc câu, dấu phẩy (,) phân cách danh sách hoặc mệnh đề, hay dấu nháy (“) dùng để chỉ ra lời nói trực tiếp,…. Trong Token hóa, dấu câu thường được xem như các Token độc lập, vì chúng có thể ảnh hưởng đến ngữ điệu và cấu trúc của câu, đôi khi thậm chí có thể thay đổi ý nghĩa của câu.

  2. Khoảng trắng: Trong tiếng Anh và các ngôn ngữ sử dụng chữ cái Latin khác, khoảng trắng là phương tiện chính để phân tách các từ. Trong quá trình Token hóa, khoảng trắng thường không được giữ lại như một Token, nhưng sự hiện diện của nó là rất quan trọng để xác định ranh giới từ. Tuy nhiên, trong một số văn bản định dạng, khoảng trắng có thể được sử dụng để vẻ đẹp thị giác, trong trường hợp này cần quyết định cách xử lý dựa trên ngữ cảnh.

  3. Ký tự định dạng đặc biệt: Như bảng (Tab), ký tự kết thúc dòng (\n),… cũng đóng vai trò trong việc điều khiển định dạng. Các ký tự này trong một số trường hợp có thể cần được bỏ qua hoặc xử lý đặc biệt, chẳng hạn như trong xử lý tệp văn bản đơn giản.

Việc xử lý chính xác những ký tự đặc biệt này là phần quan trọng để đảm bảo văn bản được Token hóa đúng cách, và chiến lược xử lý của chúng có liên quan trực tiếp đến hiệu quả phân tích văn bản và ứng dụng. Khi thiết kế hệ thống NLP, cần suy nghĩ cẩn thận về logic xử lý những ký tự này nhằm phù hợp với các nhu cầu ứng dụng khác nhau và đặc điểm của dữ liệu.

Từ những nội dung trên, chúng ta cũng có thể biết được rằng, các ngôn ngữ khác nhau sẽ có những khác biệt trong việc xử lý Token, những khác biệt này giúp chúng ta hiểu rõ hơn.

Đặc tính và sự thích ứng của Token

Phương pháp Token hóa cho các ngôn ngữ khác nhau

Cấu trúc ngữ pháp và sự khác biệt giữa các ngôn ngữ yêu cầu phương pháp Token hóa cần phải có sự thích ứng và linh hoạt cao. Ví dụ:

  • Tiếng Anh và các ngôn ngữ Tây Âu khác: Các ngôn ngữ này thường sử dụng khoảng trắng làm dấu hiệu phân tách giữa các từ, khiến việc Token hóa tương đối đơn giản. Ví dụ, câu “The quick brown fox” có thể dễ dàng được chia thành “The”, “quick”, “brown”, “fox” bằng cách dựa vào dấu cách.

  • Tiếng Trung, Nhật và Hàn: Những ngôn ngữ này không có dấu phân cách rõ ràng giữa các từ, khiến cho Token hóa trở nên phức tạp hơn. Tiếng Trung đôi khi cần dựa vào từ điển hoặc mô hình thống kê để xác định tổ hợp ký tự nào tạo thành từ có nghĩa. Ví dụ, “快速发展” cần được nhận diện là một Token độc lập thay vì riêng “快速” và “发展”.

  • Tiếng Ả Rập và Hebrew: Những ngôn ngữ này được viết từ phải sang trái không chỉ đòi hỏi phải xem hướng viết mà còn phải xử lý các chữ cái kết hợp, điều này đặt ra những yêu cầu đặc biệt cho các thuật toán Token hóa.

Hiểu rõ về những khác biệt này sẽ giúp trong việc xử lý dữ liệu đa ngôn ngữ một cách hiệu quả hơn trong các doanh nghiệp toàn cầu, tối ưu hóa giao diện người dùng đa ngôn ngữ và nội dung tạo ra, nâng cao trải nghiệm người dùng và mở rộng thị trường.

Kích thước và độ chi tiết của Token được xác định như thế nào?

Kích thước và độ chi tiết của Token phụ thuộc vào nhu cầu cụ thể của ứng dụng và độ sâu xử lý dự kiến:

  • Token chi tiết: Thường được sử dụng trong các tình huống cần hiểu ngôn ngữ sâu, như phân tích cảm xúc hoặc tìm kiếm ngữ nghĩa. Chẳng hạn, phân tách từ ghép thành từng phần nhỏ hơn có thể giúp mô hình nắm bắt sự thay đổi ý nghĩa ngôn ngữ tinh tế hơn.

  • Token thô: Phù hợp cho các tình huống cần xử lý nhanh hàng loạt dữ liệu văn bản, như phân loại tài liệu hoặc trích xuất từ khóa sơ bộ. Token thô giúp giảm độ phức tạp của quy trình xử lý và yêu cầu tính toán.

Việc xác định kích thước Token thường liên quan đến việc cân nhắc giữa tốc độ xử lý và độ chính xác ngữ nghĩa. Các nhà quản lý hiểu được điều này sẽ giúp đưa ra các quyết định thông minh hơn trong việc triển khai các dự án AI, lựa chọn công nghệ và công cụ phù hợp để đáp ứng nhu cầu thực tế của doanh nghiệp.

Hiểu rõ về các phương pháp Token hóa cho các ngôn ngữ khác nhau cũng như nguyên tắc xác định kích thước và độ chi tiết của Token sẽ giúp bạn:

  1. Đánh giá tốt hơn dự án AI: Hiểu rõ về độ phức tạp và thách thức của Token hóa sẽ giúp trong việc mua hoặc phát triển các giải pháp AI liên quan.
  2. Tối ưu hóa hoạt động toàn cầu: Khả năng thích ứng Token hóa trong môi trường đa ngôn ngữ là chìa khóa để thành công trong kinh doanh toàn cầu, giúp cải thiện giao tiếp và tương tác giữa các nền văn hóa.
  3. Nâng cao hiệu quả xử lý dữ liệu: Lựa chọn kích thước Token phù hợp có thể tối ưu hóa hiệu quả xử lý dữ liệu và chi phí trong khi vẫn đáp ứng nhu cầu của doanh nghiệp.

Vậy Token ảnh hưởng như thế nào đến hiệu suất của mô hình?

Token và hiệu suất mô hình AI

Chiến lược Token ở một mức độ nào đó sẽ ảnh hưởng đến không gian ngữ cảnh của các mô hình lớn. Khi chúng ta trò chuyện với AI, có nhiều lượt đi và về, nếu như lượng nội dung quá lớn, AI sẽ quên các nội dung trước đó. Điều này có thể được hiểu như một giới hạn trên dưới. Dưới đây là giới hạn ngữ cảnh của các mô hình ngôn ngữ lớn năm ngoái.

image.png
src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

Đây là dữ liệu năm ngoái, dưới đây là hình ảnh của Gemini.
image.png
src: https://beebom.com/gemini-1-5-pro-announced/

Trong khi đó, kimi trong nước có thể xử lý tệp PDF 100M, kích thước không gian ngữ cảnh đã trở thành mảnh đất tiếp thị quan trọng. Vậy nó ảnh hưởng như thế nào?

Dựa trên nguyên tắc hiện tại về quy mô, nhiều chiến lược Token khác nhau vẫn thuộc về sự tinh vi trong thuật toán cơ bản. Điều này có nghĩa là việc điều chỉnh và tối ưu chiến lược Token có thể không hiệu quả bằng việc mua thêm card đồ họa.

Ảnh hưởng của Token đến hiệu suất mô hình

Số lượng Token ảnh hưởng như thế nào đến độ phức tạp tính toán và mức sử dụng bộ nhớ của mô hình?

Trong các mô hình AI sinh, như GPT-4 hoặc các mô hình dựa trên Transformer khác, số lượng Token trực tiếp liên quan đến độ phức tạp tính toán và mức độ sử dụng bộ nhớ của mô hình. Mỗi khi tăng thêm một Token, mô hình phải xử lý nhiều điểm dữ liệu hơn, điều này không chỉ làm tăng khối lượng tính toán trong quá trình huấn luyện và dự đoán mà còn làm gia tăng yêu cầu về bộ nhớ. Chẳng hạn, trong quá trình huấn luyện một mô hình ngôn ngữ, mô hình cần phải lưu trữ và tính toán mối quan hệ giữa mỗi Token với tất cả các Token khác, điều này đặc biệt rõ ràng trong cơ chế tự chú ý của mô hình.

Ví dụ: Có thể xem xét một dự án chatbot sinh, nếu lịch sử đối thoại nhập vào quá dài (nghĩa là số lượng Token nhiều), mô hình có thể chạy chậm hơn trong quá trình phản hồi, và tài nguyên tính toán tiêu thụ cũng cao hơn. Ví dụ, nếu lịch sử đối thoại chứa hàng ngàn Token, điều này có thể dẫn đến tốc độ xử lý giảm rõ rệt, đặc biệt là trên các thiết bị có hạn chế về tài nguyên.

Một cách hiểu trực quan, lý do mà các công ty mô hình lớn không mở rộng dung lượng có lẽ có lý do thực tế của nó. Lớn hơn không có nghĩa là tốt hơn.

Nhiều Token hơn có phải lúc nào cũng đồng nghĩa với hiệu suất mô hình tốt hơn?

Không phải lúc nào số lượng Token nhiều hơn cũng tương đương với hiệu suất mô hình tốt hơn. Trong AI sinh, số lượng Token hợp lý có thể giúp mô hình nắm bắt và hiểu bối cảnh chính xác hơn, từ đó nâng cao độ liên quan và sự chính xác của nội dung được tạo ra. Tuy nhiên, quá nhiều Token có thể gây ra thông tin không liên quan, giảm hiệu quả và chất lượng đầu ra của mô hình.

Ví dụ: Trong một hệ thống AI tạo báo cáo thị trường, việc phân chia Token chính xác có thể đảm bảo rằng các thông tin quan trọng được xử lý nổi bật chứ không bị chìm vào trong nhiều chi tiết không cần thiết. Chẳng hạn, hệ thống cần tổng hợp từ nhiều tin tức tài chính khác nhau để tạo ra tóm tắt ngắn gọn, quá nhiều Token có thể dẫn đến báo cáo được tạo ra lộn xộn và khó nắm bắt thông tin cốt lõi.

Hiện tại, việc xử lý các tệp lớn của các công ty mô hình lớn có thể có khả năng sử dụng các chiến lược giống như đám mây, A tải lên một tệp, khi B tải lên, nó không cần phải phân tích lại mà chỉ cần sử dụng kết quả phân tích của A. Khi nội dung càng nhiều, nó sẽ hình thành ưu thế sản phẩm của mình.

Tối ưu hóa việc sử dụng Token

Làm thế nào để tìm được điểm cân bằng giữa số lượng Token và hiệu suất mô hình?

Chiến lược Token ở đây chủ yếu hướng đến các người dùng phổ thông sử dụng Prompt, thông qua chiến lược này để khiến kết quả phù hợp hơn với mong đợi của chúng ta.

Tìm kiếm điểm cân bằng tối ưu giữa số lượng Token và hiệu suất mô hình là phần quan trọng để đảm bảo rằng các mô hình AI sinh hoạt động hiệu quả và chính xác. Điều này thường cần thông qua thử nghiệm và điều chỉnh, đồng thời sử dụng các kỹ thuật tinh chỉnh mô hình tiên tiến.

Ví dụ: Trong hệ thống tạo nội dung tự động, việc tìm kiếm sự cân bằng trong việc sử dụng Token là một thách thức điển hình. Hệ thống có thể cần rút trích thông tin chính từ một văn bản dài để tạo tóm tắt. Trong tình huống này, lựa chọn số lượng Token phù hợp để bảo vệ lượng thông tin cần thiết trong khi tránh cấu trúc mô hình quá phức tạp là điều vô cùng quan trọng.

Mối quan hệ giữa Token và cửa sổ ngữ cảnh cũng như ảnh hưởng đến chất lượng tạo văn bản.

Trong AI sinh, cách thức sử dụng Token và thiết lập cửa sổ ngữ cảnh ảnh hưởng trực tiếp đến độ liên kết và tính logic của văn bản được tạo ra. Cửa sổ ngữ cảnh càng lớn, mô hình có thể xem xét càng nhiều thông tin lịch sử trong quá trình tạo văn bản, giúp tạo ra văn bản liên kết và tự nhiên hơn.

Ví dụ: Giả sử một mô hình AI được sử dụng để tạo một bài viết blog công nghệ. Nếu cửa sổ ngữ cảnh được thiết lập quá nhỏ, mô hình có thể không liên kết hiệu quả giữa các phần của bài viết, dẫn đến việc nội dung bị ngắt quãng logic. Thông qua việc tối ưu hóa việc sử dụng Token và điều chỉnh kích thước cửa sổ ngữ cảnh, chất lượng và tính dễ đọc của bài viết có thể được nâng cao đáng kể.

Tiến tới phần chúng ta đã đề cập trước đây, đối với các hệ thống ứng dụng, chúng ta mong muốn trải nghiệm người dùng tốt nhưng cũng cần xem xét đến chi phí.

Ứng dụng thương mại của Token và mô hình tính phí

Trước tiên, hãy xem một bảng tính phí hiện tại của mô hình lớn.

Token tính phí

Thông thường, việc sử dụng các mô hình ngôn ngữ lớn có thể chia thành việc trò chuyện trực tuyến và gọi qua API, việc sử dụng trong OpenAI trên trang web có thể coi như một quy tắc, 20 đô la mỗi tháng. Nhưng việc gọi qua API thì lại không giống vậy, mức phí có thể chênh lệch lớn.

Trò chơi mèo bắt chuột, ngay cả khi đã có ChatGPT Plus, vẫn có giới hạn về số lượt trong 3 giờ. Nhiều người đã thử sử dụng các mã nguồn mở để sử dụng ChatGPT thông qua Web mà không cần API, nhưng những mã nguồn này đã bị dẹp bỏ gần hết!

Ngày xưa, logic tính phí của ngành viễn thông là tính theo thời gian, từng đặt ra một thời kỳ lớn lợi nhuận, sau này mới có cơ chế gói tháng, hiện nay việc tính phí theo Token cũng có nét tương đồng.

Logic tính phí theo Token

Tại sao lại sử dụng tính phí theo Token? Tính hợp lý và mô hình thương mại của nó.

Mô hình tính phí theo Token rất phổ biến trong dịch vụ AI, đặc biệt là khi sử dụng các dịch vụ mô hình ngôn ngữ như OpenAI. Mô hình tính phí này dựa trên việc sử dụng cụ thể của người dùng, tức là tính phí dựa trên số lượng Token được xử lý trong mỗi yêu cầu.

Tính hợp lý:
Tính hợp lý của mô hình tính phí theo Token là nó có thể chính xác phản ánh mức tiêu thụ tài nguyên thực sự của người dùng. Mỗi Token đại diện cho một đơn vị thông tin mà mô hình cần xử lý, nhiều Token hơn đồng nghĩa với việc tiêu tốn nhiều tài nguyên tính toán hơn. Do đó, hình thức tính phí này có thể đảm bảo rằng người dùng trả phí dựa trên mức sử dụng thực tế của họ, đồng thời khuyến khích họ tối ưu hóa đầu vào, tránh lãng phí không cần thiết.

Mô hình thương mại:
Từ góc độ thương mại, mô hình tính phí theo Token cung cấp cho các nhà cung cấp dịch vụ AI một khuôn khổ tính phí linh hoạt và công bằng. Mô hình này cho phép nhà cung cấp định giá ở các mức khác nhau dựa trên tải trọng hệ thống và chi phí hoạt động, từ đó có thể thu hút nhiều đối tượng khách hàng, từ các nhà phát triển nhỏ đến các doanh nghiệp lớn.

So sánh giữa tính phí theo Token với các hình thức tính phí khác (như số từ, số ký tự, thời gian)

So với các hình thức tính phí phổ biến khác, tính phí theo Token có những lợi thế và hạn chế riêng:

  • Tính phí theo số từ và số ký tự: Các hình thức này đơn giản và dễ hiểu, dễ dàng đưa ra dự toán. Tuy nhiên, chúng thường không tính đến sự phức tạp trong việc xử lý và mức tiêu thụ tài nguyên tính toán thực tế. Ví dụ, việc xử lý một câu dài với từ vựng đơn giản có thể đơn giản hơn so với xử lý một thuật ngữ kỹ thuật, nhưng Phí tính theo số từ có thể cao hơn.

  • Tính phí theo thời gian: Các mô hình tính phí dựa trên thời gian (như tính phí theo phút hoặc giờ) thích hợp cho các dịch vụ liên tục, như xử lý dữ liệu trực tiếp hoặc học trực tuyến. Nhưng cho các tác vụ ngắn dựa trên yêu cầu, mô hình này có thể dẫn đến tính phí không công bằng hoặc không chính xác.

Tính phí theo Token cung cấp một phép đo chi tiết hơn, có thể phản ánh công bằng hơn mức tiêu thụ tài nguyên của người sử dụng.

Chi phí của các công ty mô hình lớn chúng ta có thể sơ qua bao gồm:

  1. Chi phí nghiên cứu phát triển (nhân lực + thí nghiệm)
  2. Chi phí huấn luyện (tài nguyên tính toán + xử lý dữ liệu)
  3. Chi phí triển khai (hạ tầng + chi phí lưu trữ)
  4. Chi phí duy trì và cập nhật
  5. Chi phí tuân thủ đạo đức (an toàn dữ liệu, tuân thủ dữ liệu)
    Tất cả những chi phí này có vẻ không thể duy trì một cách hợp lý qua Token, có thể chỉ có các chuyên gia trong ngành mới có thể đánh giá được. Có thể đây là phương pháp đánh giá hợp lý nhất trong giai đoạn hiện tại.

Ảnh hưởng thực tế của việc tính phí theo Token

Ảnh hưởng của các hình thức tính phí khác nhau đến người dùng và nhà phát triển.

Mô hình tính phí theo Token đồng nghĩa với việc người dùng cần phải quản lý các yêu cầu API của họ một cách cẩn thận để kiểm soát chi phí. Các nhà phát triển cần thiết kế các truy vấn hiệu quả, giảm thiểu việc sử dụng Token dư thừa, từ đó tối đa hóa giá trị mỗi yêu cầu. Hình thức tính phí này khuyến khích các nhà phát triển tối ưu hóa dữ liệu đầu vào và quy trình xử lý, nhưng cũng có thể làm tăng độ phức tạp trong việc phát triển và công việc tối ưu hóa ban đầu.

Đối với nhà cung cấp, tính phí theo Token có thể giúp cân bằng tải trên máy chủ, dự đoán doanh thu và tối ưu hóa cấu hình tài nguyên. Nó cũng có thể trở thành một cơ chế phản hồi cho việc tối ưu hóa sản phẩm và điều chỉnh chiến lược giá, giúp các nhà cung cấp đáp ứng nhu cầu của thị trường tốt hơn.

Làm thế nào để tối ưu hóa việc sử dụng Token nhằm giảm chi phí?

Tối ưu hóa việc sử dụng Token là chìa khóa để kiểm soát chi phí. Điều này có thể được thực hiện thông qua một số phương pháp sau:

  • Giảm thiểu dữ liệu đầu vào: Trước khi gửi yêu cầu, loại bỏ văn bản không cần thiết và các dữ liệu dư thừa, chỉ giữ lại thông tin quan trọng.
  • Sử dụng thiết kế truy vấn hiệu quả: Thiết kế các truy vấn hợp lý để tránh các yêu cầu chuỗi quá phức tạp hoặc sâu sắc.
  • Áp dụng các chiến lược lưu trữ: Sử dụng kết quả đã lưu cho các yêu cầu thường xuyên hoặc lặp lại, giảm áp lực cho dịch vụ backend.
  • Giám sát và phân tích: Định kỳ phân tích dữ liệu tiêu thụ Token để tìm ra điểm tối ưu, điều chỉnh chiến lược để giảm lãng phí.

Thông qua những cách này, không chỉ có thể giảm chi phí mà còn cải thiện tốc độ phản hồi của hệ thống và độ hài lòng của người dùng, từ đó giúp chiếm ưu thế trong thị trường cạnh tranh khốc liệt.

Giá trị thương mại của Token và các trường hợp ứng dụng

Ứng dụng thực tế của Token trong kinh doanh

Trong hoạt động doanh nghiệp, công nghệ Token hóa có thể cải thiện đáng kể hiệu quả xử lý dữ liệu và chất lượng quyết định. Đối với các nhà quản lý không kỹ thuật, việc hiểu rõ về ứng dụng của Token có thể giúp họ đánh giá tốt hơn về đầu tư công nghệ và thúc đẩy đổi mới kinh doanh.

Góc nhìn kỹ thuật: Vai trò của Token trong xử lý ngôn ngữ tự nhiên

Token hóa là quá trình phân chia các dữ liệu văn bản phức tạp thành các đơn vị dễ quản lý, cho phép các hệ thống AI thực hiện phân tích và xử lý dữ liệu hiệu quả. Quá trình này đặc biệt quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), khiến máy có khả năng “hiểu” ngôn ngữ của con người và thực hiện các nhiệm vụ như:

  • Trích xuất thông tin: Token hóa giúp nhanh chóng trích xuất thông tin chính từ một lượng lớn văn bản, như từ các tài liệu pháp lý để lấy các điều khoản liên quan.
  • Phân tích cảm xúc: Thông qua phân tích các Token từ phản hồi của khách hàng, doanh nghiệp có thể nhận diện được xu hướng cảm xúc của khách hàng, từ đó điều chỉnh sản phẩm hoặc dịch vụ.
  • Tóm tắt tự động: Công nghệ Token hóa có khả năng tự động tạo ra bản tóm tắt cho các tài liệu, nâng cao hiệu suất làm việc của nhân viên tri thức.

Góc nhìn thương mại: Token trong việc nâng cao giá trị doanh nghiệp

Từ góc độ thương mại, Token không chỉ nâng cao hiệu quả hoạt động mà còn mở ra các mô hình kinh doanh và kênh doanh thu mới:

  • Cải thiện tương tác với khách hàng: Việc sử dụng các chatbot dựa trên Token hóa có thể cung cấp dịch vụ tài chính 24X7, nâng cao sự hài lòng của khách hàng và giảm chi phí phục vụ.
  • Phân tích thị trường: Việc xử lý Token có thể giúp doanh nghiệp nhanh chóng tiếp cận thông tin xu hướng từ các báo cáo thị trường, định hướng cho quyết định chiến lược.
  • Khuyến nghị cá nhân hóa: Trong các nền tảng thương mại điện tử, công nghệ Token hóa có thể phân tích lịch sử mua hàng và hành vi lướt web của người dùng, cung cấp các sản phẩm phù hợp với sở thích khách hàng, từ đó gia tăng doanh thu.

Phân tích thực tế các trường hợp

Chatbot dịch vụ khách hàng

Một ứng dụng điển hình là chatbot dịch vụ khách hàng. Ví dụ, một công ty viễn thông lớn đã triển khai một chatbot dựa trên Token hóa để xử lý các truy vấn của người dùng về vấn đề hóa đơn, sự cố dịch vụ,… Chatbot này phân tích các câu hỏi của người dùng (đã được Token hóa), nhanh chóng cung cấp câu trả lời chính xác hoặc chuyển tiếp vấn đề đến bộ phận dịch vụ thích hợp.

Hệ thống khuyến nghị nội dung

Trong lĩnh vực truyền thông và giải trí, hệ thống khuyến nghị nội dung sử dụng công nghệ Token hóa để phân tích thói quen xem hoặc đọc của người dùng, từ đó gợi ý các bộ phim, sách hoặc bài viết mới mà người dùng có thể quan tâm. Ví dụ, hệ thống khuyến nghị của Netflix phân tích các mô tả Token của các chương trình mà người dùng đã xem trước đó để dự đoán những chương trình mà người dùng có thể thích.

Giá trị thương mại của Token và triển vọng ứng dụng

Trong ứng dụng doanh nghiệp, việc hiểu và tối ưu hóa việc sử dụng Token là điều quan trọng để thành công của các dự án AI. Thấu hiểu giá trị thương mại của Token và những thách thức liên quan là rất cần thiết để lập kế hoạch chiến lược và lái xe công nghệ đổi mới.

Ứng dụng thương mại của Token

Góc nhìn kỹ thuật: Vai trò của Token

Token trong xử lý ngôn ngữ tự nhiên (NLP) giúp cho thông tin văn bản có thể được hệ thống AI xử lý một cách hiệu quả. Đơn giản mà nói, Token hóa là quá trình phân chia các đoạn văn bản lớn thành các đơn vị nhỏ có thể xử lý được, cung cấp nền tảng cho các mô hình học máy.

  • Xử lý dữ liệu: Trong việc xử lý truy vấn của khách hàng, phân tích phản hồi từ thị trường hay quản lý một lượng lớn tài liệu, Token hóa giúp cho các dữ liệu văn bản phức tạp trở nên dễ quản lý và phân tích.
  • Nâng cao hiệu quả: Thông qua Token hóa, các mô hình AI có thể nhanh chóng nhận diện thông tin quan trọng, từ đó đẩy nhanh quá trình ra quyết định, nâng cao tốc độ phản hồi của doanh nghiệp.

Góc nhìn thương mại: Giá trị kinh tế của Token

Từ góc độ thương mại, Token không chỉ là thành phần kỹ thuật mà còn liên quan trực tiếp đến việc nâng cao hiệu quả hoạt động, cải thiện trải nghiệm khách hàng và mở rộng mô hình kinh doanh mới.

  • Tối ưu hóa dịch vụ khách hàng: Token hóa làm cho tự động hóa dịch vụ khách hàng trở nên khả thi, thông qua hệ thống phản hồi tự động nhanh chóng và chính xác đối với yêu cầu của khách hàng, cải thiện đáng kể sự hài lòng khách hàng và lòng trung thành với thương hiệu.
  • Marketing cá nhân hóa: Thông qua Token hóa để phân tích hành vi và sở thích của người dùng, doanh nghiệp có thể cung cấp nội dung tiếp thị được cá nhân hóa cao, nâng cao tỷ lệ chuyển đổi doanh số.

Triển vọng tương lai và thách thức của Token

Hướng phát triển tương lai

Với sự tiến bộ của công nghệ AI, ứng dụng của Token dự kiến sẽ trở nên thông minh và đa dạng hơn:

  • Ứng dụng đa phương thức: Công nghệ Token sẽ không chỉ bị giới hạn trong việc xử lý văn bản mà sẽ mở rộng sang phân tích nội dung video, âm thanh và các hình thức đa phương tiện khác, hỗ trợ nhiều tình huống ứng dụng hơn.
  • Tối ưu thông minh: Các phương pháp tạo ra và xử lý Token sẽ trở nên thông minh hơn, như thông qua AI tự động điều chỉnh kích thước và số lượng Token để thích ứng với các nhu cầu doanh nghiệp khác nhau.

Thách thức và cơ hội trong thương mại

  • An toàn và quyền riêng tư dữ liệu: Đảm bảo an toàn dữ liệu và quyền riêng tư của người dùng trong phần xử lý Token là thách thức chính trong tương lai, đặc biệt khi xử lý các thông tin nhạy cảm.
  • Tích hợp công nghệ: Làm thế nào để tích hợp công nghệ Token với các hệ thống CNTT hiện tại và quy trình kinh doanh một cách liền mạch là điều thiết yếu để hiện thực hóa công nghệ.
  • Công bằng và giải thích: Đảm bảo rằng các quyết định của AI được thực hiện thông qua Token hóa là công bằng và minh bạch, gia tăng lòng tin của tất cả các bên liên quan.

Kết luận

Khi viết bài này, Linh Miêu đã đề cập đến hướng đi mới hiện tại (cảm ơn), https://arxiv.org/abs/2104.12369 , theo thực tiễn của mô hình Pangu của Huawei, sự phát triển Token trong lĩnh vực tiếng Trung sẽ có xu hướng phi kỹ thuật hóa, còn cần theo dõi thêm.

Trước khi viết bài này, sự hiểu biết của tôi về Token chỉ giới hạn ở ý tưởng rằng một ký tự Trung Quốc tương đương với 1 Token, tôi cũng đã đồng nhất Token với vector hóa. Trước vector hóa, đã có công việc Token. Chúng ta cần chào đón AI tốt hơn và chấp nhận sự thay đổi, làm thế nào để dữ liệu trong hệ thống ứng dụng doanh nghiệp hiện tại có thể được sử dụng tốt hơn? Chúng ta có thể bắt đầu từ đây!

Liên kết tham khảo