Введение

Слышали, что ИИ взимает плату по токенам?
- Использование оказывается довольно затратным по токенам.
- Компьютер не выключался всю ночь, потратил кучу токенов; разве вам не кажется, что это как потерять целый дом?
Почему нужно использовать токены для выставления счета?
- Слышал, что взимание платы за токены происходит в обоих направлениях.
- Задать ИИ вопрос — оплачивается, и получить ответ — тоже платно, это уже чересчур!
- Так ИИ не начнет ли говорить ерунду?
Что такое токены — слова или буквы?
- А как насчет выставления счетов за иероглифы?
- Как считать для арабского языка?
Какое иное значение имеют токены в процессе информатизации предприятий?
- В традиционной информатизации создают структуру, налаживают базы данных.
- Почему в применении ИИ возникла проблема с токенами?

Эта статья пытается ответить на эти вопросы и исследовать, что же на самом деле такое токены. Это длинная статья, присаживайтесь.

В истории развития компьютеров часто встречаются слова, которые сначала кажутся внушительными, потом они постепенно становятся частью повседневной жизни обычных людей. Запросы (Prompt) — отличный пример, и токены тоже. На данный момент, по всей видимости, они действительно вышли за рамки своей первоначальной аудитории.
Но возник вопрос: это OpenAI представило идею токенов как очень удобного способа выставления счета, или дело обстоит иначе?
Давайте сначала рассмотрим, откуда они взялись.

В корпоративной среде использование технологий ИИ для снижения затрат и повышения эффективности требует понимания токенов, что поможет лучше понять внедрение ИИ в предприятия. Проще говоря, понимание токенов можно сравнить со строительными блоками: с их помощью мы можем создавать необходимые приложения и улучшать производительность.

Основы токенов

Основные понятия токенов

Сначала давайте посмотрим на описание токенов, представленное официальным сайтом OpenAI :

1 токен ≈ 4 английских символа
1 токен ≈ ¾ слова
100 токенов ≈ 75 слов
или
1-2 предложения ≈ 30 токенов
1 параграф ≈ 100 токенов
1,500 слов ≈ 2048 токенов

Почитали? Теперь, вероятно, стало ещё непонятнее! Чем это отличается от ситуации, когда Конг Юйцзи спорывал о том, сколько есть написаний для «хотеть»? Давайте попробуем угадать:

Изучая ИИ с вниманием, делимся знаниями с радостью

Как думаете, сколько здесь токенов? 6 слов — значит, 6 токенов, верно? Увы, не так!

В ChatGPT 4 это уже 10 токенов. Из изображения видно, что знаки препинания считаются отдельно, к тому же Joyfully разбито на Joy и fully.

От кода к диалогу: необходимость введения токенов

Основной язык компьютера — это двоичный код, состоящий из 0 и 1, что является базовой формой представления всех программ и данных. Не важно, используем мы Python или Java, или работаем с мультимедийными файлами, такими как изображения и видео, все это переводится в машинный язык. В традиционной компьютерной науке специалисты изо всех сил старались абстрагировать сложность реального мира с помощью четко определенных типов данных, таких как строки (последовательности символов) и целые числа (числа), чтобы обрабатывать информацию. Этот подход хорошо работает для обработки структурированных данных, таких как математические вычисления или запросы к базам данных.

Однако с ростом технологий и повышением потребностей людей мы стали желать, чтобы компьютеры могли не только обрабатывать числа и коды, но и понимать и интерпретировать естественный язык — нашу повседневную речь. Здесь и начинается область обработки естественного языка (NLP, Natural Language Processing), целью которой является обучение компьютеров понимать, интерпретировать и генерировать человеческий язык.

Учитывая характер естественного языка, включая его разнообразие, зависимость от контекста и неясность, мы сталкиваемся не с простыми задачами вроде 1+1=2, а с такими, как сделать так, чтобы компьютер понимал фразы вроде “Сегодня пятница, куда пойдем в выходные? Может, останемся дома и поучимся ИИ?” и дальше анализировать их эмоциональную окраску или переводить на другие языки. В таких ситуациях традиционные типы данных становятся недостаточными.

Вот почему возникла необходимость в концепции токенов. Токенизация — это процесс преобразования сложных текстовых данных в более мелкие и простые для обработки компьютером единицы, такие как слова, фразы или знаки препинания. Это позволяет компьютерам более эффективно обрабатывать язык, извлекая смысл из текста, а не просто подсчитывая количество символов.

От определенности к неопределенности: Традиционное программирование обрабатывает четкие и предсказуемые данные, в то время как NLP включает интерпретацию многозначных слов и контекста.

От структурированного к неструктурированному: В отличие от структурированных баз данных или алгоритмов, NLP работает с плавными, свободно формируемыми текстами естественного языка.

Что такое токен? Почему нужно преобразовывать текст в токены?

Представьте, что в мире генеративного ИИ одно из самых типичных сценариев применения — это быстрая обработка резюме. Нам не нужно проходить по каждому слову, чтобы быстро уяснить основную информацию. Токены здесь играют ключевую роль, помогая компьютерам «понимать» и обрабатывать большие объемы текста.

Что такое токен?

В обработке естественного языка токен обычно обозначает значимые фрагменты текста. Эти фрагменты могут быть словами, фразами или знаками препинания, как в приведенном выше примере.

Почему преобразовывать текст в токены?

Преобразование текста в токены аналогично разбиению сложного бизнес-отчета на ключевые части или структурированию содержимого писем в краткие мысли. Такая декомпозиция позволяет компьютеру более эффективно обрабатывать и анализировать язык, выполняя такие задачи, как поиск ключевой информации, автоматический перевод или анализ настроений.

Например, если кто-то открыл сеть магазинов на платформе Meituan и хочет проанализировать отзывы клиентов, чтобы улучшить продукты, декомпозиция отзывов на токены может помочь выявить общие проблемы или источники отрицательных отзывов.

На первый взгляд токены воспринимаются как слова, но на самом деле это не так?

Различия и взаимосвязь между токенами, символами и словами.

	Определение	Особенности	Пример
Символ	Основные элементы текста	Не обязательно выражает полное значение; может образовывать слова с другими символами.	happy
Слово	Состоит из символов и может выражать определенное значение	Основная единица передачи информации; содержит больше информации, чем один символ.	I’m happy
Токен	Обычно соответствует словам, но более гибок; может быть фразами, знаками препинания, корнями, префиксами и т.д.	Определение токена зависит от его применения, например, в анализе текста или машинном переводе.	`I`, `'m`, `happy`

Здесь мы начинаем ощущать, что многое зависит от нашего понимания языка.

Хотя символы, слова и токены могут технически отличаться, они тесно связаны в обработке текста. Символы — основа для построения слов, а слова — элементы, из которых формируются токены. В практическом применении распознавание и использование токенов зависят от понимания символов и слов.

Например, если мы хотим проанализировать отчет о рыночных тенденциях, токенизация позволит быстро выявить ключевые слова (например, «рост», «риски», «возможности»), что поможет руководству уловить суть отчета.

В целом, токены представляют собой метод, помогающий компьютерам обрабатывать и «понимать» текст, тем самым поддерживая автоматизированную обработку текстов и способствуя эффективному использованию языковой информации в процессе принятия решений на основе данных.

Как же токены генерируются и обрабатываются? Это требует отхода от традиционного программирования.

Генерация и обработка токенов

Как токены генерируются? Конкретный процесс преобразования текста в токены.

  graph LR
  A[Процесс обработки текста]
  A1[Предварительная обработка]
  A2[Разбиение на слова]
  A3[Токенизация]
  A4[Постобработка]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[Удаление лишних символов]
  B1 --> B1a[Например, коды веб-страниц]
  
  A1 --> B2[Стандартизация текста]
  B2 --> B2a[Приведение к единому регистру]
  B2 --> B2b[Преобразование традиционных и упрощенных иероглифов]

  A1 --> B3[Удаление стоп-слов]
  B3 --> B3a[Таких как «的», «了» и др.]

  A2 --> C1[Разбиение на слова на английском]
  C1 --> C1a[На основе пробелов и пунктуации]

  A2 --> C2[Разбиение на слова на китайском]
  C2 --> C2a[С использованием алгоритмов для определения границ слов]

  A3 --> D1[Слияние слов]
  D1 --> D1a[Например, собственные имена «Нью-Йорк»]
  D1 --> D2[Определение фраз или устойчивых выражений]
  D1 --> D3[Рассмотрение знаков препинания как отдельных токенов]

  A4 --> E1[Пометка частей речи]
  A4 --> E2[Пометка семантических ролей]

Разные модели могут иметь различия в процессе обработки. Для лучшего понимания были приведены несколько шагов, которые важно учитывать при создании методов извлечения ценности из данных в информатизации предприятий, принимая во внимание приоритеты ценности данных и стоимость обработки данных для принятия адекватных оценок.

Например:

Генерация токенов

Предварительная обработка

Допустим, есть такой пример текста, в котором смешаны китайский, английский и цифры, а также некоторые элементы, требующие предварительной обработки:

В 2024 году технологии ИИ быстро развиваются. Например, OpenAI выпустила модель GPT-4o, которая не только обладает высокой производительностью, но и сделала прорыв в обработке <code>естественного языка</code>. Однако нам нужно удалить некоторые распространенные, но неинформативные стоп-слова, такие как «的», «了» и т. д. Подробнее об этих технологиях можно узнать на нашем сайте

Удаление лишних символов:
- Удаляем теги кода, такие как <code> и </code>, так как они не содержат полезной информации.
Стандартизация текста:
- Весь английский текст переводится в нижний регистр, чтобы исключить различия по регистру, например, “OpenAI” становится “openai”.
- Преобразуем традиционные иероглифы в упрощенные, если встречаются традиционные иероглифы, например, преобразуем “發展” в “发展”.
Удаление стоп-слов:
- Распознаем и удаляем часто встречающиеся слова, которые обычно не несут важной информации, такие как “的”, “了” и др.

После этих предварительных шагов текст будет более стандартизирован, что облегчит дальнейшую токенизацию и обработку, повышая точность и эффективность последующих задач анализа.

В 2024 году технологии ИИ быстро развиваются. Например, OpenAI выпустила модель GPT-4o, которая не только обладает высокой производительностью, но и сделала прорыв в обработке естественного языка. Однако нам нужно удалить некоторые распространенные, но неинформативные слова, такие как « », « » и т. д. Подробнее о этих технологиях можно узнать на нашем сайте

Разбиение текста

Разбиение текста на слова, как следует из названия, это процесс выделения слов из предложений для удобства дальнейшей обработки. Мы как будто держим в руках цепочку бус, и находим подходящее место для разрезания.

Как же проходит разбиение? Мы могли бы подумать, что пользоваться словарем — хорошее решение, так и поступали ранее. Разобьем текст так:

在 / 2024 / 年 / ， / AI / 技术 / 快速 / 发展 / 。 / 例如 / ， / OpenAI / 发布 / GPT-4o / 模型 / ， / 这个 / 模型 / 不仅 / 性能 / 强大 / ， / 而且 / 在 / 处理 / 自然语言 / 方面 / 具有 / 突破性 / 进展 / 。 / 但是 / ， / 我们 / 需要 / 去除 / 一些 / 常用 / 但 / 无 / 信息量 / 停用词 / ， / 比如 / “ ” / ， / “ ” / 等等 / 。 / 关于 / 这些 / 技术 / 详情 / ， / 请 / 访问 / 我们 / 官网

На самом деле существует много нюансов в разбиении слов. В общем, существует несколько подходов:

Определение границ слов:
- Для языков, таких как английский, использующие пробелы, это достаточно просто. Как при чтении английского, так легко определить, где заканчивается одно слово и начинается другое.
- Для языка, такого как китайский, всё гораздо сложнее, так как там нет явных пробелов между словами. Здесь нам нужны дополнительные методы для определения, какие символы составляют значимые фразы.
Использование словарей и правил:
- Метод на основе словарей: подобно тому, как мы ищем в словаре, используя большой список (словарь), чтобы искать и сопоставлять слова в тексте. Этот метод прост, но ограничен, так как новые или редкие слова могут не находиться в словаре.
- Метод на основе правил: этот метод использует определенные правила для определения отношений между символами, грамматики и контекста, чтобы установить, должны ли они составлять одно слово.
Статистические и обучающие методы:
- Использование статистических данных для изучения, какие символы или буквы часто встречаются вместе. Этот метод основан на анализе больших объемов текстовых данных с целью学习 и предсказания границ слов.
Смешанные подходы:
- На практике обычно применяют комбинацию перечисленных методов для повышения точности и применимости разбиения на слова.

Вкратце:

Английский: разбиение основано на пробелах и знаках препинания.
Китайский: используются алгоритмы для определения границ слов.

Отличный компонент для разбиения на слова на китайском — Jieba, однако он уже не обновлялся на протяжении 4 лет.

Традиционная логика разбиения не учитывает значений слов в конкретном контексте. Давайте взглянем на пример:

1 2	你为/何总/打call 你/为何/总打call

何总 — это человек, а 为何 — это фраза. Эта замечательная многозначность действительно великолепна!

После разбиения начинается работа по токенизации.

Токенизация

Токенизация — это ключевой шаг в обработке текстовых данных, который дальше уточняет и обрабатывает текстовые единицы для лучшего соответствия требованиям последующей обработки и анализа. Затем мы объясним процесс токенизации, используя предоставленный вами текст.

Слияние собственных имен и определенных фраз:
- «OpenAI» и «GPT-4o» рассматриваются как отдельные токены, так как это собственные имена с отдельным значением.
- «自然语言» как устойчивое выражение и специализированный термин также следует рассматривать как единый токен.
Знаки препинания как отдельные токены:
- Знаки препинания, такие как запятые (，), точки (。) и кавычки (“ ”), рассматриваются как отдельные токены, так как они играют роль в грамматике и структуре текста.
Обработка пустых символов:
- Пробелы (номера и знаки) внутри пустых кавычек (如“ ”中的空格) можно считать ошибочными или несущественными токенами и убрать.

Результат токенизации

在 / 2024 / 年 / ， / AI / 技术 / 快速 / 发展 / 。 / 例如 / ， / OpenAI / 发布 / GPT-4o / 模型 / ， / 这个 / 模型 / 不仅 / 性能 / 强大 / ， / 而且 / 在 / 处理 / 自然语言 / 方面 / 具有 / 突破性 / 进展 / 。 / 但是 / ， / 我们 / 需要 / 去除 / 一些 / 常用 / 但 / 无 / 信息量 / 停用词 / ， / 比如 / ， / 等等 / 。 / 关于 / 这些 / 技术 / 详情 / ， / 请 / 访问 / 我们 / 官网

Этот обработанный результат более сжатый и информативный, лучше подходит для последующих задач НЛП, таких как текстовый анализ и анализ настроений. Правильная токенизация позволит более эффективно захватывать смысл и структурные особенности текста, что послужит основой для углубленного понимания и анализа текстов.

Следует отметить, что токенизация и векторизация тесно связаны, но это не одно и то же: векторизация — это преобразование содержания в числовые значения, о которых будет упомянуто позже.

Роль словаря в процессе генерации токенов.

После предыдущего анализа, мы понимаем, что наличие словаря играет важную роль в процессе генерации токенов.

Определение границ, гарантия согласованности, сжатие информации, повышение скорости обработки, поддержание семантики:

Поддерживая и обновляя словарь, можно постоянно оптимизировать процесс генерации токенов, адаптируя его к изменениям языка и появлениям новых слов, тем самым повышая адаптивность и точность всей системы.

Обработка специальных символов (например, знаков препинания и пробелов).

В процессе генерации токенов особое внимание нужно уделять обработке специальных символов. Специальные знаки, такие как знаки препинания и пробелы, в тексте часто выполняют важную структурную и семантическую функцию:

Знаки препинания: они служат для выражения структуры предложения, например, точка (.) в конце предложения, запятая (,) для разделения пунктов списка или для вводных фраз и кавычки (“ ”) для прямой речи. При токенизации знаки препинания обычно рассматриваются как отдельные токены, поскольку они могут повлиять на интонацию и структуру предложения и иногда даже менять его смысл.
Пробелы: в английском и других языках, использующих латинский алфавит, пробелы — это главный способ разделения слов. В процессе токенизации пробелы, как правило, не сохраняются как токены, но их наличие имеет ключевое значение для определения границ слов. Тем не менее, в некоторых форматированных текстах пробелы могут использоваться для визуального оформления, и в этом случае решение о их обработке следует принимать исходя из контекста.
Специальные форматные символы: такие как символы табуляции (Tab), переносы строк (\n) и др., также выполняют контроль формата в тексте. Эти символы в некоторых случаях могут требовать игнорирования или особой обработки, например, при работе с текстовыми файлами.

Правильная обработка этих специальных символов является ключевым моментом для обеспечения корректной токенизации текста; их стратегия обработки напрямую влияет на эффективность последующего анализа текста и применения. При проектировании систем НЛП важно тщательно продумать логику обработки этих символов, чтобы они соответствовали различным потребностям приложений и характеру данных.

Из предыдущего содержимого видно, что различные языки могут иметь определенные отличия в обработке токенов, что поможет нам понять

Разнообразие и адаптивность токенов

Методы токенизации для различных языков

Структурные и грамматические отличия между языками требуют высокой адаптивности и гибкости методов токенизации. Например:

Английский и другие западноевропейские языки: в этих языках обычно используются пробелы в качестве разделителей между словами, что делает токенизацию относительно прямолинейной. Например, предложение “The quick brown fox” можно просто разделить на “The”, “quick”, “brown”, “fox”.
Китайский, японский и корейский: в этих языках нет явных разделителей между словами, поэтому токенизация более сложна. Для китайского языка может потребоваться использование словаря или статистической модели для определения, какие символы образуют значимые слова. Например, “快速发展” необходимо распознавать как единый токен, а не разделять на “快速” и “发展”.
Арабский и иврит: эти языки, пишущиеся справа налево, требуют особого подхода к токенизации, где необходимо учитывать направление письма и слитное написание букв, что создает дополнительные требования к алгоритмам токенизации.

Понимание этих различий помогает более эффективно обрабатывать многоязычные данные в глобальных бизнес-процессах, оптимизировать многоязычные пользовательские интерфейсы и создавать контент, улучшая пользовательский опыт и способствуя расширению на рынок.

Как определяется размер и гранулярность токенов?

Размер и гранулярность токенов зависят от конкретных потребностей приложения и предполагаемой глубины обработки:

Тонкая гранулярность токенов: обычно используется в сценариях, требующих глубокого понимания языка, например, в анализе настроений или семантическом поиске. Например, дальнейяя разбивка составных слов может помочь моделям более тонко улавливать изменения в значении языка.
Грубая гранулярность токенов: применяется в сценариях, требующих быстрой обработки больших объемов текстовых данных, например, в классификации документов или предварительном анализе ключевых слов. Грубая токенизация снижает сложность обработки и требования к вычислениям.

Определение гранулярности токенов обычно связано с компромиссом между скоростью обработки и точностью семантики. Понимание этого поможет руководителям принимать более взвешенные решения при реализации проектов ИИ, а также выбирать подходящие технологии и инструменты для удовлетворения реальных потребностей бизнеса.

Понимание методов токенизации для различных языков и принципов определения размера и гранулярности токенов помогут вам:

Лучше оценить ИИ-проекты: понимание сложности и вызовов, связанных с токенизацией, поможет в принятии более обоснованных решений при покупке или разработке ИИ-релов.

Оптимизировать глобальные операции: способность адаптироваться к многоязычной среде при токенизации является ключом к успеху глобальных бизнесов, что поможет улучшить межкультурное взаимодействие и коммуникацию с пользователями.

Повысить эффективность обработки данных: выбор подходящей гранулярности токенов может повысить эффективность и затраты на обработку данных, соответствуя при этом потребностям бизнеса.

Итак, какое влияние токены оказывают на модели ИИ?

Влияние токенов на производительность моделей ИИ

Стратегия по токенам в определенной мере влияет на объем контекста больших моделей. Когда мы общаемся с ИИ, в общем, при длительных взаимодействиях, если содержание становится слишком объемным, ИИ может забыть предшествующее. Это можно рассматривать как ограничение по контексту. Вот лимиты контекста для языковых моделей за прошлый год.

src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

Это данные за прошлый год, а теперь смотрим график Gemini.

src: https://beebom.com/gemini-1-5-pro-announced/

В стране Kimi может обрабатывать PDF файлы объемом 100 Мб. Объем пространства для контекста стал важным маркером в маркетинге. Каковы его последствия?

Исходя из действующего закона масштабирования, различные стратегии токенов находятся в пределах алгоритмических основ, подразумевающих, что оптимизация стратегий токенов на раннем этапе менее эффективность, чем инвестирование в дополнительные графические процессоры.

Влияние токенов на производительность моделей

  sequenceDiagram

participant U as Пользователь

participant I as Обработка ввода

participant M as Вычисление модели

participant S as Хранилище данных

  

U->>+I: Ввод истории диалога (количество токенов)

I->>+M: Анализ токенов и подготовка данных

M->>+M: Вычисление самовнимания

Note over M: Рассчитываем связи между каждым токеном и другими токенами

M->>+S: Запрос дополнительной памяти

Note over S: Увеличиваем объем выделяемой памяти в зависимости от количества токенов

S-->>-M: Подтверждение выделения памяти

M->>M: Продолжаем вычисление ответа

M-->>-I: Возвращаем сгенерированный ответ

Как количество токенов влияет на вычислительную сложность и память модели?

В генеративных моделях ИИ, таких как GPT-4 или других моделях на основе трансформеров, количество токенов напрямую связано с вычислительной сложностью и потреблением памяти модели. При увеличении количества токенов модели необходимо обрабатывать больше данных, что не только увеличивает вычислительную нагрузку во время обучения и вывода, но и требует большего объема памяти. Например, при обучении языковой модели необходимо хранить и вычислять отношения каждого токена ко всем остальным токенам, что особенно заметно в механизме самообращения модели.

Пример: Если проектировать генеративного чат-бота, и если введенная история разговора слишком длинная (то есть количество токенов велико), то при генерации ответа модель может работать медленнее и использовать больше вычислительных ресурсов. Например, история с характером диалога, содержащая несколько тысяч токенов, может значительно замедлить обработку, особенно на устройствах с ограниченными ресурсами.

На интуитивном уровне становится понятно, почему компании, разрабатывающие большие модели, не расширяют объёмы. Не всегда больше — значит лучше.

Большее количество токенов не всегда подразумевает лучшую производительность модели

Токены не обязательно означают большую производительность модели. В генеративном ИИ подходящее количество токенов может помочь модели более точно захватывать и понимать контекст, тем самым улучшая релевантность и точность создаваемого контента. Однако слишком большое количество токенов может ввести ненужную информацию, снизив эффективность модели и качество ее вывода.

Пример: В системе ИИ, создающей рыночные отчеты, точная токенизация может гарантировать, что важная информация будет выделена, а не потеряется в объеме лишних деталей. Например, если система должна создать сжатый обзор из большого количества финансовых новостей, чрезмерно высокое количество токенов может привести к запутанному отчету, который не сможет захватить основные идеи.

В настоящее время крупные модели компаний могут обрабатывать большие файлы, вероятно, применяя стратегию, аналогичную облачным дискам — A загрузил файл, когда B загружает, он вовсе не должен снова распознавать, а просто повторно использует результат распознавания, полученный A. По мере накопления контента формируется своеобразная продуктовая линия.

Оптимизация использования токенов

Как найти баланс между количеством токенов и производительностью модели?

Стратегия токенов здесь касается преднамеренного использования нами, обычными пользователями, стремящихся наилучшим образом использовать подсказки, чтобы результаты были наиболее близки к нашим ожиданиям.

Найти оптимальный баланс между количеством токенов и производительностью модели — ключ к обеспечению как эффективности, так и точности генеративной модели ИИ. Это обычно требует тестирования и корректировки, а также использования современных методов настройки моделей.

Пример: В системе автоматической генерации контента балансировку использования токенов представляет собой типичную задачу. Система может извлечь ключевую информацию из длинных текстов и создать сжатые резюме. В этом случае выбор нужного количества токенов, чтобы сохранить достаточный объем информации и избежать чрезмерной сложности, имеет решающее значение.

Взаимосвязь токенов и окна контекста и их влияние на качество генерируемого текста.

В генеративной модели ИИ параметры токенов и настройки окна контекста непосредственно влияют на связность и логичность генерируемого текста. Чем больше окно контекста, тем больше прошлой информации может учитывать модель при генерации текста, что позволяет создавать более связные и естественные тексты.

Пример: Например, при использовании модели ИИ для написания технической статьи блога, если окно контекста установлено слишком маленьким, модель может не эффективно связывать различные части статьи, что приведет к логическим разрывам в тексте. Оптимизация использования токенов и регулировка размера окна контекста могут значительно повысить качество и читабельность текста.

Перейдем к теме, которую мы упоминали в начале. Для приложений важно обеспечить хороший пользовательский опыт, однако необходимо учитывать и затраты.

Коммерческое применение токенов и модель выставления счетов

Для начала давайте взглянем на таблицу, чтобы увидеть текущую ситуацию с выставлением счетов для крупных моделей.

В целом, использование крупных языковых моделей можно разделить на диалоги через интернет и вызовы через API. Использование OpenAI через интернет в основном стандартизировано на уровне 20 долларов в месяц. Однако при вызовах через API ситуация совсем другая и требует больших затрат.

Игры кошка-мышка продолжаются: даже с ChatGPT Plus существует ограничение на количество действий за 3 часа. Многие пытались использовать подходы, подобные паукам, чтобы взаимодействовать с ChatGPT через веб без API; большинство открытых коды уже были закрыты!

Когда-то выставление счетов в телекоммуникационных компаниях основывалось на продолжительности разговоров, что стало эффективным способом извлечения прибыли. Позже были внедрены абонентские механизмы, а нынешняя система выставления счетов по токенам имеет схожие черты.

Логика выставления счета за токены

Почему используется выставление счета по токенам? Его разумность и коммерческая модель.

Модель выставления счетов по токенам очень распространена в ИИ-службах, особенно для таких языковых моделей, как те, что предлагает OpenAI. Эта модель основана на конкретном использовании пользователем услуг, то есть на количестве токенов, обрабатываемых в каждом запросе.

Разумность:
Разумность модели выставления счета по токенам заключается в том, что она точно отражает реальные затраты пользователя на ресурсы. Каждый токен представляет собой единицу информации, которую необходимо обработать моделью; большее количество токенов означает большее потребление вычислительных ресурсов. Таким образом, такой подход гарантирует, что пользователи платят за фактическое использование и побуждает их оптимизировать свои вводимые данные, избегая ненужных затрат.

Коммерческая модель:
С коммерческой точки зрения модель выставления счета по токенам предоставляет поставщикам AI-service гибкую и честную структуру выставления счетов. Она позволяет им устанавливать различные тарифы в зависимости от нагрузки системы и операционных затрат, тем самым привлекая клиентов с различными потребностями — от небольших разработчиков до крупных компаний.

Сравнение с другими способами выставления счета (например, по количеству слов, символов, времени)

По сравнению с другими распространенными моделями выставления счетов, модель по токенам имеет свои уникальные преимущества и ограничения:

Выставление счета по количеству слов и символов: такие методы просты и понятны, их легко оценить и спланировать. Однако они часто не учитывают сложность обработки и фактическое использование вычислительных ресурсов. Например, обработка длинного предложения с простым словарным составом может быть легче, чем работа с техническим термином, но по количеству слов стоимость может оказаться выше.
Выставление счета по времени: модели на основе времени (например, по минутам или часам) подходят для непрерывных услуг, таких как обработка потоковых данных или онлайн-обучение. Однако для краткосрочных задач эта модель может привести к неправильной или несправедливой оценке выставления счетов.

  graph TD;
    A[Выставление счета по токенам] -->|Отражает фактическое потребление вычислительных ресурсов| B[Честное распределение ресурсов];
    A -->|Оптимизация эффективности ввода| C[Стимулирует упрощение ввода];
    D[Выставление по количеству слов/символов] -->|Простота| E[Легко оценить и спланировать];
    D -->|Не учитывает сложность| F[Может приводить к неаккуратным расходам];
    G[Выставление по времени] -->|Подходит для непрерывных услуг| H[Обработка потоковых данных/онлайн-обучение];
    G -->|Не подходит для краткосрочных задач| I[Может вести к неправильному выставлению счетов];

Модель выставления счетов по токенам предоставляет более детальную оценку и может более честно отразить фактические затраты пользователя на ресурсы.

Важные затраты для крупных моделей включают:

Затраты на исследования и разработки (человеческие и эксперименты)

Затраты на обучение (вычислительные ресурсы и обработку данных)

Затраты на развёртывание (инфраструктура и стоимости хранения)

Затраты на поддержку и обновление

Этические и правовые затраты (безопасность данных, соблюдение норм)
Эти затраты не могут все полностью отобразиться в токенах, циферную оценку может дать только внутренняя экспертная оценка. Это может быть наиболее подходящим способом оценки на данном этапе.

Фактическое влияние выставления счета по токенам

Влияние различных моделей выставления счета на пользователей и разработчиков.

Модель выставления счета по токенам заставляет пользователей более эффективно управлять запросами API для контроля затрат. Разработчики должны проектировать эффективные запросы, минимизируя излишнее использование токенов, чтобы извлечь максимальную выгоду из каждого вызова. Этот метод выставления счета побуждает разработчиков оптимизировать процесс ввода и обработки данных, но может также усложнить разработку и увеличить начальную олимпиацию.

Для поставщиков выставление счета по токенам может помочь сбалансировать нагрузку на сервер, прогнозировать доход и оптимизировать распределение ресурсов. Это также может служить механизмом обратной связи для оптимизации продукта и корректировки стратегий ценообразования, помогая поставщикам лучше соответствовать потребностям рынка.

Как оптимизировать использование токенов для снижения затрат?

Оптимизация использования токенов стремится сдержать затраты. Это можно осуществить следующими способами:

Оптимизация входных данных: перед отправкой запросов удалите ненужный текст и избыточные данные, оставив только ключевую информацию.
Использование эффективного проектирования запросов: проектируйте продуманные запросы, избегая слишком сложных или глубоких цепочных запросов.
Использование кэширования: сохраняйте результаты для часто встречающихся или повторяющихся запросов, чтобы уменьшить количество обращений к серверным услугам.
Мониторинг и анализ: регулярно анализируйте данные о потреблении токенов, выявляя точки для оптимизации и корректируя стратегии для уменьшения потерь.

Используя эти стратегии, вы можете не только снизить затраты, но и увеличить скорость отклика системы и удовлетворенность пользователей, таким образом приобретя конкурентное преимущество в нестабильном порядке.

Коммерческая ценность токенов и примеры использования

Практическое применение токенов в бизнесе

В операциях бизнеса применение технологий токенизации может значительно повысить эффективность обработки данных и качество управленческих решений. Для не технических руководителей компаний осознание применения токенов может помочь лучше оценить инвестиции в технологии и продвигать бизнес-инновации.

  graph LR;
    A[Технический аспект: роль токенов в обработке естественного языка] 
    B[Коммерческий аспект: роль токенов в повышении ценности бизнеса]
    
    A --> A1[Извлечение информации\nБыстрое выявление ключевой информации]
    A --> A2[Анализ настроений\nОпределение эмоций клиентов]
    A --> A3[Автоматическое резюмирование\nСоздание аннотаций документов]
    
    B --> B1[Улучшение клиентского взаимодействия\n24/7 обслуживание клиентов]
    B --> B2[Анализ рынка\nПолучение данных о трендах]
    B --> B3[Персонализированные рекомендации\nУвеличение объемов продаж]
    
    style A fill:#8ecae6,stroke:#333,stroke-width:4px
    style B fill:#90be6d,stroke:#333,stroke-width:4px
    style A1 fill:#219ebc,stroke:#333,stroke-width:2px
    style A2 fill:#219ebc,stroke:#333,stroke-width:2px
    style A3 fill:#219ebc,stroke:#333,stroke-width:2px
    style B1 fill:#ffb703,stroke:#333,stroke-width:2px
    style B2 fill:#ffb703,stroke:#333,stroke-width:2px
    style B3 fill:#ffb703,stroke:#333,stroke-width:2px

Технический аспект: роль токенов в обработке естественного языка

Токенизация — это процесс разбиения сложных текстовых данных на управляемые единицы, позволяющий ИИ-системам делать эффективный анализ и обработки данных. Этот процесс особенно важен в обработке естественного языка (NLP), позволяя машинам «понимать» человеческий язык и выполнять такие задачи, как:

Извлечение информации: токенизация помогает быстро идентифицировать ключевую информацию из больших объемов текста, например, извлечение соответствующих пунктов из юридических документов.
Анализ настроений: через анализ токенов обратной связи клиентов компании могут понимать эмоциональные настроения клиентов для корректировки своих продуктов или услуг.
Автоматическое резюмирование: технологии токенизации могут автоматически создавать резюме документов, повышая эффективность специалистов.

Коммерческий аспект: роль токенов в повышении ценности бизнеса

С коммерческой точки зрения токены не только повышают операционную эффективность, но и открывают новые бизнес-модели и источники дохода:

Улучшение клиентского взаимодействия: использование токизированных чат-ботов позволяет предоставлять круглосуточное обслуживание клиентов, повышая удовлетворенность клиентов и снижая затраты на обслуживание.
Анализ рынка: обработка токенов помогает компаниям быстро получать данные о трендах из рыночных отчетов, что поддерживает стратегические решения.
Персонализированные рекомендации: на торговых платформах токенизация позволяет анализировать историю покупок и поведение посетителей, предоставляя персонализированные рекомендации по товарам и увеличивая количество продаж.

Анализ реальных кейсов

Чат-боты для обслуживания клиентов

Типичный случай применения — это чат-боты для обслуживания клиентов. Например, одна крупная телекоммуникационная компания внедрила чат-бота, использующего токенизацию, для обработки запросов пользователей, таких как вопросы о счетах и перебоях в обслуживании. Чат-бот, анализируя вопросы пользователей (после токенизации), быстро предоставлял правильные ответы или перенаправлял вопросы к соответствующим отделам обслуживания.

Системы рекомендаций контента

В медиа- и развлекательной сферах системы рекомендаций используют технологии токенизации для анализа привычек просмотра или чтения пользователей, чтобы рекомендовать новые фильмы, книги или статьи, которые могут их заинтересовать. Например, система рекомендаций Netflix анализирует токены описания предыдущих просмотренных программ, чтобы предсказать, какие другие программы могут понравиться пользователю.

Коммерческая ценность токенов и прогноз применения

Внедрение токенов и их эффективное использование в бизнесе является ключом к успешной реализации проектов ИИ. Осознание коммерческой ценности и вызовов, связанных с токенами, особенно важно для стратегического планирования и управления технологическими инновациями.

Коммерческое применение токенов

Технический аспект: роль токенов

Токены имеют важное значение для обработки текстовой информации в системах обработки естественного языка (NLP), поскольку токенизация позволяет эффективно обрабатывать текстовые данные. Говоря простым языком, токенизация — это процесс разбиения больших текстов на более мелкие управляемые единицы, которые служат основой для моделей машинного обучения.

Обработка данных: токенизация облегчает обработку клиентских запросов, анализ рынка или управление большим объемом документов, позволяя обрабатывать сложные текстовые данные.
Повышение эффективности: За счет токенизации модели ИИ могут быстро идентифицировать ключевые моменты, что ускоряет процесс принятия решений и повышает скорость отклика бизнеса.

Коммерческий аспект: экономическая ценность токенов

С коммерческой точки зрения токены не просто составляют техническую основную часть, они непосредственно связаны с повышением операционной эффективности, улучшением клиентского опыта и открытием новых бизнес-моделей:

Оптимизация обслуживания клиентов: токенизация делает возможной автоматизацию обслуживания клиентов, которая быстро и точно обрабатывает запросы клиента, значительно повышая удовлетворенность клиентов и лояльность к бренду.
Персонализированный маркетинг: с помощью анализа токенов, исследуя поведение и предпочтения пользователей, компании могут предоставлять высоко персонализированные рекламные материалы, что увеличивает коэффициент конверсии продаж.

Будущие перспективы и вызовы токенов

Направления будущего развития

С развитием технологий ИИ применение токенов станет более умным и разнообразным:

Кросс-модальные приложения: токенизация будет распространяться не только на текстовую обработку, но также будет охватывать анализ мультимедийного контента, такого как видео и аудио, поддерживая более широкий спектр применения.
Интеллектуальная оптимизация: методы генерации и обработки токенов станут более интеллектуальными, например, с помощью ИИ для автоматической настройки размера и количества токенов в зависимости от разных бизнес-нужд.

Коммерческие вызовы и возможности

Безопасность данных и конфиденциальность: обеспечение безопасности и конфиденциальности данных в процессе токенизации остается основной задачей, особенно при обработке чувствительной информации.
Интеграция технологий: как seamless интегрировать технологии токенизации в существующие ИТ-системы и бизнес-процессы — ключ к реализации технологического перехода.
Справедливость и объяснимость: обеспечение этих повторяющихся решений на основе токенов является справедливыми и прозрачными, что повышает доверие всех заинтересованных сторон.

Заключение

Писать эту статью мне помогло новое направление от Лин Мяо (спасибо), https://arxiv.org/abs/2104.12369. Судя по практике модели Пандора от Huawei, развитие токенов в области китайского языка будет более инженерно ориентированным, но это требует дальнейшего наблюдения.

Перед написанием этой статьи мое понимание токенов ограничивалось смутной мыслью о том, что один иероглиф равен одному токену, а также путать токены с векторизацией. В векторизации есть этап токенизации. Готовимся к ИИ, успешно адаптируемся к изменениям: как лучше использовать данные в существующих корпоративных прикладных системах? Начать можно с этого!