Introdução

Você ouviu que a IA cobra por Token?
- Isso gasta muitos Tokens.
- O computador ficou ligado a noite inteira e consumiu muitos Tokens. Parece que perdi uma casa, não é?
Por que usar Tokens para cobrança?
- Ouvi dizer que Tokens têm cobrança dupla.
- Fazer perguntas à IA cobra um valor, e as respostas também. Isso é demais, não acha?
- Então, a IA não pode simplesmente dar respostas desnecessárias!
Tokens são palavras ou letras?
- Como são cobrados os caracteres chineses?
- E a contagem em árabe, como funciona?
Qual o significado de Token no processo de informatização empresarial?
- Na informatização tradicional, trata-se de estruturas de banco de dados.
- Por que a aplicação da IA traz à tona a questão do Token?

Este artigo tenta responder a essas questões. Vamos descobrir o que exatamente é esse famoso Token. O texto é longo, mas sigamos.

Na história do desenvolvimento da computação, frequentemente surgem termos que parecem impressionantes, mas eventualmente se tornam comuns na vida das pessoas. O termo “Prompt” é um exemplo, assim como o Token, que, honestamente, já ultrapassou o nicho.
Mas será que ele é uma forma de cobrança muito bem-acolhida pela OpenAI e por várias outras empresas? Ou há outros motivos?
Vamos começar explorando suas origens.

No ambiente empresarial, utilizar a tecnologia de IA para reduzir custos e aumentar a eficiência implica que entender Tokens nos ajuda a compreender melhor como a IA pode ser aplicada nas empresas. Em termos simples, podemos imaginar Tokens como blocos de LEGO, que construímos para alcançar a aplicação necessária e, assim, melhorar a eficiência.

Fundamentos sobre Tokens

Conceito Básico de Tokens

Primeiramente, vejamos a descrição oficial do OpenAI sobre Tokens:

1 token ~= 4 caracteres em inglês
1 token ~= ¾ de uma palavra
100 tokens ~= 75 palavras
ou
1-2 frases ~= 30 tokens
1 parágrafo ~= 100 tokens
1.500 palavras ~= 2048 tokens

Deu para entender? Está confuso, não? Isso é parecido com a pergunta que Kong Yiji se fazia sobre quantas formas de escrever “卷” existem. Vamos experimentar para entender o que isso significa:

Learning AI Meticulously, Sharing Knowledge Joyfully

Quantos Tokens você acha que essa frase tem? Seis palavras, então seria seis Tokens, certo? Infelizmente, não é!

No ChatGPT 4, são 10 Tokens. Observando os blocos de cores, você vê que a pontuação conta à parte, e Joyfully foi dividido em Joy e fully.

Da programação ao diálogo: a necessidade de introduzir Tokens

A linguagem central dos computadores é composta por códigos binários formados por 0s e 1s, que representam a forma mais básica de todos os programas e dados. Tanto as linguagens de programação de alto nível que usamos, como Python e Java, quanto arquivos multimídia, como imagens e vídeos, são convertidos para essa linguagem de máquina. Na ciência da computação tradicional, especialistas se esforçam para abstrair a complexidade do mundo real, definindo claramente tipos de dados, como strings (uma sequência de caracteres) e inteiros (números), para processar informações. Esse método é muito eficaz para lidar com dados estruturados, como cálculos matemáticos ou consultas de banco de dados.

No entanto, com o avanço da tecnologia e o aumento da demanda, queremos que os computadores não apenas lidem com números e códigos, mas também compreendam e processem a linguagem natural – ou seja, nossa linguagem cotidiana. Isso levou à introdução do campo de Processamento de Linguagem Natural (NLP, do inglês Natural Language Processing), que visa permitir que os computadores entendam, interpretem e gerem a linguagem humana.

Considerando as características da linguagem natural, incluindo sua diversidade, dependência de contexto e ambiguidade, não estamos mais lidando com questões simples como 1+1=2. Agora, precisamos resolver como fazer com que um computador entenda frases como “Hoje é sexta-feira, onde podemos brincar no fim de semana? Vamos ficar em casa aprendendo sobre IA?” e ainda analisar suas emoções ou traduzi-las para outro idioma. Nesse cenário, os tipos de dados tradicionais não são mais suficientes.

É aqui que a introdução do conceito de Tokens se torna relevante. Tokenização refere-se ao processo de decompor dados textuais complexos em unidades menores e mais facilmente processáveis por computadores, como palavras, frases ou pontuações. Isso permite que os computadores processem a linguagem de maneira mais eficaz, extraindo significados dos textos, em vez de simplesmente contar caracteres.

De determinístico a ambíguo: A programação tradicional lida com dados claros e previsíveis, enquanto o NLP envolve a interpretação de palavras com múltiplos significados e linguagem dependente de contexto.

De estruturado a não estruturado: Diferente de bancos de dados ou algoritmos estruturados, o NLP lida com textos de linguagem natural fluidos e livres.

O que são Tokens? Por que precisamos converter textos em Tokens?

Imagine um cenário típico no qual a IA generativa é usada para resumir rapidamente informações. Não precisamos ler cada palavra para obter as informações essenciais. Os Tokens desempenham um papel crucial nesse processo, ajudando os computadores a “entenderem” e a processar grandes volumes de texto.

O que são Tokens?

No processamento de linguagem natural, Tokens referem-se geralmente a segmentos significativos dentro de um texto. Esses segmentos podem ser palavras, frases ou até mesmo sinais de pontuação, como ilustrado no exemplo anterior.

Por que converter em Tokens?

Converter texto em Tokens é um pouco como fragmentar um relatório comercial complexo em partes-chave ou dividir o conteúdo de um e-mail em pontos principais. Essa decomposição permite que os computadores processem e analisem a linguagem de maneira mais eficiente, realizando tarefas como a busca de informações-chave, tradução automática ou análise de sentimentos.

Por exemplo, se alguém abrir uma rede de lojas no Meituan e quiser analisar as avaliações dos clientes para melhorar o produto (melhorar? vamos considerar que sim), dividir o conteúdo das avaliações em Tokens pode ajudar a identificar reclamações comuns ou pontos negativos.

Embora Tokens pareçam ser palavras, a situação real é um pouco mais complexa.

Diferenças e relações entre Tokens, caracteres e palavras.

	Definição	Características	Exemplo
Caractere	Elemento básico que compõe o texto	Não necessariamente expressa um significado completo sozinho, combinando com outros caracteres para formar palavras.	happy
Palavra	Composta por caracteres, expressa determinado significado	É a unidade básica de comunicação e expressa mais informação que um único caractere.	I’m happy
Token	Geralmente corresponde a palavras, mas é mais flexível, podendo incluir frases, pontuações, ou até raízes e prefixos	A definição de Token depende de seu uso, como análise de texto, tradução automática, etc.	`I`, `'m`, `happy`

Chegando até aqui, começamos a perceber que essa questão depende em grande parte da compreensão que as pessoas têm da própria linguagem.

Embora caracteres, palavras e Tokens possam tecnicamente ser diferentes, eles são intimamente relacionados no processamento de texto. Caracteres são a base para construir palavras, enquanto palavras são os elementos que formam Tokens. Na prática, a identificação e o uso de Tokens dependem da compreensão de caracteres e palavras.

Por exemplo, se quisermos analisar um relatório sobre tendências de mercado, a tokenização nos permitirá rapidamente identificar palavras-chave (como “crescimento”, “risco”, “oportunidade”, etc.), ajudando os executivos a captar rapidamente o conteúdo central do relatório.

Em suma, Tokens são uma maneira de ajudar computadores a processar e “entender” o texto, tornando o processamento automatizado de textos possível, o que apoia as empresas em suas decisões baseadas em dados.

Como são gerados e processados os Tokens? Precisamos, então, sair do pensamento tradicional de programação.

Geração e Processamento de Tokens

Como os Tokens são gerados? O processo específico de conversão de texto em Tokens.

  graph LR
  A[Fluxo de processamento de texto]
  A1[Pré-processamento]
  A2[Segmentação]
  A3[Tokenização]
  A4[Pós-processamento]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[Remover caracteres irrelevantes]
  B1 --> B1a[Como código HTML]
  
  A1 --> B2[Normalizar o texto]
  B2 --> B2a[Unificar maiúsculas e minúsculas]
  B2 --> B2b[Converter entre formas simples e complexas]

  A1 --> B3[Remover palavras de parada]
  B3 --> B3a[Como “de”, “dos”, etc.]

  A2 --> C1[Segmentação em inglês]
  C1 --> C1a[Baseada em espaços e pontuações]

  A2 --> C2[Segmentação em chinês]
  C2 --> C2a[Dependente de algoritmos para identificar limites de palavras]

  A3 --> D1[Combinar vocabulários]
  D1 --> D1a[Como o nome próprio “Nova Iorque”]
  D1 --> D2[Identificar frases ou expressões fixas]
  D1 --> D3[Tratar sinais de pontuação como Tokens independentes]

  A4 --> E1[Marcação gramatical]
  A4 --> E2[Marcação de papéis semânticos]

Diferentes modelos podem apresentar variações nos passos acima. Para facilitar a compreensão, consideremos essas etapas. Na extração de valor de dados acumulados na informatização empresarial, precisamos considerar a prioridade do valor dos dados em conjunto com os custos de processamento.

Considere o exemplo a seguir:

Geração de Token

Pré-processamento

Aqui temos um texto de exemplo que mistura chinês, inglês e números, contendo elementos que precisam de pré-processamento:

Em 2024, a tecnologia de IA se desenvolve rapidamente. Por exemplo, a OpenAI lançou o modelo GPT-4o, que não apenas é poderoso, mas também apresenta avanços significativos no <code>processamento de linguagem natural</code>. No entanto, precisamos remover algumas palavras comuns que não agregam valor informativo, como “de”, “dos”, etc. Para mais informações sobre essas tecnologias, visite nosso site.

Remover caracteres desnecessários:
- Remover etiquetas de código HTML como <code> e </code>, que geralmente não contêm informações úteis.
Normalizar o texto:
- Converter todos os caracteres em inglês para minúsculas, eliminando diferenças de maiúsculas e minúsculas. Por exemplo, “OpenAI” se torna “openai”.
- Converter caracteres tradicionais para simplificados, identificando caracteres chineses no texto, como mudar “發展” para “发展”.
Remover palavras de parada:
- Identificar e remover palavras comuns que geralmente não carregam informação importante, como “de”, “dos”, etc.

Após essas etapas de pré-processamento, o texto se torna mais normalizado, facilitando a segmentação e a tokenização, melhorando a precisão e eficiência das análises subsequentes.

Em 2024, a tecnologia de IA se desenvolve rapidamente. Por exemplo, a OpenAI lançou o modelo GPT-4o, que não apenas é poderoso, mas também apresenta avanços significativos no processamento de linguagem natural. No entanto, precisamos remover algumas palavras comuns que não agregam valor informativo, como “”, etc. Para mais informações sobre essas tecnologias, visite nosso site.

Segmentação

Segmentação, como o nome diz, é o processo de separar as palavras em uma frase para tratamento mais aprofundado. Agora temos um fio de pérolas e precisamos encontrar o lugar certo para cortá-las.

Como segmentar? Uma abordagem lógica é usar um dicionário de palavras. Essa foi uma técnica utilizada historicamente. Após a segmentação, o resultado seria algo como:

Em / 2024 / , / a / tecnologia / de / IA / se / desenvolve / rapidamente / . / Por / exemplo / , / a / OpenAI / lançou / o / modelo / GPT-4o / , / que / não / apenas / é / poderoso / , / mas / também / apresenta / avanços / significativos / no / processamento / de / linguagem / natural / . / No entanto / , / precisamos / remover / algumas / palavras / comuns / que / não / agregam / valor / informativo / , / como / " " / , / etc. / . / Para / mais / informações / sobre / essas / tecnologias / , / visite / nosso / site.

Na prática, a segmentação é mais complexa. Geralmente, existem algumas abordagens principais:

Definir limites de palavras:
- Para idiomas como o inglês, onde espaços separam as palavras, isso é relativamente simples. Assim como quando lemos inglês, podemos facilmente identificar onde uma palavra termina e outra começa.
- Para idiomas como o chinês, a situação é mais complicada, pois a escrita é contínua e não há separadores visíveis. Precisamos de outros métodos para determinar quais caracteres devem formar um grupo significativo.
Utilizar dicionários e regras:
- Métodos baseados em dicionário: Similar a buscar palavras em um dicionário, utilizamos uma lista extensa (dicionário) para buscar e combinar as palavras no texto. Embora simples, essa abordagem pode ser limitada, pois novas ou palavras raras podem não estar no dicionário.
- Métodos baseados em regras: Essa abordagem utiliza regras específicas para determinar a relação entre caracteres, utilizando informações gramaticais e de contexto para decidir se eles devem formar uma palavra.
Métodos estatísticos e de aprendizado:
- Utilizando dados estatísticos para aprender quais caracteres ou letras costumam aparecer juntos. Esse método analisa grandes quantidades de dados textuais para aprender e prever os limites das palavras.
Métodos híbridos:
- Na prática, é comum combinar as abordagens acima para aumentar a precisão e a aplicabilidade da segmentação.

Resumindo:

Inglês: Segmentação baseada em espaços e pontuações.
Chinês: Algoritmos são utilizados para identificar limites de palavras.

Jieba é um excelente componente para segmentação em chinês, embora não tenha sido atualizado nos últimos 4 anos.

A lógica tradicional de segmentação não considera muito o significado das palavras no contexto específico. Vamos observar o seguinte exemplo:

1 2	Por que você sempre faz / call Você / por que / sempre faz call

“Por que” é uma expressão, enquanto “por que” é uma palavra. Essa ambiguidade é realmente fascinante!

Após a segmentação, começamos o trabalho de Tokenização.

Tokenização

A Tokenização é uma etapa fundamental no processamento de dados textuais, que, a partir da segmentação, refina e processa as unidades textuais para atender melhor às necessidades de análise subsequentes. A seguir, usaremos o texto fornecido para ilustrar o processo de Tokenização.

Combinar nomes próprios e expressões específicas:
- Tratamos “OpenAI” e “GPT-4o” como Tokens independentes, pois são nomes próprios que carregam significado.
- “Processamento de linguagem natural”, sendo uma expressão e termo técnico fixo, também deve ser considerado como um Token único.
Pontuação como Tokens independentes:
- Pontuações como vírgulas (,) e pontos (.) devem ser consideradas como Tokens independentes, pois têm um papel gramatical e estrutural no texto.
Tratar espaços em branco:
- Os espaços em branco, embora geralmente não sejam representados como Tokens, são fundamentais para determinar os limites das palavras. Em alguns casos, espaços podem ser utilizados para embelese textual, e sua manipulação deve ser considerada conforme o contexto.

Resultado após a Tokenização

Em / 2024 / , / a / tecnologia / de / IA / se / desenvolve / rapidamente / . / Por / exemplo / , / a / OpenAI / lançou / o / modelo / GPT-4o / , / que / não / apenas / é / poderoso / , / mas / também / apresenta / avanços / significativos / no / processamento / de / linguagem / natural / . / No entanto / , / precisamos / remover / algumas / palavras / comuns / que / não / agregam / valor / informativo / , / como / " " / , / etc. / . / Para / mais / informações / sobre / essas / tecnologias / , / visite / nosso / site.

Esse resultado está mais compacto e significativo, pronto para análise textual, análise de sentimentos, etc. Por meio de uma Tokenização eficaz, podemos capturar melhor os aspectos semânticos e estruturais dos textos, fornecendo uma base para uma compreensão e análise mais profundas.

Vale ressaltar que Tokenização e Vetorização estão intimamente relacionados, mas são diferentes. A Vetorização transforma essas informações em valores; falaremos mais sobre isso posteriormente.

O papel do vocabulário na geração de Tokens.

Com a análise anterior em mente, sabemos que o vocabulário desempenha um papel fundamental na geração de Tokens.

Identificação de limites, garantia de consistência, compressão de informações, aumento da velocidade de processamento e manutenção semântica:

Manter e atualizar um vocabulário pode otimizar continuamente o processo de geração de Tokens, adaptando-se às mudanças linguísticas e ao surgimento de novas palavras, melhorando a adaptabilidade e precisão do sistema.

O tratamento de caracteres especiais (como pontuações e espaços).

No processo de geração de Tokens, a manipulação de caracteres especiais é crucial. Caracteres como pontuações e espaços carregam funções importantes de estrutura e significado no texto:

Pontuação: Geralmente indica a estrutura de frases, como pontos finais (.) e vírgulas (,) que separam itens de listas ou orações, ou aspas usadas para marcar citações. Durante a Tokenização, a pontuação é muitas vezes vista como Tokens independentes, já que podem afetar o tom e a estrutura das sentenças, e, às vezes, até mudar seu significado.
Espaços: Nas línguas que usam letras latinas (como o inglês), os espaços são o principal meio de separar palavras. Durante Tokenização, os espaços geralmente não são mantidos como Tokens, mas são essenciais para determinar os limites das palavras. No entanto, em certos textos formatados, espaços também podem servir a um propósito estético e precisam ser considerados conforme o contexto.
Caracteres de formatação especiais: Como tabulações ou quebras de linha, também desempenham um papel no controle de formato. Esses caracteres podem, em alguns casos, ser ignorados ou tratados de maneira especial, como ao lidar com arquivos de texto puro.

Tratar corretamente esses caracteres especiais é uma parte fundamental para garantir que o texto seja Tokenizado corretamente, e as estratégias de manipulação diretamente influenciam a análise e a eficácia das aplicações subsequentes. No design de sistemas de NLP, devemos considerar cuidadosamente a lógica de tratamento desses caracteres para atender às várias necessidades de aplicação e características dos dados.

A partir do conteúdo acima, também podemos compreender que diferentes idiomas têm suas peculiaridades no tratamento de Tokens, e essas diferenças nos ajudam a entender melhor.

A diversidade e adaptabilidade dos Tokens

Métodos de Tokenização em diferentes idiomas

As diferenças de estrutura e gramática entre idiomas exigem que os métodos de Tokenização sejam altamente adaptáveis e flexíveis. Por exemplo:

Inglês e outras línguas da Europa Ocidental: Estas línguas geralmente usam espaços como separadores entre as palavras, facilitando a Tokenização. Por exemplo, a frase “The quick brown fox” pode ser facilmente segmentada em “The”, “quick”, “brown”, “fox”.
Chinês, japonês e coreano: Essas línguas não possuem separadores claros entre palavras, tornando a Tokenização mais complexa. No caso do chinês, pode ser preciso usar dicionários ou modelos baseados em estatísticas para reconhecer quais caracteres juntos formam palavras significativas. Por exemplo, “快速发展” deve ser identificado como um único Token em vez de ser separado em “快速” e “发展”.
Árabe e hebraico: Estas línguas, que são escritas da direita para a esquerda, trazem desafios adicionais na Tokenização, devido à necessidade de lidar com letras conectadas, exigindo algoritmos de Tokenização específicos.

Compreender essas diferenças é essencial para tratar dados multilíngues no comércio global, otimizando interfaces multilíngues e a criação de conteúdo, melhorando a experiência do usuário e a expansão no mercado.

Como o tamanho e a granularidade dos Tokens são determinados?

O tamanho e a granularidade dos Tokens dependem das necessidades específicas da aplicação e da profundidade desejada no processamento:

Tokens de granularidade fina: Usados em cenários que requerem uma compreensão profunda da linguagem, como análise de sentimentos ou busca semântica. Por exemplo, segmentar palavras compostas pode ajudar o modelo a capturar sutilezas em variações de significado linguístico.
Tokens de granularidade grossa: Adequados para cenários que precisam processar rapidamente grandes volumes de texto, como classificação de documentos ou extração inicial de palavras-chave. A Tokenização de granularidade grossa reduz a complexidade do processamento e as demandas computacionais.

Determinar a granularidade dos Tokens geralmente envolve encontrar um equilíbrio entre a velocidade de processamento e a precisão semântica. Conhecer isso ajuda os executivos a tomar decisões mais informadas ao implementar projetos de IA, escolhendo as tecnologias e ferramentas adequadas para atender às necessidades reais dos negócios.

Compreender os métodos de Tokenização em diferentes idiomas e os princípios que determinam o tamanho e a granularidade dos Tokens pode auxiliar você a:

Avaliar melhor projetos de IA: Compreender a complexidade e os desafios da Tokenização ajuda a fazer decisões mais informadas ao adquirir ou desenvolver soluções de IA.

Otimizar operações globais: A capacidade de adaptar a Tokenização para ambientes multilíngues é crucial para o sucesso de negócios globais, melhorando a comunicação intercultural e a interação com usuários.

Aumentar a eficiência do processamento de dados: Ao escolher a granularidade dos Tokens de maneira apropriada, é possível otimizar a eficácia e os custos do processamento de dados enquanto atende às necessidades dos negócios.

Como os Tokens impactam o desempenho do modelo?

Tokens e o desempenho de modelos de IA

A estratégia de Tokens, em certa medida, impacta o espaço de contexto de grandes modelos. Quando conversamos com a IA, temos várias interações, e se o conteúdo for excessivo, a IA pode esquecer informações anteriores. Isso pode ser entendido como uma limitação de contexto. Vejamos as limitações de contexto dos modelos de linguagem do ano passado.

src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

Esses são dados do ano passado. Abaixo está a tabela do Gemini.

src: https://beebom.com/gemini-1-5-pro-announced/

A empresa Kimi consegue processar arquivos PDF de até 100M. O tamanho do espaço de contexto já se tornou um ponto importante de marketing. Mas qual é seu impacto?

Sob a atual lógica de escalabilidade, diferentes estratégias de Token ainda se enquadram como ajustes de algoritmos subjacentes, ou seja, otimizações da estratégia de Tokens não são tão eficazes quanto simplesmente adquirir mais GPUs.

Impacto dos Tokens no Desempenho do Modelo

  sequenceDiagram

participant U as Usuário

participant I as Processamento de Entrada

participant M as Cálculo do Modelo

participant S as Sistema de Armazenamento

U->>+I: Histórico de Diálogos (Número de Tokens)

I->>+M: Analisando Tokens e preparando dados

M->>+M: Calculando autoatenteção

Note over M: Calculando a relação entre cada Token e outros Tokens

M->>+S: Solicitando memória adicional

Note over S: Aumentando a alocação de memória com base no número de Tokens

S-->>-M: Confirmando a alocação de memória

M->>M: Continuando a calcular a resposta

M-->>-I: Retornando a resposta gerada

I-->>-U: Exibindo a resposta

Como o número de Tokens afeta a complexidade de cálculo e a utilização de memória do modelo?

Em modelos de IA generativa, como o GPT-4 ou outros baseados em Transformer, o número de Tokens está diretamente relacionado à complexidade computacional e à utilização de memória. Para cada Token adicional, o modelo precisa processar mais pontos de dados. Isso não só aumenta a carga de cálculo durante o treinamento e a inferência, mas também a necessidade de memória. Por exemplo, ao treinar um modelo de linguagem, o modelo precisa armazenar e calcular as relações de cada Token com todos os outros Tokens, o que é particularmente evidente na atenção do modelo.

Exemplo: Considere um projeto de chatbot generativo; se o histórico de diálogo de entrada for muito longo (ou seja, muitos Tokens), na geração de uma resposta, o modelo pode ficar mais lento e consumir mais recursos computacionais. Por exemplo, um histórico de diálogo contendo milhares de Tokens pode resultar em uma queda significativa na velocidade de processamento, especialmente em dispositivos com recursos limitados.

A visão prática é que as empresas de grandes modelos têm motivos racionais para não expandir a capacidade. Um modelo maior não é necessariamente melhor.

Mais Tokens significam melhor desempenho do modelo?

Nem sempre mais Tokens significam um desempenho de modelo melhor. Na IA generativa, a quantidade adequada de Tokens pode ajudar o modelo a capturar e compreender o contexto com maior precisão, melhorando a relevância e a precisão do conteúdo gerado. No entanto, um excesso de Tokens pode introduzir informações irrelevantes, diminuindo a eficiência do modelo e a qualidade e clareza das saídas.

Exemplo: Em um sistema de IA para gerar relatórios de mercado, uma divisão precisa de Tokens assegura que informações importantes sejam tratadas em destaque, ao invés de se perderem em um mar de detalhes desnecessários. Por exemplo, se um sistema precisar gerar resumos de grandes quantidades de notícias financeiras, um excesso de Tokens poderá acabar criando relatórios bagunçados, que não conseguem capturar informações centrais.

Atualmente, empresas de grandes modelos podem empregar estratégias semelhantes a serviços de armazenamento em nuvem, onde, quando o Usuário A carrega um arquivo, o Usuário B carrega outro, e o sistema não precisa processar o segundo novamente, apenas utilizando o resultado de análise do primeiro. À medida que o conteúdo aumenta, isso fomenta uma vantagem competitiva.

Otimização do Uso de Tokens

Como equilibrar o número de Tokens e o desempenho do modelo?

A estratégia de Tokens aqui se refere principalmente à forma com que nós, usuários comuns, utilizamos as Prompts, ajudando a alinhar os resultados com nossas expectativas.

Encontrar o ponto ideal entre o número de Tokens e o desempenho do modelo é crucial para garantir que modelos de IA generativa sejam eficientes e precisos. Isso geralmente requer experimentação e ajustes, utilizando técnicas avançadas de afinação de modelos.

Exemplo: Em um sistema de geração de conteúdo automático, equilibrar o uso de Tokens é um desafio típico. O sistema pode precisar extrair informações-chave a partir de textos longos para criar resumos. Nesses casos, escolher um número adequado de Tokens para reter informações suficientes, evitando estruturas de modelo excessivamente complexas, é de fundamental importância.

A relação entre Tokens e janelas de contexto e seu impacto na qualidade da geração textual

Na IA generativa, a configuração de Tokens e janelas de contexto tem um impacto direto na coerência e na lógica do texto gerado. Quanto maior a janela de contexto, mais informações históricas o modelo pode considerar ao gerar texto, resultando em produções mais coerentes e naturais.

Exemplo: Suponha que um modelo de IA seja usado para gerar artigos de blog técnico. Se a configuração da janela de contexto for muito pequena, o modelo pode não conseguir conectar efetivamente as diferentes partes do artigo, levando a conteúdo gerado que apresenta quebras lógicas. Ao otimizar o uso de Tokens e ajustar o tamanho da janela de contexto, podemos aumentar significativamente a qualidade e legibilidade do texto resultante.

Agora, vamos abordar o tema mencionado anteriormente, em que, para sistemas de aplicação, buscamos garantir uma boa experiência do usuário, mas também precisamos considerar os custos.

Aplicações Comerciais de Tokens e Modelos de Cobrança

Primeiro, vejamos um quadro com os modelos de cobrança dos grandes modelos atualmente.

De maneira geral, o uso de grandes modelos de linguagem pode ser dividido entre diálogos na web e chamadas via API. O uso da OpenAI na web segue um padrão, cerca de 20 dólares por mês. No entanto, chamadas API não são tão simples e podem gerar custos elevados.

É um jogo de gato e rato; mesmo com o ChatGPT Plus, há limites de quantidade de interações em um período de três horas. Muitas pessoas tentam usar métodos semelhantes a scripts para utilizar o ChatGPT pela web, evitando o uso de APIs, mas esses códigos abertos basicamente foram eliminados.

Anteriormente, a lógica de cobrança das telecomunicações se baseava em duração, e houve uma época em que foi bastante lucrativa, mas então surgiu o modelo de cobrança mensal. A atual forma de cobrança por Token é similar a isso.

Lógica de Cobrança por Token

Por que cobrar por Token? Sua razoabilidade e modelo comercial.

O modelo de cobrança por Tokens é bastante comum em serviços de IA, especialmente na utilização de modelos de linguagem como os oferecidos pela OpenAI. Essa estrutura de cobrança se baseia na quantidade específica de Tokens processados em cada solicitação realizada pelo usuário.

Razoabilidade:
A lógica da cobrança por Tokens reside no fato de que ela reflete com precisão o consumo real de recursos pelo usuário. Cada Token representa uma unidade de informação que o modelo precisa processar; mais Tokens implicam maior consumo de recursos computacionais. Portanto, essa forma de cobrança assegura que os usuários paguem conforme realmente utilizam, além de incentivar a otimização dos inputs, evitando desperdícios desnecessários.

Modelo Comercial:
Do ponto de vista comercial, o modelo de cobrança por Tokens fornece um framework flexível e justo. Ele permite que os provedores de serviços estabeleçam diferentes níveis de preços conforme a carga do sistema e os custos operacionais, atraindo uma base diversificada de usuários, que varia de pequenos desenvolvedores a grandes empresas.

Comparação da Cobrança por Token com Outros Modelos (como por palavra, caractere ou tempo)

Em comparação com outros modelos comuns de cobrança, a cobrança por Token possui vantagens e limitações únicas:

Cobrança por palavras ou caracteres: Estes métodos são simples e diretos, fáceis de entender e planejar financeiramente. Porém, geralmente não levam em conta a complexidade do processamento e o uso real dos recursos computacionais. Por exemplo, processar uma frase longa com vocabulário simples pode ser menos complexo que processar um termo técnico, mas, com a cobrança por palavra, pode acabar sendo mais caro.
Cobrança por tempo: Modelos de cobrança baseados em tempo (como por minuto ou hora) funcionam bem para serviços contínuos, como processamento de streams ou aprendizado online. Entretanto, para tarefas curtas e baseadas em solicitações, esse modelo pode levar a cobranças imprecisas ou injustas.

  graph TD;
    A[Cobrança por Tokens] -->|Reflete consumo real de recursos computacionais| B[Distribuição justa de recursos];
    A -->|Otimiza eficiência da entrada| C[Incentivo à simplificação da entrada];
    D[Cobrança por palavras/caracteres] -->|Simples e diretas| E[Fáceis de entender e planejar];
    D -->|Não consideram complexidade| F[Podem resultar em cobranças imprecisas];
    G[Cobrança por tempo] -->|Adequadas para serviços contínuos| H[Processamento de streams/aprendizado online];
    G -->|Não adequadas para tarefas curtas| I[Podem gerar cobranças injustas];

A cobrança por Tokens oferece uma métrica mais detalhada, podendo refletir de maneira mais precisa o consumo real dos usuários.

Em uma análise simplificada, os custos de empresas de grandes modelos incluem:

Custos de desenvolvimento (mão de obra + experimentos)

Custos de treinamento (recursos computacionais + processamento de dados)

Custos de implantação (infraestrutura + armazenamento)

Custos de manutenção e atualização

Custos de conformidade ética (segurança de dados, conformidade)
Esses custos, quando sustentados pela cobrança por Tokens, podem parecer pouco realistas. Na prática, é algo que apenas especialistas da área podem avaliar, sendo o método de avaliação mais adequado na fase atual.

Impactos Práticos da Cobrança por Token

Impactos dos diferentes modelos de cobrança para usuários e desenvolvedores.

O modelo de cobrança por Tokens implica que os usuários gerenciem cuidadosamente suas solicitações de API para controlar custos. Os desenvolvedores precisam desenhar consultas eficientes, reduzindo o uso excessivo de Tokens, maximizando assim o valor de cada solicitação. Essa forma de cobrança incentiva os desenvolvedores a otimizar inputs e processos de tratamento, embora possa também aumentar a complexidade do desenvolvimento e o trabalho prévio de otimização.

Para os provedores, a cobrança por Tokens pode facilitar o balanceamento da carga dos servidores, prever receitas e otimizar a alocação de recursos. Também pode atuar como um mecanismo de feedback para otimização de produtos e ajustes nas estratégias de precificação, auxiliando os provedores a atender melhor às demandas do mercado.

Como otimizar o uso de Tokens para reduzir custos?

A otimização do uso de Tokens é fundamental para controle de custos. Isso pode ser alcançado por meio de abordagens como:

Simplificar dados de entrada: Antes de enviar uma solicitação, eliminar textos desnecessários e dados redundantes, mantendo apenas as informações-chave.
Usar um design de consultas eficientes: Criar consultas bem estruturadas, evitar solicitações excessivamente complexas ou encadeadas.
Utilizar estratégias de cache: Usar resultados previamente processados para solicitações comuns ou repetitivas, reduzindo chamadas ao serviço backend.
Monitorar e analisar: Monitorar periodicamente os dados de consumo de Tokens, identificando pontos a otimizar e ajustando as estratégias para reduzir desperdícios.

Por meio dessas abordagens, é possível não apenas diminuir custos, mas também aumentar a velocidade de resposta do sistema e a satisfação do usuário, obtendo assim uma vantagem competitiva em um mercado acirrado.

O valor comercial dos Tokens e casos de uso

Aplicações dos Tokens nos negócios

Nas operações empresariais, a aplicação das tecnologias de Tokenização pode significativamente aumentar a eficiência do processamento de dados e a qualidade da tomada de decisões. Para executivos não técnicos, compreender as aplicações dos Tokens pode ajudá-los a avaliar melhor investimentos em tecnologia e impulsionar inovações nos negócios.

  graph LR;
    A[Perspectiva técnica: O papel dos Tokens no processamento de linguagem natural] 
    B[Perspectiva comercial: O papel dos Tokens na criação de valor para a empresa]
    
    A --> A1[Extração de informações\nExtração rápida de informações-chave]
    A --> A2[Análise de sentimentos\nIdentificação do sentimento dos clientes]
    A --> A3[Resumo automático\nCriação de resumos de documentos]
    
    B --> B1[Melhora na interação com clientes\nServiço ao cliente 24x7]
    B --> B2[Análise de mercado\nCaptação de informações sobre tendências]
    B --> B3[Recomendações personalizadas\nAumento no volume de transações]
    
    style A fill:#8ecae6,stroke:#333,stroke-width:4px
    style B fill:#90be6d,stroke:#333,stroke-width:4px
    style A1 fill:#219ebc,stroke:#333,stroke-width:2px
    style A2 fill:#219ebc,stroke:#333,stroke-width:2px
    style A3 fill:#219ebc,stroke:#333,stroke-width:2px
    style B1 fill:#ffb703,stroke:#333,stroke-width:2px
    style B2 fill:#ffb703,stroke:#333,stroke-width:2px
    style B3 fill:#ffb703,stroke:#333,stroke-width:2px

Perspectiva técnica: O papel dos Tokens no processamento de linguagem natural

A Tokenização é o processo técnico de decompor dados textuais complexos em unidades que podem ser facilmente gerenciadas, permitindo que os sistemas de IA realizem análises e processamentos de dados efetivos. Esse processo é especialmente crítico no processamento de linguagem natural (NLP), pois permite que as máquinas “entendam” a linguagem humana e realizem tarefas como:

Extração de informações: Tokens ajudam na rápida extração de informações-chave de grandes volumes de texto, como extrair cláusulas relevantes de documentos legais.
Análise de sentimentos: Ao analisar o feedback dos clientes em forma de Tokens, as empresas podem identificar tendências emocionais e ajustar seu produto ou serviço com base nos resultados.
Resumo automático: A tecnologia de Tokenização pode gerar resumos documentais automaticamente, aumentando a eficiência dos trabalhadores do conhecimento.

Perspectiva comercial: O papel dos Tokens na criação de valor para a empresa

Sob o ponto de vista comercial, Tokens não apenas melhoram na eficiência operacional, mas também podem abrir novos modelos de negócios e canais de receita:

Melhoria na interação com os clientes: Utilizando um chatbot baseado em Tokens, é possível fornecer atendimento ao cliente 24/7, aumentando a satisfação do cliente e reduzindo custos de serviço.
Análise de mercado: O processamento de dados via Tokenização pode atender empresas a obter rapidamente informações sobre tendências do mercado, orientando decisões estratégicas.
Recomendações personalizadas: Em plataformas de e-commerce, as tecnologias de Tokenização podem analisar o histórico de compras e os comportamentos de navegação dos usuários, proporcionando recomendações de produtos personalizadas e aumentando a taxa de conversão.

Análise de Casos Reais

Chatbots de Serviço ao Cliente

Uma aplicação típica dos Tokens é nos chatbots de serviço ao cliente. Por exemplo, uma grande empresa de telecomunicações implementou um chatbot baseado em Tokens para lidar com consultas de usuários, como questões sobre faturas ou interrupções de serviço. O chatbot, analisando as questões do usuário (já Tokenizadas), fornece rapidamente as respostas corretas ou encaminha a questão para o departamento apropriado.

Sistemas de Recomendações de Conteúdo

Na indústria de mídia e entretenimento, sistemas de recomendações de conteúdo utilizam a tecnologia de Tokenização para analisar os hábitos de visualização dos usuários e propor novos filmes, livros ou artigos nos quais eles poderiam estar interessados. Por exemplo, o sistema de recomendação da Netflix analisa as descrições dos programas que o usuário assistiu para prever quais outros programas ele poderia gostar.

O valor comercial dos Tokens e as expectativas para o futuro

Dentro do contexto empresarial, entender e usar os Tokens efetivamente é fundamental para o sucesso de projetos em IA. Compreender o valor comercial dos Tokens e os desafios envolvidos é crucial para o desenvolvimento de estratégias e a navegação por inovações tecnológicas.

Aplicações comerciais dos Tokens

Perspectiva técnica: O papel dos Tokens

A aplicação dos Tokens no processamento de linguagem natural (NLP) permite que informações textuais sejam efetivamente gerenciadas pelos sistemas de IA. Em resumo, a Tokenização é o processo de decompor textos longos em unidades menores para facilitar o processamento, estas unidades (Tokens) fornecem a base sobre a qual os modelos de aprendizado de máquina operam.

Processamento de dados: Ao lidar com consultas de clientes, analisar feedback de mercado ou gerenciar grandes documentos, a Tokenização transforma dados textuais complexos em informações mais utilizáveis e analisáveis.
Aumento da eficiência: Com a Tokenização, os modelos de IA podem identificar informações-chave rapidamente, acelerando o processo de tomada de decisões e melhorando a velocidade de resposta nos negócios.

Perspectiva comercial: O valor econômico dos Tokens

Sob uma perspectiva comercial, os Tokens não são apenas componentes técnicos; eles estão diretamente ligados ao aumento da eficiência operacional, aprimoramento da experiência do cliente e geração de novos modelos de negócios.

Otimização do atendimento ao cliente: A Tokenização torna a automação do atendimento ao cliente possível, permitindo que sistemas de resposta automática lidem com consultas de clientes de forma rápida e precisa, o que aumenta a satisfação e a lealdade à marca.
Marketing personalizado: A análise de comportamentos e preferências utilizando a Tokenização permite que as empresas criem conteúdos de marketing altamente personalizados, aumentando a taxa de conversão das vendas.

Perspectivas e desafios futuros para os Tokens

Direções para o desenvolvimento futuro

Com o avanço das tecnologias de IA, espera-se que o uso de Tokens se torne mais inteligente e diversificado:

Aplicações multimodais: A tecnologia de Tokens não se restringirá apenas ao processamento de texto, mas se expandirá para incluir análise de conteúdo multimídia como vídeos e áudios, apoiando uma gama maior de aplicações.
Otimização inteligente: Os métodos de geração e processamento de Tokens se tornarão mais inteligentes, por exemplo, através de ajustes automáticos com base em IA para determinar a granularidade e o número de Tokens exigidos para atender a diferentes demandas empresariais.

Desafios comerciais e oportunidades

Segurança de dados e privacidade: Garantir a segurança de dados e a privacidade dos usuários durante o processamento de Tokens será um desafio principal no futuro, especialmente ao lidar com informações sensíveis.
Integração tecnológica: Integrar as tecnologias de Tokens nas estruturas de TI e processos de negócios existentes de forma fluida será fundamental para a transformação tecnológica.
Justiça e necessidade de clareza: Assegurar que as decisões de IA derivadas da Tokenização sejam justas e transparentes é essencial para fortalecer a confiança entre todas as partes interessadas.

Conclusão

Ao escrever este artigo, Lin Miao ofereceu direções atuais (obrigado), https://arxiv.org/abs/2104.12369. Com base nas práticas do modelo Pangu da Huawei, o desenvolvimento de Tokens no domínio chinês tende a afastar-se da engenharia, e ainda será interessante observar seu progresso.

Antes de redigir este artigo, minha compreensão sobre Tokens era vagamente limitada à ideia de que um caractere chinês é igual a 1 Token, confundindo Tokens com Vetorização. No entanto, antes da Vetorização, o trabalho de Tokenização já ocorre. Estamos nos preparando para a IA e abraçando a mudança; como podemos usar melhor os dados nos sistemas de aplicação existentes? Podemos começar por aqui!