【Curiosidades sobre Token】¿Por qué se cobra por Token en AI? ¡Vamos a descubrirlo! — Aprendiendo AI040
Introducción
- ¿Has escuchado que la AI se cobra por Token?
- Se gastan muchos Tokens al usar esto
- Si la computadora se queda encendida toda la noche, ¿no se parece a perder una casa por haber gastado muchos Tokens?
- ¿Por qué se utiliza el Token para el cobro?
- He oído que el Token es un sistema de cobro bidireccional
- Se cobra por hacer preguntas a la AI y también por las respuestas, ¿no es un poco excesivo?
- ¡Y la AI podría hablar sin parar!
- ¿Es un Token una palabra o una letra?
- ¿Cómo se cobra en chino?
- ¿Y en árabe?
- ¿Qué significado tiene el Token en el proceso de digitalización empresarial?
- La digitalización tradicional consiste en construir estructuras y bases de datos
- ¿Por qué en la aplicación de la AI se presenta el tema del Token?
Este artículo intenta responder a estas preguntas sobre qué es realmente un Token. La lectura es larga, ¡pero vale la pena!
A lo largo de la historia del desarrollo de la computación, han aparecido términos complejos que poco a poco se integraron en la vida cotidiana de las personas. Un ejemplo es el término “Prompt” que se ha normalizado, igual que el Token, que parece que ha salido de su burbuja.
Pero, ¿es el Token un método de cobro propuesto por OpenAI que ha sido acogido entusiastamente por la industria? ¿O hay otras razones detrás?
Comencemos por su origen.
En el entorno empresarial, utilizar la tecnología AI para reducir costos y aumentar la eficiencia hace que entender el Token nos ayude a implementar la AI en las empresas. En términos sencillos, se puede interpretar como bloques de construcción, donde al unir bloques logramos las aplicaciones que necesitamos, incrementando así la eficiencia.
Fundamentos sobre Tokens
Concepto Básico de Token
Primero, veamos cómo lo describe OpenAI:
- 1 Token ≈ 4 caracteres en inglés
- 1 Token ≈ ¾ de palabra
- 100 Tokens ≈ 75 palabras
o - 1-2 oraciones ≈ 30 Tokens
- 1 párrafo ≈ 100 Tokens
- 1,500 palabras ≈ 2048 Tokens
¿Y después de leer esto, estás confundido? ¿Qué diferencia hay con saber las diferentes formas de escribir “Rehuai” en el examen de Confucio? Vamos, vamos, ¡explorémoslo!
Learning AI Meticulously, Sharing Knowledge Joyfully
¿Adivinas cuántos Tokens tiene esta frase? Son 6 palabras, así que parece que debería ser 6 Tokens, ¿verdad? ¡Pero no es así!
En ChatGPT 4, se cuenta como 10 Tokens. Como puedes ver en los bloques de colores, la puntuación cuenta por separado y Joyfully
se divide en Joy
y fully
.
De código a conversación: La necesidad de introducir el Token
El lenguaje base de las computadoras es el código binario, compuesto de 0s y 1s, que es la forma más fundamental de representar todos los programas y datos. Tanto los lenguajes de programación avanzados que usamos hoy, como Python y Java, como cualquier tipo de archivo multimedia, como imágenes y videos, se convierten a este lenguaje de máquina. En la ciencia de la computación tradicional, los expertos han trabajado arduamente para abstraer la complejidad del mundo real definiendo tipos de datos claros como cadenas (una serie de caracteres) y enteros. Este enfoque funciona muy bien para datos estructurados, como cálculos matemáticos o consultas en bases de datos.
Sin embargo, con el avance de la tecnología y el aumento de las necesidades humanas, deseamos que las computadoras no solo procesen números y códigos, sino que también comprendan y manejen el lenguaje natural, que es nuestra lengua diaria. Aquí es donde entra el campo del Procesamiento de Lenguaje Natural (NLP, Natural Language Processing), que tiene como objetivo hacer que las computadoras comprendan, interpreten y generen lenguaje humano.
Considerando las características del lenguaje natural, que incluyen su diversidad, dependencia del contexto y ambigüedad, no nos enfrentamos a un problema simple como 1+1=2
. Ahora tenemos que resolver cómo permitir que las computadoras entiendan frases como “Hoy es viernes, ¿dónde puedo ir el fin de semana? ¿Aprender AI en casa?” y analizar su sentimiento o traducirlo a otros idiomas. En este contexto, los tipos de datos tradicionales ya no son suficientes.
Por eso necesitamos el concepto de Token. Tokenización es el proceso de descomponer datos textuales complejos en unidades más pequeñas y manejables, como palabras, frases o signos de puntuación. De esta manera, las computadoras pueden procesar el lenguaje de forma más efectiva, extrayendo significados de textos en lugar de simplemente contar caracteres.
De la determinación a la ambigüedad: La programación tradicional procesa datos claros y predecibles, mientras que el NLP implica interpretar palabras polisémicas y el lenguaje contextual.
De estructurado a no estructurado: A diferencia de las bases de datos estructuradas o los algoritmos, el NLP se ocupa de textos de lenguaje natural en formatos fluidos y libres.
¿Qué es un Token? ¿Por qué convertir texto en Tokens?
Imagina un escenario típico en AI generativa donde una aplicación común es la síntesis rápida de información, donde no necesitamos leer palabra por palabra para obtener la información clave. Aquí, el Token juega un papel crucial, ayudando a la computadora a “comprender” y procesar grandes volúmenes de texto.
¿Qué es un Token?
En el procesamiento de lenguaje natural, un Token se refiere típicamente a segmentos significativos del texto. Estos segmentos pueden ser palabras, frases o signos de puntuación, como los ejemplos presentados anteriormente.
¿Por qué convertir en Tokens?
Convertir texto en Tokens es como descomponer un informe comercial complejo en partes clave o dividir el contenido de un correo electrónico en puntos importantes. Esta fragmentación permite que las computadoras procesen y analicen el lenguaje de manera más eficiente, llevando a cabo tareas como búsqueda de información clave, traducción automática o análisis de sentimientos.
Por ejemplo, si alguien abre una cadena de tiendas en Meituan, querría analizar las reseñas de los clientes para mejorar el producto (¡mejorar? Bueno, supongamos que sí), descomponer las reseñas en Tokens puede ayudar a identificar problemas comunes o puntos de críticas negativas.
¿Así que parece que un Token es solo una palabra, pero en realidad, ¿cuál es la situación?
Diferencias y conexiones entre Token, caracteres y palabras.
Definición | Características | Ejemplo | |
---|---|---|---|
Carácter | Elementos básicos que componen un texto | No necesariamente expresan significado completo; se combinan con otros caracteres para formar palabras. | happy |
Palabra | Construido por caracteres, capaz de expresar cierto significado | Es la unidad básica para transmitir información y expresa más que un único carácter. | I’m happy |
Token | Generalmente corresponde a una palabra, pero es más flexible, puede ser una frase, signo de puntuación o incluso raíces y prefijos. | La definición de Token depende de su uso, como análisis de textos, traducción automática, etc. | I , 'm , happy |
Hasta aquí, vamos entendiendo que en gran medida esto depende de la comprensión del lenguaje en sí.
A pesar de las diferencias técnicas, caracteres, palabras y Tokens están estrechamente relacionados en el procesamiento de texto. Los caracteres son la base de las palabras y las palabras son los elementos que forman los Tokens. En aplicaciones prácticas, la identificación y uso de Tokens dependen de la comprensión de caracteres y palabras.
Por ejemplo, si queremos analizar un informe sobre tendencias de mercado, a través de la Tokenización, podemos identificar rápidamente palabras clave (como “crecimiento”, “riesgo”, “oportunidades”, etc.), ayudando a los ejecutivos a comprender el contenido central del informe.
En resumen, los Tokens son un método que ayuda a las computadoras a procesar y “comprender” texto, haciendo posible el procesamiento automatizado y apoyando la utilización efectiva de la información lingüística en el proceso de toma de decisiones impulsadas por datos.
¿Cómo se generan y procesan los Tokens? Pues bien, esto requiere un enfoque más allá del pensamiento de programación tradicional.
Generación y procesamiento de Tokens
¿Cómo se generan los Tokens? Proceso específico de conversión de texto a Tokens.
graph LR A[Proceso de manejo de texto] A1[Preprocesamiento] A2[Segmentación] A3[Tokenización] A4[Post procesamiento] A --> A1 A --> A2 A --> A3 A --> A4 A1 --> B1[Eliminar caracteres irrelevantes] B1 --> B1a[Como etiquetas de código web] A1 --> B2[Estandarizar texto] B2 --> B2a[Uniformizar mayúsculas y minúsculas] B2 --> B2b[Conversión de caracteres tradicionales a simplificados] A1 --> B3[Eliminar palabras vacías] B3 --> B3a[Como “de”, “la”, etc.] A2 --> C1[Segmentación en inglés] C1 --> C1a[Basada en espacios y signos de puntuación] A2 --> C2[Segmentación en chino] C2 --> C2a[Dependiente de algoritmo para reconocer fronteras de palabras] A3 --> D1[Combinar vocabulario] D1 --> D1a[Como nombres propios “Nueva York”] D1 --> D2[Reconocer frases o collocaciones] D1 --> D3[Tratar signos de puntuación como Tokens independientes] A4 --> E1[Etiquetado gramatical] A4 --> E2[Etiquetado de roles semánticos]
Los diferentes modelos pueden variar en sus procesos, para simplificar el entendimiento, se presentan estos pasos. En la valoración del valor de los datos depositados por la digitalización empresarial, debemos considerar la priorización del valor de los datos y el costo del tratamiento de datos para emitir un juicio adecuado.
Por ejemplo:
Generación de Tokens
Preprocesamiento
Aquí hay un texto de ejemplo que mezcla chino, inglés y números, además de contener elementos que requieren preprocesamiento:
1 | En 2024, la tecnología AI se desarrolla rápidamente. Por ejemplo, OpenAI lanzó el modelo GPT-4o, que no solo es potente, sino que tiene avances significativos en procesamiento de <code>lenguaje natural</code>. Sin embargo, necesitamos eliminar algunas palabras de uso común que no aportan información, como “de”, “la”. Para más detalles sobre estas tecnologías, visite nuestra página oficial. |
Eliminar caracteres innecesarios:
- Retirar etiquetas de código como
<code>
y</code>
, que generalmente no contienen información útil.
- Retirar etiquetas de código como
Estandarizar el texto:
- Convertir todos los caracteres en inglés a minúsculas para eliminar diferencias de caso, como cambiar “OpenAI” a “openai”.
- Convertir caracteres tradicionales a simplificados, si el texto contiene caracteres tradicionales; por ejemplo, cambiar “發展” a “发展”.
Eliminar palabras vacías:
- Identificar y eliminar palabras comunes que, por lo general, no llevan información significativa, como “de”, “la”, etc.
Después de estos pasos de preprocesamiento, el texto será más adecuado para el análisis y la eficiencia en la posterior segmentación y tokenización.
1 | En 2024, la tecnología AI se desarrolla rápidamente. Por ejemplo, OpenAI lanzó el modelo GPT-4o, que no solo es potente, sino que tiene avances significativos en procesamiento de lenguaje natural. Sin embargo, necesitamos eliminar algunas palabras comunes que no llevan información, como “ ”, “ ”, etc. Para más detalles sobre estas tecnologías, consulte nuestra página oficial. |
Segmentación
Segmentación, como su nombre indica, implica separar las palabras en una oración para facilitar un procesamiento posterior. Imagina que tienes un hilo de perlas y necesitas encontrar el lugar adecuado para cortarlo.
¿Cómo se realiza la segmentación? Pensamos en un diccionario como referencia. Este ha sido un método utilizado históricamente. Al segmentar, podría lucir así:
1 | En / 2024 / , / la / tecnología / AI / se / desarrolla / rápidamente / . / Por / ejemplo / , / OpenAI / lanzó / el / modelo / GPT-4o / , / que / no / solo / es / potente / , / sino / que / tiene / avances / significativos / en / procesamiento / de / lenguaje / natural / . / Sin embargo / , / necesitamos / eliminar / algunas / palabras / comunes / que / no / llevan / información / , / como / “ ” / , / “ ” / , etc. / Para / más / detalles / sobre / estas / tecnologías / , / visite / nuestra / página / oficial. |
En un proceso real, la segmentación involucra muchos más detalles. Generalmente encontramos los siguientes enfoques:
Determinar los límites de las palabras:
- En lenguas como el inglés, donde se utilizan espacios como separadores, esto es relativamente sencillo.
- En chino, las cosas son más complejas, ya que el idioma no presenta espacios claros entre las palabras. Aquí se necesitan métodos adicionales para determinar cuáles caracteres forman un significado.
Uso de diccionarios y reglas:
- Método basado en diccionario: Similar a usar un diccionario, se busca y se empareja el texto con un gran listado (diccionario). Este método es simple pero limitado pues puede que palabras nuevas o raras no estén en él.
- Método basado en reglas: Se utilizan reglas específicas para juzgar la relación entre caracteres y en qué contextos deben ser agrupados como palabras.
Métodos estadísticos y de aprendizaje:
- Se utilizan datos estadísticos para aprender qué caracteres suelen aparecer juntos, a través del análisis de grandes corpus de texto.
Método combinado:
- En la práctica, se combinan los métodos anteriores para mejorar la precisión y aplicabilidad de la segmentación.
En términos simples:
- Inglés: Segmentación basada en espacios y signos de puntuación.
- Chino: Algoritmos identifican los límites de las palabras.
La excelente librería para segmentación en chino es Jieba, aunque no ha tenido actualizaciones en 4 años.
La lógica tradicional de segmentación no considera mucho el significado de las palabras en su contexto. Veamos un ejemplo:
1 | ¿Para/ qué siempre/ llamas? |
qué siempre
podría referirse a una persona, mientras que para qué
es una expresión.
Después de la segmentación, se procede a la tokenización.
Tokenización
La tokenización es un paso clave en el procesamiento de datos textuales, que profundiza y redefine las unidades textuales para satisfacer mejor los requisitos de análisis y procesamiento posteriores. A continuación, especificaremos el proceso de tokenización usando el texto proporcionado.
Combinar nombres propios y frases específicas:
- Consideramos “OpenAI” y “GPT-4o” como Tokens separados, ya que son nombres propios, con significado independiente.
- “lenguaje natural”, como término técnico y collocación, también debe ser visto como un Token único.
Tratamiento de signos de puntuación como Tokens independientes:
- Los signos de puntuación como comas (,), puntos (.) y comillas (“ ”) deben ser considerados Tokens independientes, ya que desempeñan roles gramaticales y estructurales en el texto.
Manejo de marcadores de citas:
- Las comillas vacías (como “ ”) deben ser tratadas como Tokens erróneos o insignificantes y eliminadas.
Resultado después de la tokenización:
1 | En / 2024 / , / la / tecnología / AI / se / desarrolla / rápidamente / . / Por / ejemplo / , / OpenAI / lanzó / el / modelo / GPT-4o / , / que / no / solo / es / potente / , / sino / que / tiene / avances / significativos / en / procesamiento / de / lenguaje / natural / . / Sin embargo / , / necesitamos / eliminar / algunas / palabras / comunes / que / no / llevan / información / , / como / , / etc. / Para / más / detalles / sobre / estas / tecnologías / , / visite / nuestra / página / oficial. |
El resultado es más compacto y significativo, y está más adaptado para tareas posteriores de procesamiento de NLP, como análisis de texto y análisis de sentimientos. Una adecuada tokenización puede ayudarnos a capturar mejor las características semánticas y estructurales del texto, proporcionando una base para una comprensión y análisis más profundos.
Vale la pena mencionar que la tokenización y la vectorización están estrechamente relacionadas, pero no son lo mismo; la vectorización convierte estos contenidos en valores numéricos, lo cual se discutirá más adelante.
El papel del vocabulario en la generación de Tokens.
A través del análisis anterior, hemos visto que el vocabulario tiene un gran papel en el proceso de generación de Tokens.
Identificación de fronteras, garantía de consistencia, compresión de información, mejora de velocidad de procesamiento, mantenimiento semántico:
Mantener y actualizar el vocabulario puede optimizar continuamente el proceso de generación de Tokens, adaptándose a los cambios del lenguaje y la aparición de nuevas palabras, mejorando así la adaptación y precisión del sistema en su conjunto.
Tratamiento de caracteres especiales (como signos de puntuación, espacios).
En el proceso de generación de Tokens, el tratamiento de caracteres especiales es un aspecto a tener en cuenta. Los caracteres especiales como signos de puntuación y espacios tienen un papel importante en la estructura y significado del texto:
Signos de puntuación: Estos suelen indicar la estructura de las oraciones, como el punto que cierra una oración (.) o la coma (,) para separar elementos de una lista. Críticamente, en la tokenización, los signos de puntuación se consideran Tokens independientes, ya que pueden influir en el tono de la oración y su estructura, a veces incluso cambiando el significado de la misma.
Espacios: En lenguas como el inglés y otras que utilizan el alfabeto latino, los espacios se utilizan para separar palabras. Generalmente, en la tokenización, los espacios no se conservan como Tokens, pero su presencia es vital para determinar los límites de las palabras. Sin embargo, en algunos textos formateados, los espacios pueden tener un propósito visual; en esos casos, su tratamiento puede variar según el contexto.
Caracteres de formato especiales: Como tabulaciones (Tab) y saltos de línea (\n) que también desempeñan roles de control de formato en el texto. Dependiendo de la situación, estos caracteres pueden necesitar ser ignorados o tratados de manera especial, por ejemplo, cuando se manejan archivos de texto puro.
Un manejo correcto de estos caracteres especiales es clave para asegurar una adecuada tokenización del texto; su tratamiento impacta directamente en la efectividad del análisis y aplicaciones posteriores. Al diseñar un sistema NLP, se debe considerar cuidadosamente cómo tratarlos para satisfacer diferentes necesidades de aplicación y características de datos.
De lo que hemos revisado previamente, también podemos entender que las diferencias lingüísticas influyen en cómo se procesan los Tokens; estas diferencias nos ayudan a comprender mejor.
Diversidad y adaptabilidad de los Tokens
Métodos de tokenización en diferentes idiomas
Las diferencias estructurales y gramaticales entre los idiomas exigen que los métodos de tokenización sean altamente adaptables y flexibles. Por ejemplo:
Inglés y otras lenguas occidentales: Estas lenguas utilizan espacios como separadores de palabras, lo que hace que la tokenización sea relativamente sencilla. Por ejemplo, la frase “The quick brown fox” se puede separar fácilmente en “The”, “quick”, “brown”, “fox”.
Chino, japonés y coreano: Estas lenguas no presentan separadores claros entre los términos, lo que complica la tokenización. En chino, es necesario depender de diccionarios o modelos estadísticos para reconocer qué caracteres se combinan para formar palabras significativas. Por ejemplo, “快速发展” debe ser identificado en su conjunto como un Token completo en lugar de dividirlo en “快速” y “发展”.
Árabe y hebreo: En estas lenguas que se escriben de derecha a izquierda, la tokenización implica considerar la dirección de escritura junto con el manejo de letras que se unen, lo que plantea requisitos especiales para los algoritmos de tokenización.
Comprender estas diferencias ayuda a manejar mejor los datos multilingües en negocios globales, optimizar interfaces de usuario multilingües y la creación de contenido, mejorando la experiencia del usuario y la expansión del mercado.
¿Cómo se determina el tamaño y la granularidad de los Tokens?
El tamaño y la granularidad de los Tokens dependen de las necesidades específicas de la aplicación y del nivel de profundización que se busca en el procesamiento:
Tokens de alta granularidad: Normalmente se usan en contextos que requieren una comprensión lingüística profunda, como en análisis de sentimientos o búsqueda semántica. Por ejemplo, descomponer palabras compuestas puede ayudar a los modelos a captar más finamente los matices de significado en el lenguaje.
Tokens de baja granularidad: Son ideales para situaciones que requieren un procesamiento rápido de grandes volúmenes de datos, como clasificación de documentos o extracción de palabras clave inicial. La tokenización de baja granularidad disminuye la complejidad del procesamiento y los requisitos computacionales.
Definir la granularidad de los Tokens generalmente implica equilibrar entre velocidad de procesamiento y precisión semántica. Comprender esto ayuda a los ejecutivos a tomar decisiones más informadas al implementar proyectos de AI y elegir las tecnologías y herramientas adecuadas que satisfagan las necesidades reales del negocio.
Comprender los métodos de tokenización en diferentes idiomas y los principios para determinar el tamaño y la granularidad de los Tokens puede ayudar a:
- Evaluar mejor los proyectos de AI: Comprender la complejidad y los desafíos de la tokenización ayuda a tomar decisiones informadas al comprar o desarrollar soluciones de AI.
- Optimizar operaciones globales: La capacidad de tokenización adaptada a entornos multilingües es clave para el éxito en negocios globalizados, mejorando la comunicación intercultural y la interacción del usuario.
- Aumentar la eficiencia del procesamiento de datos: Elegir la granularidad correcta de los Tokens puede optimizar la eficiencia y reducción de costos sin comprometer las necesidades comerciales.
Ahora, ¿qué impacto tienen los Tokens en el rendimiento del modelo?
Tokens y rendimiento de los modelos de AI
La estrategia de Tokens influye, en cierta medida, en el espacio de contexto de los grandes modelos. Durante nuestras interacciones con la AI, si los contenidos son demasiados, la AI puede olvidar lo dicho anteriormente. Esto se puede ver como un límite superior. A continuación se presentan las limitaciones contextuales de los modelos de lenguaje del año pasado.
src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf
Estos son los datos del año pasado, y ahora veamos la gráfica de Gemini.
src: https://beebom.com/gemini-1-5-pro-announced/
El manejo de archivos PDF de 100M en el mercado nacional se ha convertido en un pilar de marketing; el tamaño del espacio de contexto se ha vuelto un punto clave. ¿Qué impacto tiene esto?
Según la ley de escalado actual, las diversas estrategias de Tokens son un nivel de ajuste en el algoritmo subyacente, lo que significa que mejorar la estrategia de Tokens es menos efectivo que simplemente adquirir más tarjetas gráficas.
Impacto de los Tokens en el rendimiento del modelo
sequenceDiagram participant U as Usuario participant I as Procesamiento de entrada participant M as Cálculo del modelo participant S as Sistema de almacenamiento U->>+I: Historial de conversación (número de Tokens) I->>+M: Analiza Tokens y prepara datos M->>+M: Calcula la autoatención Note over M: Calcula la relación de cada Token con los otros Tokens M->>+S: Solicita memoria adicional Note over S: Aumenta la asignación de memoria según el número de Tokens S-->>-M: Confirma la asignación de memoria M->>M: Continúa calculando la respuesta M-->>-I: Devuelve la respuesta generada I-->>-U: Muestra la respuesta
¿Cómo el número de Tokens afecta la complejidad del cálculo y el uso de la memoria del modelo?
En modelos de AI generativa, como GPT-4 o otros basados en Transformer, el número de Tokens generales está directamente relacionado con la complejidad del cálculo y el uso de memoria del modelo. Por cada Token añadido, más datos deben ser procesados, lo que no solo incrementa la carga computacional durante el entrenamiento y la inferencia, sino también la demanda de memoria. Por ejemplo, al entrenar un modelo de lenguaje, este necesita almacenar y calcular la relación de cada Token con todos los demás, lo cual es especialmente evidente en su mecanismo de autoatención.
Ejemplo: Considere un proyecto de chatbot generativo; si el historial de conversación es demasiado largo (es decir, hay muchos Tokens), el modelo podría ralentizarse al generar una respuesta, consumiendo más recursos computacionales. Por ejemplo, un historial de conversación que contiene miles de Tokens puede provocar un notable descenso en la velocidad de procesamiento, especialmente en dispositivos con recursos limitados.
Es evidente que las compañías detrás de grandes modelos no han ampliado su capacidad por razones concretas. ¿Acaso más capacidad implica mejor calidad?
¿Más Tokens siempre significan mejor rendimiento del modelo?
No necesariamente. Más Tokens no siempre se traducen en un mejor rendimiento del modelo. En la AI generativa, un número adecuado de Tokens puede ayudar al modelo a captar y entender el contexto con mayor precisión, mejorando así la relevancia y exactitud del contenido generado. No obstante, un exceso de Tokens puede introducir información irrelevante y disminuir la eficiencia y calidad de las salidas.
Ejemplo: En un sistema AI diseñado para generar informes de mercado, una precisa segmentación de Tokens asegura que la información importante se destaque, en lugar de perderse entre detalles innecesarios. Por ejemplo, al generar un resumen de numerosas noticias financieras, demasiados Tokens pueden convertir el informe en algo caótico y dificultar la captura de la información clave.
Actualmente, el procesamiento de archivos grandes por las empresas de grandes modelos probablemente adopte estrategias similares a las de almacenamiento en la nube; A sube un archivo, y cuando B sube, ya no necesita volver a procesarlo, puede usar el resultado del análisis de A. A medida que hay más contenido, se genera una ventaja competitiva de productos.
Optimización del uso de Tokens
¿Cómo encontrar el equilibrio entre el número de Tokens y el rendimiento del modelo?
La estrategia de Tokens mencionada se refiere principalmente a cómo los usuarios utilizan los Prompts para obtener resultados que se alineen con sus expectativas.
Encontrar el mejor equilibrio entre el número de Tokens y el rendimiento del modelo es clave para asegurar que los modelos de AI generativa sean eficientes y precisos. Esto usualmente requiere ajustes a través de prueba y error, así como el uso de técnicas avanzadas de ajuste del modelo.
Ejemplo: En un sistema de generación automática de contenido, equilibrar el uso de Tokens es un reto típico. Puede ser necesario extraer información clave de textos largos para generar un resumen. En tal caso, elegir un número adecuado de Tokens para retener suficiente información, evitando estructuras de modelo excesivamente complejas, es crucial.
Relación entre Tokens y ventanas contextuales, y su impacto en la calidad de generación textual.
En la AI generativa, el uso de Tokens y el ajuste de la ventana contextual influyen directamente en la coherencia y lógica del texto generado. Cuanto mayor sea la ventana contextual, más información histórica tiene el modelo para generar texto, lo que permite producciones más coherentes y naturales.
Ejemplo: Supongamos que usamos un modelo de AI para generar artículos en un blog técnico. Si la ventana contextual se establece demasiado pequeña, el modelo puede tener dificultades para vincular efectivamente las diversas partes del artículo, provocando rupturas lógicas en el contenido. Al optimizar el uso de Tokens y ajustar el tamaño de la ventana contextual, se puede mejorar significativamente la calidad y legibilidad del artículo.
A continuación, abordemos el tema mencionado anteriormente; para los sistemas de aplicación, deseamos que la experiencia del usuario sea buena, pero también debemos considerar los costos.
Aplicaciones comerciales de Tokens y modelos de cobro
Primero, veamos un cuadro que muestra las tarifas actuales de los grandes modelos.
En general, el uso de modelos de lenguaje grande puede dividirse en dos categorías: interacción en línea y llamadas a API. El uso de OpenAI mediante la web generalmente está estandarizado a 20 dólares al mes. Sin embargo, al utilizar la API, la tarifa puede ser mucho más variable.
Es un juego de gato y ratón. A pesar de contar con ChatGPT Plus, aún hay limitaciones en el número de interacciones dentro de tres horas. Muchos intentan acceder a ChatGPT a través de métodos como web scraping para evitar el uso de la API; sin embargo, la mayoría de estos códigos de código abierto han sido eliminados.
En el pasado, la lógica de facturación de telecomunicaciones se basaba en la duración de las llamadas, durante un período bastante lucrativo, hasta que se adoptó un sistema de tarifa plana. La actual forma de cobro por Token guarda similitudes intrigantes.
Lógica de cobro por Token
¿Por qué se usa la facturación por Token? Su razonabilidad y modelo comercial.
El modelo de cobro por Token es bastante común en los servicios de AI, especialmente en el uso de modelos de lenguaje proporcionados por OpenAI. Este modelo de cobro se basa en la cantidad concreta de Tokens manejados en cada solicitud.
Razonabilidad:
La lógica detrás de la facturación por Token es que refleja con mayor precisión el consumo real de recursos del usuario. Cada Token representa una unidad de información que el modelo necesita procesar; más Tokens significan más consumo de recursos computacionales. Por ende, esta modalidad permite a los usuarios pagar según lo que realmente utilizan, incentivando la optimización de sus entradas para evitar desperdicios innecesarios.
Modelo comercial:
Desde un enfoque comercial, el modelo de cobro por Token proporciona un marco de facturación flexible y justo para proveedores de servicios de AI. Permite a los proveedores establecer niveles de precios distintos según la carga en el sistema y los costos operativos, atrayendo así a una base de clientes diversa que abarca desde pequeños desarrolladores hasta grandes empresas.
Comparación de la facturación por Token con otros métodos de cobro (como por número de palabras, caracteres, tiempo)
Comparado con otros métodos de facturación comunes, el cobro por Token presenta ventajas y limitaciones únicas:
Facturación por número de palabras y caracteres: Estos métodos son simples y claros, fáciles de entender y presupuestar. No obstante, por lo general no toman en cuenta la complejidad del procesamiento y el uso real de recursos computacionales. Por ejemplo, procesar una oración larga con vocabulario simple podría ser más fácil que manejar un término técnico, aunque el costo por palabras pueda ser más alto.
Facturación por tiempo: El modelo de tarifas basado en el tiempo (como facturación por minutos o por horas) es adecuado para servicios persistentes como el procesamiento de datos en tiempo real o aprendizaje en línea. Sin embargo, puede llevar a cobros imprecisos o injustos para tareas cortas basadas en solicitudes.
graph TD; A[Cobro por Token] -->|Refleja el consumo real de recursos computacionales| B[Distribución justa de recursos]; A -->|Optimiza la eficiencia de las entradas| C[Incentiva a simplificar las entradas]; D[Cobro por palabras/caracteres] -->|Simple y claro| E[Fácil de entender y presupuestar]; D -->|No considera la complejidad| F[Pueden llevar a tarifas inexactas]; G[Cobro basado en tiempo] -->|Adecuado para servicios persistentes| H[Procesamiento de datos en tiempo real/aprendizaje en línea]; G -->|No adecuado para tareas breves| I[Pueden llevar a cobros injustos];
La facturación por Tokens permite una medición más detallada y puede reflejar de forma más justa el consumo real de recursos por parte del usuario.
Los costos que enfrentan las empresas de grandes modelos incluyen:
- Costos de I+D (personas + experimentos)
- Costos de entrenamiento (recursos computacionales + procesamiento de datos)
- Costos de implementación (infraestructura + almacenamiento)
- Costos de mantenimiento y actualización
- Costos de ética y cumplimiento (seguridad y conformidad de datos)
Todos estos costos son complejos de canalizar únicamente a través de Tokens y deben ser evaluados por quienes están en la industria; probablemente, esta sea la herramienta más adecuada en la fase actual para realizar dichas evaluaciones.
Impacto real de la facturación por Token
El impacto de diferentes métodos de facturación en usuarios y desarrolladores.
El modelo de facturación por Token significa que los usuarios deben gestionar más cuidadosamente sus solicitudes API para controlar costos. Los desarrolladores necesitan diseñar consultas eficientes para reducir el uso redundante de Tokens, maximizando así el valor de cada solicitud. Este enfoque de facturación fomenta que los desarrolladores optimicen sus flujos de datos de entrada y procesamiento, aunque podría incrementar la complejidad del desarrollo y el trabajo inicial de optimización.
Para los proveedores, la facturación por Token puede ayudar a equilibrar la carga en servidores, predecir ingresos y optimizar la asignación de recursos. También puede servir como un mecanismo de retroalimentación para la optimización de productos y el ajuste de estrategias de precios, ayudando a los proveedores a responder mejor a las necesidades del mercado.
¿Cómo optimizar el uso de Tokens para reducir costos?
Optimizar el uso de Tokens es clave para controlar costos. Esto puede lograrse a través de:
- Simplificación de datos de entrada: Antes de enviar solicitudes, eliminar texto innecesario y datos redundantes, manteniendo solo la información clave.
- Diseño de consultas eficientes: Diseñar consultas bien estructuradas que eviten solicitudes excesivamente complejas o profundas.
- Uso de estrategias de caché: Utilizar resultados en caché para solicitudes comunes o repetidas, reduciendo consultas al servicio backend.
- Monitoreo y análisis: Analizar regularmente los datos de consumo de Tokens para identificar puntos de optimización, ajustando estrategias para reducir desperdicios.
A través de estos métodos, se puede no solo reducir costos, sino también mejorar la velocidad de respuesta del sistema y la satisfacción del usuario, obteniendo así una ventaja en un mercado altamente competitivo.
Valor comercial de los Tokens y casos de aplicación
Aplicaciones prácticas de Tokens en negocios
En la operación empresarial, la aplicación de la tecnología de tokenización puede aumentar significativamente la eficiencia en el procesamiento de datos y la calidad de la toma de decisiones. Para los ejecutivos de negocios que no son técnicos, entender cómo se aplica el Token puede ayudar a realizar una mejor evaluación de inversiones tecnológicas y fomentar la innovación empresarial.
graph LR; A[Perspectiva técnica: El papel de Token en el procesamiento de lenguaje natural] B[Perspectiva comercial: El papel de Token en la creación de valor empresarial] A --> A1[Extracción de información\nRápida obtención de datos clave] A --> A2[Análisis de sentimientos\nIdentificación de emociones de clientes] A --> A3[Resumen automático\nGeneración de resúmenes de documentos] B --> B1[Mejorar la interacción con clientes\nServicio 24X7] B --> B2[Análisis de mercado\nObtención de tendencias] B --> B3[Recomendaciones personalizadas\nIncremento de ventas] style A fill:#8ecae6,stroke:#333,stroke-width:4px style B fill:#90be6d,stroke:#333,stroke-width:4px style A1 fill:#219ebc,stroke:#333,stroke-width:2px style A2 fill:#219ebc,stroke:#333,stroke-width:2px style A3 fill:#219ebc,stroke:#333,stroke-width:2px style B1 fill:#ffb703,stroke:#333,stroke-width:2px style B2 fill:#ffb703,stroke:#333,stroke-width:2px style B3 fill:#ffb703,stroke:#333,stroke-width:2px
Perspectiva técnica: El papel de Token en el procesamiento de lenguaje natural
La tokenización es un proceso técnico que descompone datos textuales complejos en unidades manejables, permitiendo a los sistemas AI realizar un análisis y procesamiento de datos efectivos. Este proceso es crucial en el procesamiento de lenguaje natural (NLP), dado que permite a las máquinas “comprender” el lenguaje humano y ejecutar tareas como:
- Extracción de información: La tokenización facilita la obtención rápida de información clave de grandes volúmenes de texto, como extraer cláusulas relevantes de documentos legales.
- Análisis de sentimientos: Al analizar los Tokens de comentarios de clientes, las empresas pueden identificar tendencias emocionales y ajustar sus productos o servicios.
- Resumen automático: La tecnología de tokenización puede generar resúmenes automáticos de documentos, mejorando la eficiencia de los trabajadores del conocimiento.
Perspectiva comercial: El papel de Token en la creación de valor empresarial
Desde un punto de vista comercial, los Tokens no solo aumentan la eficiencia operativa, sino que también abren nuevos negocios y flujos de ingresos:
- Mejorar la interacción con clientes: Al usar chatbots basados en Tokenización, las empresas pueden ofrecer atención al cliente 24X7, mejorando la experiencia del cliente y reduciendo costos de servicio.
- Análisis de mercado: El tratamiento con Tokens permite obtener rápidamente información de tendencias de informes de mercado, orientando decisiones estratégicas.
- Recomendaciones personalizadas: En plataformas de comercio electrónico, la tecnología de tokenización puede analizar la historia de compras de los usuarios y comportamientos de navegación para ofrecer recomendaciones personalizadas, aumentando así las conversiones de ventas.
Análisis de casos prácticos
Chatbots de atención al cliente
Un caso típico es el de un chatbot de atención al cliente. Por ejemplo, una gran empresa de telecomunicaciones implementó un chatbot basado en Tokenización para manejar consultas de usuarios sobre problemas de facturación, interrupciones del servicio, etc. El chatbot, al analizar las preguntas de los usuarios (ya tokenizadas), ofrece respuestas rápidas y precisas o redirige problemas al departamento adecuado.
Sistema de recomendaciones de contenido
En la industria de los medios y el entretenimiento, los sistemas de recomendaciones de contenido utilizan la tecnología de tokenización para analizar los hábitos de visualización o lectura de los usuarios, sugiriendo nuevas películas, libros o artículos que pudieran interesarles. Por ejemplo, el sistema de recomendaciones de Netflix analiza las características de los programas previamente vistos para predecir otros que los usuarios podrían disfrutar.
Valor comercial de los Tokens y perspectivas de aplicación
En aplicaciones empresariales, comprender y utilizar eficazmente los Tokens es clave para el éxito de los proyectos de AI. Captar el valor comercial de los Tokens y los desafíos es fundamental para formular estrategias y navegar las innovaciones tecnológicas.
Aplicaciones comerciales de Tokens
Perspectiva técnica: El rol de los Tokens
Los Tokens en el procesamiento de lenguaje natural (NLP) permiten que la información textual sea efectivamente manejada por los sistemas AI. En términos simples, la tokenización descompone párrafos extensos en pequeñas unidades manejables para que estas unidades (Tokens) sirvan de base para los modelos de aprendizaje automático.
- Procesamiento de datos: Al manejar consultas de clientes, análisis de comentarios de mercado o gestión de documentos extensos, la tokenización transforma estos complejos datos textuales en algo accesible.
- Aumento de la eficiencia: A través de la tokenización, los modelos AI pueden identificar rápidamente información clave, acelerando el proceso de toma de decisiones y mejorando la rapidez en las respuestas empresariales.
Perspectiva comercial: El valor económico de los Tokens
En un ángulo comercial, los Tokens no son solo componentes técnicos; están directamente relacionados con el aumento de la eficiencia operativa, mejora de la experiencia del cliente y apertura de nuevos modelos comerciales.
- Optimización del servicio al cliente: La tokenización hace posible la automatización del servicio al cliente, resolviendo solicitudes de forma rápida y eficiente, aumentando la satisfacción del cliente y la lealtad hacia la marca.
- Marketing personalizado: Mediante el análisis de comportamientos y preferencias de los usuarios por parte de la tokenización, las empresas pueden ofrecer contenido de marketing altamente personalizado, incrementando la tasa de conversión en ventas.
Futuro de los Tokens: expectativas y desafíos
Direcciones de desarrollo futuro
Con el avance de la tecnología AI, se espera que la aplicación de Tokens se vuelva más inteligente y diversa:
- Aplicaciones multimodales: La tecnología de Tokens no se limitará solo al procesamiento textual; en el futuro se extenderá al análisis de contenido multimedia, como videos y audios, apoyando un rango más amplio de aplicaciones.
- Optimización inteligente: Los métodos de generación y procesamiento de Tokens serán aún más inteligentes; por ejemplo, mediante AI se ajustará automáticamente el tamaño y la cantidad de Tokens para adaptarse a diversas necesidades empresariales.
Desafíos y oportunidades comerciales
- Seguridad y privacidad de datos: Asegurar la seguridad de los datos y la privacidad del usuario durante el procesamiento tokenizado es un desafío clave, especialmente al manejar información sensible.
- Integración técnica: La integración fluida de la tecnología de Tokens en los sistemas de TI existentes y los procesos comerciales es crucial para la transformación tecnológica.
- Equidad y explicabilidad: Asegurar que las decisiones de AI derivadas de la tokenización sean justas y transparentes fortalece la confianza de todos los interesados.
Conclusión
Al escribir este artículo, Lin Miao proporcionó direcciones actuales nuevas (gracias), https://arxiv.org/abs/2104.12369. Basado en la práctica del modelo Pangu de Huawei, se observará que el desarrollo de Tokens en el ámbito del chino tenderá hacia la desindustrialización, lo que aún requiere mayor observación.
Antes de redactar este artículo, mi comprensión de los Tokens estaba vagamente enfocada en que un caracter chino equivalía a un Token. También confundía a veces el Token con la vectorización. En realidad, antes de llegar a la vectorización, hay un trabajo de Tokenización. ¿Cómo podemos mejor preparar la AI y abrazar el cambio? Empezando desde aquí, podemos utilizar mejor los datos en los sistemas de aplicaciones empresariales.
Enlaces de referencia
- https://platform.openai.com/tokenizer
- https://arxiv.org/abs/2104.12369
- https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
- https://www.coindesk.com/learn/a-beginners-guide-to-ai-tokens/
- https://ogre51.medium.com/context-window-of-language-models-a530ffa49989
- https://cobusgreyling.medium.com/rag-llm-context-size-6728a2f44beb
- https://www.humanfirst.ai/blog/how-does-large-language-models-use-long-contexts
- https://slator.com/10-large-language-models-that-matter-to-the-language-industry/
- https://yourgpt.ai/blog/general/long-context-window-vs-rag
- https://github.com/datawhalechina/hugging-llm/blob/main/content/chapter1/ChatGPT%E5%9F%BA%E7%A1%80%E7%A7%91%E6%99%AE%E2%80%94%E2%80%94%E7%9F%A5%E5%85%B6%E4%B8%80%E7%82%B9%E6%89%80%E4%BB%A5%E7%84%B6.md
- https://gpt-tokenizer.dev/