Introduzione

Si dice che l’AI addebiti in base ai Token?
- Questo utilizzo consuma molti Token
- Il computer è rimasto acceso tutta la notte e ha consumato molti Token, ti sembra di aver perso una casa intera?
Perché utilizzare i Token per la fatturazione?
- Si dice che i Token comportino fatturazione bidirezionale
- Porre domande all’AI costa, e anche le risposte costano, non è un po’ eccessivo?
- Allora l’AI non potrebbe anche dire un sacco di fesserie!
I Token sono parole o lettere?
- Come viene calcolato per i caratteri cinesi?
- Come viene calcolato per l’arabo?
Qual è il significato dei Token nel processo di informatizzazione aziendale?
- L’informatizzazione tradizionale si limita a creare architetture e a gestire database
- Perché l’applicazione dell’AI solleva il problema dei Token?

Questo articolo cerca di rispondere a queste domande e chiarire cos’è davvero questo Token che sentiamo spesso. L’articolo è lungo, quindi leggi fino alla fine.

Nella storia dello sviluppo dei computer, sono emerse molte parole affascinanti che in seguito sono entrate nella vita quotidiana delle persone, diventando parte del loro linguaggio. Il termine “Prompt” è un ottimo esempio, e così è il Token; è chiaro che ha fatto breccia nel pubblico.
È un modo di fatturazione proposto da OpenAI che molte aziende nel settore ritengono molto valido? O ci sono altri motivi?
Cominciamo dalla sua origine.

Nell’ambiente aziendale, l’uso della tecnologia AI per ridurre costi e aumentare l’efficienza rende la comprensione dei Token fondamentale per applicare l’AI nelle aziende. In termini semplici, possiamo pensare ai Token come a dei mattoncini; assemblando i mattoncini, possiamo realizzare le applicazioni di cui abbiamo bisogno e, di conseguenza, migliorare l’efficienza.

Fondamenti del Token

Concetti di base del Token

Iniziamo a esaminare la descrizione di OpenAI sui Token:

1 token ~= 4 caratteri inglesi
1 token ~= ¾ di parola
100 token ~= 75 parole
o
1-2 frasi ~= 30 token
1 paragrafo ~= 100 token
1.500 parole ~= 2048 token

Cosa ne pensi, ti senti confuso? Qual è la differenza tra questo e quante varietà di “韭菜” (chives) ci sono per Kong Yiji? Dai, sentiamo un po’ come funziona:

Learning AI Meticulously, Sharing Knowledge Joyfully

Indovina quanti Token ha questa frase? Sono 6 parole, quindi pensi che siano 6 Token, giusto? Sfortunatamente, non è così!

In ChatGPT 4, si tratta di 10 Token; guardando i colori, i segni di punteggiatura vengono conteggiati separatamente, e Joyfully è stato diviso in Joy e fully.

Dalla codifica al dialogo: la necessità di introdurre i Token

Il linguaggio fondamentale dei computer è costituito da codici binari composti da 0 e 1, la forma più basilare di rappresentazione di programmi e dati. Sia i linguaggi di programmazione di alto livello come Python e Java, sia vari file multimediali, come immagini e video, vengono convertiti in questo linguaggio comprensibile dalle macchine. Nella scienza informatica tradizionale, gli esperti hanno cercato di semplificare la complessità del mondo reale, definendo chiaramente i tipi di dati come stringhe (una serie di caratteri) e interi (numeri) per gestire le informazioni. Questo metodo è efficace per affrontare dati strutturati come calcoli matematici o query di database.

Tuttavia, man mano che la tecnologia avanza e aumentano le esigenze delle persone, desideriamo che i computer non solo gestiscano numeri e codici, ma comprendano e trattino anche il linguaggio naturale, ovvero il linguaggio quotidiano degli esseri umani. Nasce così il campo del Natural Language Processing (NLP), volto a far comprendere, interpretare e generare il linguaggio umano da parte dei computer.

Considerando le caratteristiche del linguaggio naturale, compresi la sua varietà, dipendenza dal contesto e ambiguità, ci troviamo di fronte a domande che non sono semplici come 1+1=2. Dobbiamo ora risolvere come far capire ai computer frasi come “Oggi è venerdì, dove andiamo questo weekend? Restiamo a casa a studiare AI?” e analizzare ulteriormente il loro significato o tradurle in altre lingue. In questo contesto, i tipi di dati tradizionali non sono più sufficienti.

È qui che entra in gioco il concetto di Token. Tokenizzazione è il processo di spezzare dati testuali complessi in unità più piccole e gestibili, come parole, frasi o segni di punteggiatura. In questo modo, i computer possono elaborare il linguaggio in modo più efficiente, estraendo significato dal testo e non limitandosi a contare i caratteri.

Dalla certezza all’ambiguità: la programmazione tradizionale gestisce dati chiari e prevedibili, mentre l’NLP si occupa dell’interpretazione di parole con più significati e linguaggio dipendente dal contesto.

Da strutturato a non strutturato: a differenza di database e algoritmi strutturati, l’NLP gestisce testi in linguaggio naturale liberi e fluidi.

Che cos’è un Token? Perché convertire il testo in Token?

Immagina un’applicazione tipica dell’AI generativa: la sintesi rapida. Non abbiamo bisogno di scorrere parola per parola, possiamo capire rapidamente le informazioni chiave. I Token sono fondamentali per aiutare i computer a “comprendere” e gestire grandi quantità di testi.

Cos’è un Token?

Nel Natural Language Processing, il Token si riferisce generalmente a segmenti significativi di testo. Questi segmenti possono essere parole, frasi o segni di punteggiatura, come negli esempi presentati anteriormente.

Perché convertire in Token?

Convertire il testo in Token è come spezzare un complesso rapporto commerciale in parti chiave o estrarre punti salienti da un’email. Questa scomposizione permette ai computer di elaborare e analizzare la lingua in modo più efficace, svolgendo compiti come cercare informazioni chiave, tradurre automaticamente o analizzare il sentiment.

Ad esempio, nel caso in cui un ristorante abbia aperto una catena di negozi su Meituan e desideri analizzare le recensioni dei clienti per migliorare i prodotti, suddividere i commenti in Token può aiutare a identificare problemi comuni o punti di critica.

Sembra che i Token siano solo parole, ma qual è la situazione reale?

Differenze e relazioni tra Token, caratteri e parole.

	Definizione	Caratteristiche	Esempi
Carattere	Elemento base che compone il testo	Non sempre esprime un significato completo da solo; può formare vocaboli assieme ad altri caratteri.	happy
Parola	Formata da caratteri, esprime un significato specifico	Unità base di comunicazione, più ricca di informazioni rispetto a un singolo carattere.	I’m happy
Token	Spesso corrisponde a parole, ma più flessibile; può essere frasi, segni di punteggiatura, radici, prefissi, ecc.	La definizione di Token dipende dall’uso, come nell’analisi del testo, traduzione automatica, ecc.	`I`, `'m`, `happy`

Fino a questo punto, inizia a chiarirsi che la comprensione di questo problema dipende in gran parte dalla nostra conoscenza del linguaggio stesso.

Sebbene caratteri, parole e Token possano tecnicamente differire, sono strettamente correlati nell’elaborazione del testo. I caratteri costituiscono la base per formare parole, mentre le parole sono gli elementi che compongono i Token. Nell’applicazione pratica, l’identificazione e l’uso dei Token dipendono dalla comprensione di caratteri e parole.

Ad esempio, se vogliamo analizzare un rapporto sulle tendenze del mercato, attraverso la Tokenizzazione possiamo rapidamente rilevare parole chiave (come “crescita”, “rischi”, “opportunità”) e aiutare i dirigenti a cogliere rapidamente i contenuti centrali del rapporto.

In generale, i Token aiutano i computer a elaborare e “comprendere” il testo, rendendo possibile l’automazione del trattamento testuale e supportando le aziende nel prendere decisioni basate sui dati.

Ma come vengono generati e trattati i Token? È qui che dobbiamo adottare una mentalità al di là della programmazione tradizionale.

Generazione e trattamento dei Token

Come vengono generati i Token? Processo specifico di conversione del testo in Token.

  graph LR
  A[Processo di gestione del testo]
  A1[Pre-elaborazione]
  A2[Segmentazione]
  A3[Tokenizzazione]
  A4[Post-elaborazione]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[Rimozione di caratteri non pertinenti]
  B1 --> B1a[come il codice HTML]
  
  A1 --> B2[Normalizzazione del testo]
  B2 --> B2a[Uniformare maiuscole e minuscole]
  B2 --> B2b[Conversione da cinese tradizionale a semplificato]

  A1 --> B3[Rimozione di parole comuni]
  B3 --> B3a[come "的", "了", ecc.]

  A2 --> C1[Segmentazione in inglese]
  C1 --> C1a[Basata su spazi e punteggiatura]

  A2 --> C2[Segmentazione in cinese]
  C2 --> C2a[Algoritmi per identificare i confini delle parole]

  A3 --> D1[Unione dei vocaboli]
  D1 --> D1a[come i nomi propri "New York"]
  D1 --> D2[Identificazione di frasi o espressioni fisse]
  D1 --> D3[Considerare i segni di punteggiatura come Token indipendenti]

  A4 --> E1[Marcatura delle parti del discorso]
  A4 --> E2[Marcatura dei ruoli semantici]

I vari modelli differiscono nei passaggi che seguono; per semplificare la comprensione, ecco alcuni passaggi. Nell’estrazione del valore dai dati accumulati durante l’informatizzazione aziendale, dobbiamo considerare la priorità del valore dei dati e fare valutazioni appropriate in base ai costi di trattamento dei dati.

Ad esempio

Generazione di Token

Pre-elaborazione

Bene, ecco un esempio di testo contenente una miscela di cinese, inglese e numeri, oltre ad alcuni elementi da pre-elaborare:

Nel 2024, la tecnologia AI progredisce rapidamente. Ad esempio, OpenAI ha lanciato il modello GPT-4o, che non solo è potente, ma presenta anche notevoli progressi nel trattamento del <code>linguaggio naturale</code>. Tuttavia, dobbiamo rimuovere alcuni termini comuni ma privi di contenuto informativo, come "的", "了", ecc. Per ulteriori dettagli su queste tecnologie, si prega di visitare il nostro sito web

Rimozione di caratteri superflui:
- Elimina i tag di codice HTML come <code> e </code>, che generalmente non contengono informazioni utili nel testo.
Normalizzazione del testo:
- Converti tutti i caratteri in minuscolo per eliminare le differenze tra maiuscole e minuscole, ad esempio “OpenAI” diventa “openai”.
- Converti i caratteri tradizionali in caratteri semplificati, se il testo contiene caratteri tradizionali come “發展” convertito in “发展”.
Rimozione delle parole comuni:
- Identifica e rimuovi vocaboli comuni che di solito non portano informazioni importanti, come “的”, “了”, ecc.

Dopo questi passaggi di pre-elaborazione, il testo sarà più normalizzato e più facile da segmentare e trattare efficacemente per i Token, migliorando l’accuratezza e l’efficienza delle successive attività analitiche.

Nel 2024, la tecnologia AI progredisce rapidamente. Ad esempio, OpenAI ha lanciato il modello GPT-4o, che non solo è potente, ma presenta anche progressi notevoli nel trattamento del linguaggio naturale. Tuttavia, dobbiamo rimuovere alcune parole comuni ma prive di contenuto informativo, come "", "" ecc. Per ulteriori dettagli su queste tecnologie, si prega di visitare il nostro sito web

Segmentazione

Segmentazione, come suggerisce il nome, consiste nel suddividere le parole all’interno di una frase per facilitare il trattamento ulteriore. Attualmente abbiamo una serie di perle e dobbiamo trovare il punto giusto da cui tagliare.

Come segmentiamo? Naturalmente, potremmo pensare di utilizzare un dizionario. Questo metodo è stato storicamente utilizzato. Già dopo la segmentazione, potrebbe apparire così:

1
2

Nel / 2024 / , / la / tecnologia / AI / progredisce / rapidamente / . / Ad / esempio / , / OpenAI / ha / lanciato / il / modello / GPT-4o / , / che / non / solo / è / potente / , / ma / presenta / anche / notevoli / progressi / nel / trattamento / del / linguaggio / naturale / . / Tuttavia / , / dobbiamo / rimuovere / alcune / parole / comuni / ma / prive / di / contenuto / informativo / , / come / " " / , / " " / ecc. / Per / ulteriori / dettagli / su / queste / tecnologie / , / si / prega / di / visitare / il / nostro / sito / web

Tuttavia, nella pratica, la segmentazione ha diversi contenuti. In generale, ci sono alcuni approcci:

Determinazione dei confini delle parole:
- Per le lingue come l’inglese che utilizzano spazi per separare le parole, questo è relativamente semplice; basta leggere l’inglese e possiamo facilmente capire dove una parola finisce e l’altra inizia.
- Per lingue come il cinese, la questione è molto più complicata perché la scrittura cinese è continua senza spazi evidenti. Qui è necessario utilizzare altri metodi per determinare quali caratteri dovrebbero formare un’espressione significativa.
Utilizzo di dizionari e regole:
- Approccio basato su dizionari: simile a consultare un dizionario, cerchiamo e abbiniamo il vocabolario del testo attraverso un ampio elenco. Questo metodo è semplice ma limitato, perché nuove parole o termini rari potrebbero non essere presenti nel dizionario.
- Approccio basato su regole: questo metodo utilizza regole specifiche per determinare le relazioni tra caratteri, come le informazioni grammaticali e di contesto, per identificare se dovrebbero formare una parola.
Metodi statistici e di apprendimento:
- Utilizziamo dati statistici per apprendere quali caratteri o lettere compaiono insieme. Questo approccio cerca di analizzare grandi volumi di dati testuali per apprendere e prevedere i confini delle parole.
Metodi misti:
- In applicazioni pratiche, di solito combina diversi metodi per migliorare la precisione e l’usabilità della segmentazione.

In sintesi:

Inglese: segmentazione basata su spazi e punteggiatura.
Cinese: utilizzo di algoritmi per identificare i confini delle parole.

Un componente eccellente per la segmentazione cinese è Jieba, anche se non è stato aggiornato da 4 anni.

La logica di segmentazione tradizionale non considera molto il significato delle parole nel contesto specifico. Vediamo un esempio:

1 2	Perché/ sempre/ chiami Perché/ davvero/ sempre chiami

总 è un nome di persona, 为何 è un’unica parola. L’ambiguità è affascinante!

Dopo la segmentazione, possiamo procedere con la Tokenizzazione.

Tokenizzazione

La Tokenizzazione è un passaggio chiave nel trattamento dei dati testuali, basato sulla segmentazione che affina e tratta ulteriormente le unità testuali per adattarle meglio alle esigenze analitiche. Qui spiegheremo il processo di Tokenizzazione utilizzando il testo fornito.

Unione di nomi propri e frasi specifiche:
- Trattiamo “OpenAI” e “GPT-4o” come Token separati perché sono nomi propri dotati di un significato autonomo.
- “Lingua naturale” dovrebbe essere considerato un unico Token poiché è un termine tecnico fisso.
Segni di punteggiatura come Token indipendenti:
- Segni di punteggiatura come virgole (，), punti (.) e virgolette (“”) vengono considerati Token indipendenti, poiché svolgono un ruolo grammaticale e strutturale nel testo.
Gestione dei segni di citazione:
- Gli spazi all’interno di virgolette vuote devono essere considerati come Token non significativi da rimuovere.

Risultato dopo la Tokenizzazione

Nel / 2024 / , / la / tecnologia / AI / progredisce / rapidamente / . / Ad / esempio / , / OpenAI / ha / lanciato / il / modello / GPT-4o / , / che / non / solo / è / potente / , / ma / presenta / anche / notevoli / progressi / nel / trattamento / del / linguaggio / naturale / . / Tuttavia / , / dobbiamo / rimuovere / alcune / parole / comuni / ma / prive / di / contenuto / informativo / , / come / , / ecc. / Per / ulteriori / dettagli / su / queste / tecnologie / , / si / prega / di / visitare / il / nostro / sito / web

Questo risultato elaborato è più compatto, significativo e adatto per i successivi compiti di NLP, come analisi testuale e analisi del sentiment. Attraverso una corretta Tokenizzazione, possiamo catturare in modo più efficace le caratteristiche semantiche e strutturali del testo, costituendo una base per una comprensione e analisi testuale approfondita.

Vale la pena notare che la Tokenizzazione è strettamente correlata ma distinta dalla vettorializzazione, poiché la vettorializzazione convertirà questi contenuti in numeri, di cui parleremo successivamente.

Il ruolo del vocabolario nella generazione dei Token.

Dalla precedente analisi, comprendiamo l’importanza del vocabolario nella generazione dei Token.

Identificazione dei confini, garanzia della coerenza, compressione delle informazioni, aumento della velocità di elaborazione, mantenimento del significato:

Man mano che i vocabolari vengono mantenuti e aggiornati, possiamo continuamente ottimizzare il processo di generazione dei Token, adattandoci ai cambiamenti linguistici e all’emergere di nuove parole, migliorando così l’adattabilità e la precisione dell’intero sistema.

Gestione dei caratteri speciali (come la punteggiatura e gli spazi).

Nella generazione dei Token, la gestione dei caratteri speciali è una questione di particolare attenzione. Caratteri speciali come punteggiatura e spazi spesso portano importanti funzioni strutturali e semantiche nel testo:

Punteggiatura: la punteggiatura è usata per segnare la struttura delle frasi, come il punto finale (.) o la virgola (,) usata per separare elementi di una lista o proposizioni subordinate, o le virgolette (“”) per segnare citazioni dirette nel testo. Quando si tratta di Tokenizzazione, la punteggiatura è generalmente considerata un Token indipendente, poiché può influenzare il tono e la struttura di una frase e, talvolta, cambiare il significato della frase.
Spazi: nelle lingue come l’inglese e altre che utilizzano l’alfabeto latino, gli spazi sono il principale mezzo di separazione delle parole. Durante la Tokenizzazione, gli spazi non vengono generalmente mantenuti come Token, ma la loro presenza è cruciale per determinare i confini delle parole. Tuttavia, in alcune formattazioni testuali, gli spazi possono essere utilizzati per motivi estetici e in questi casi è necessario decidere in base al contesto come gestirli.
Caratteri di formattazione speciale: come il tabulatore (Tab) o il carattere di nuova riga (\n) svolgono un ruolo nel controllo del formato del testo. Questi caratteri possono necessitare di essere ignorati o trattati in modo speciale, ad esempio quando si gestiscono file di testo semplice.

Una corretta gestione di questi caratteri speciali è un elemento chiave per garantire una corretta Tokenizzazione del testo, poiché le strategie di trattamento influiscono direttamente sulla qualità delle analisi testuali successive e delle relative applicazioni. Quando si progettano sistemi NLP, è necessario considerare attentamente la logica di trattamento di questi caratteri per adattarsi alle necessità delle varie applicazioni e alle caratteristiche dei dati.

Dai contenuti precedenti, possiamo comprendere che ci sono differenze nel trattamento dei Token tra lingue diverse, e tali differenze ci aiutano a capire meglio.

La diversità e l’adattabilità dei Token

Metodi di Tokenizzazione in lingue diverse

Le differenze strutturali e grammaticali tra le lingue richiedono che i metodi di Tokenizzazione possiedano un’elevata adattabilità e flessibilità. Ad esempio:

Inglese e altre lingue dell’Europa occidentale: queste lingue utilizzano solitamente spazi come separatori tra le parole, rendendo la Tokenizzazione relativamente diretta. Ad esempio, la frase “The quick brown fox” può essere facilmente separata in “The”, “quick”, “brown”, “fox” tramite uno spazio.
Cinese, giapponese e coreano: queste lingue non hanno separatori chiari tra le parole, rendendo la Tokenizzazione più complessa. Il cinese potrebbe richiedere l’uso di dizionari o modelli statistici per identificare quali caratteri si combinano per formare parole significative. Ad esempio, “快速发展” deve essere riconosciuto nel suo insieme come un unico Token, piuttosto che come le parole “快速” e “发展”.
Arabo e ebraico: queste lingue, che si scrivono da destra a sinistra, presentano sfide speciali nella Tokenizzazione, poiché è necessario considerare la direzione di scrittura delle lettere e le lettere congiunte.

Comprendere queste differenze è fondamentale per trattare i dati multilingue nelle operazioni globali, ottimizzare interfacce e contenuti multilingue e migliorare l’esperienza degli utenti e l’espansione del mercato.

Come vengono determinati la dimensione e la granularità dei Token?

La dimensione e la granularità dei Token dipendono dalle esigenze specifiche dell’applicazione e dalla profondità di elaborazione prevista:

Token a granulazione fine: normalmente utilizzati in scenari che richiedono una profonda comprensione del linguaggio, come analisi del sentiment o ricerca semantica. Ad esempio, la ulteriore scomposizione di parole composte può aiutare i modelli a cogliere in modo più dettagliato le sfumature significative del linguaggio.
Token a granulazione grossa: adatti a scenari che richiedono l’elaborazione rapida di grandi volumi di dati testuali, come classificazione di documenti o estrazione preliminare di parole chiave. La Tokenizzazione a granulazione grossa riduce la complessità di elaborazione e i requisiti di calcolo.

Determinare la granularità dei Token di solito comporta un compromesso tra velocità di elaborazione e precisione semantica. La comprensione di questo punto da parte dei dirigenti permette di prendere decisioni più informate durante l’implementazione di progetti AI e scegliere le tecnologie e gli strumenti appropriati per soddisfare le esigenze aziendali.

Comprendere i metodi di Tokenizzazione in diverse lingue e i principi di determinazione della dimensione e granularità dei Token può aiutarti a:

Valutare meglio i progetti AI: comprendere la complessità e le sfide della Tokenizzazione consente di prendere decisioni più informate durante l’acquisto o lo sviluppo di soluzioni AI correlate.

Ottimizzare le operazioni globali: la capacità di adattarsi alla Tokenizzazione in ambienti multilingui è cruciale per il successo delle attività globali, migliorando la comunicazione e l’interazione cross culturali.

Aumentare l’efficienza dell’elaborazione dei dati: scegliere la giusta granularità per i Token può ottimizzare l’efficienza e i costi di elaborazione dei dati, in conformità con le esigenze aziendali.

E quali sono le implicazioni dei Token per le prestazioni del modello?

Token e prestazioni dei modelli di AI

La strategia dei Token influisce in certa misura sullo spazio contestuale dei grandi modelli di AI. Quando dialoghiamo con un’AI, ci sono numerosi scambi di informazioni; se questi contenuti sono troppi, l’AI dimenticherà le informazioni precedenti. Questo può essere visto come un limite contestuale. Qui ci sono i limiti contestuali di un modello di linguaggio dell’anno scorso.

src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

Questi dati sono dell’anno scorso, e qui ci sono i grafici di Gemini.

src: https://beebom.com/gemini-1-5-pro-announced/

Kimi, in territorio nazionale, può elaborare file PDF di 100M; la dimensione dello spazio contestuale è diventata un importante punto di marketing. Qual è l’impatto?

Attualmente, nel contesto della legge di scaling, diverse strategie di Token rientrano nell’ambito della regolazione degli algoritmi di base, ossia le ottimizzazioni delle strategie di Token non sono efficaci come l’acquisto di ulteriori GPU.

Impatto dei Token sulle prestazioni del modello

  sequenceDiagram

participant U as Utente

participant I as Elaborazione input

participant M as Calcolo modello

participant S as Sistema di memorizzazione

  

U->>+I: Storia del dialogo in input (numero di Token)

I->>+M: Analisi dei Token e preparazione dei dati

M->>+M: Calcolo dell'auto attenzione

Note over M: Calcola la relazione di ogni Token con gli altri Token

M->>+S: Richiesta di memoria aggiuntiva

Note over S: Aumento della allocazione della memoria in base al numero dei Token

S-->>-M: Conferma dell'allocazione della memoria

M->>M: Continuazione del calcolo della risposta

M-->>-I: Restituzione della risposta generata

I-->>-U: Visualizzazione della risposta

Come influisce il numero di Token sulla complessità computazionale e sul consumo di memoria del modello?

Nei modelli di AI generativa, come GPT-4 o altri basati su Transformer, il numero di Token è direttamente correlato alla complessità computazionale e al consumo di memoria del modello. Aggiungendo un Token, il modello deve gestire più punti di dati, il che aumenta il carico computazionale durante l’addestramento e l’inferenza e richiede più memoria. Ad esempio, durante l’addestramento di un modello linguistico, è necessario memorizzare e calcolare la relazione di ciascun Token con tutti gli altri Token, il che è particolarmente evidente nei meccanismi di auto attenzione del modello.

Esempio: Considera un progetto di chatbot generativo. Se la storia del dialogo in input è troppo lunga (ovvero ha un numero elevato di Token), il modello potrebbe risultare più lento nella generazione della risposta e consumare più risorse. Ad esempio, una storia di dialogo con migliaia di Token potrebbe portare a un significativo rallentamento del processamento, soprattutto su dispositivi con risorse limitate.

Una comprensione intuitiva di questo è che le aziende dei grandi modelli non tendono a espandere la capacità per ragioni pratiche. Maggiore non significa necessariamente migliore.

Maggiore numero di Token significa prestazioni migliori del modello?

Non è sempre vero che un numero maggiore di Token corrisponda a una prestazione migliore del modello. Nell’AI generativa, è possibile utilizzare un numero appropriato di Token per aiutare il modello a cogliere e comprendere il contesto in modo più accurato, aumentando così la rilevanza e l’accuratezza dei contenuti generati. Tuttavia, troppi Token possono introdurre informazioni irrilevanti, riducendo l’efficienza e la qualità dell’output del modello.

Esempio: in un sistema di AI che genera rapporti di mercato, una precisa suddivisione dei Token può garantire che le informazioni importanti vengano elaborate in modo prominente, anziché sommerse da dettagli non necessari. Ad esempio, se il sistema deve generare riassunti concisi da un gran numero di notizie economiche, un numero eccessivo di Token potrebbe portare a rapporti disordinati e a una difficoltà nell’evidenziare le informazioni centrali.

Le aziende dei grandi modelli che gestiscono file di grandi dimensioni potrebbero adottare approcci simili a quelli dei servizi cloud: A carica un file, quando B carica, non lo analizzerà di nuovo ma utilizzerà il risultato dell’analisi effettuata da A. Con l’aumento del contenuto, si forma così un proprio vantaggio competitivo.

Ottimizzazione dell’utilizzo dei Token

Come trovare un punto d’equilibrio tra numero di Token e prestazioni del modello?

La strategia dei Token qui si riferisce in particolare alle strategie degli utenti comuni nell’uso dei Prompt, adattando le strategie per risultati più in linea con le nostre aspettative.

Identificare il miglior punto d’equilibrio tra il numero di Token e le prestazioni del modello è la chiave per garantire che i modelli di AI generativa siano sia efficaci che precisi. Ciò richiede solitamente un processo di tentativi ed errori e l’uso di tecniche avanzate di ottimizzazione del modello.

Esempio: in un sistema di generazione automatica di contenuti, trovare un bilanciamento nell’utilizzo dei Token è una sfida tipica. Il sistema potrebbe dover estrarre informazioni chiave da un testo ampio per generare riassunti. In questo contesto, scegliere una quantità adeguata di Token per conservare un volume sufficiente di informazioni, evitando una struttura del modello eccessivamente complessa, è essenziale.

Relazione tra Token e finestra contestuale e come influiscono sulla qualità della generazione del testo.

Nell’AI generativa, la configurazione di Token e della finestra contestuale influisce direttamente sulla coerenza logica e sulla natura dei testi generati. Maggiore è la finestra contestuale, maggiori sono le informazioni storiche che il modello può considerare durante la generazione del testo, portando a una produzione di testi più coesi e naturali.

Esempio: supponi di utilizzare un modello AI per generare un articolo su un blog tecnico. Se la finestra contestuale è impostata troppo piccola, il modello potrebbe avere difficoltà a collegare le diverse parti dell’articolo, causando rotture logiche nel contenuto generato. Ottimizzando l’uso dei Token e regolando le dimensioni della finestra contestuale, possiamo migliorare significativamente la qualità e la leggibilità dell’articolo.

Entriamo ora nella questione commerciale, per le applicazioni, vogliamo che l’esperienza dell’utente sia buona, ma dobbiamo anche considerare i costi.

Applicazioni commerciali dei Token e modelli di fatturazione

Diamo un’occhiata a una tabella che mostra le attuali strutture di fatturazione dei grandi modelli.

In generale, quando utilizziamo modelli di linguaggio, possiamo distinguerne due modalità: la conversazione sul web e la chiamata tramite API. Utilizzare OpenAI sul web generalmente ha costi fissi di circa 20 dollari al mese. Tuttavia, per le chiamate API, le spese possono variare enormemente.

È come un gioco di gatto e topo; anche con ChatGPT Plus ci sono limiti sul numero di interazioni in un arco di tempo. Molti tentano di utilizzare metodi come i web scraper per accedere a ChatGPT senza utilizzare l’API; tali codici open-source sono stati virtualmente eliminati!

In passato, la logica di fatturazione delle telecomunicazioni era basata sulla durata; era anch’essa una fase di elevati profitti. Successivamente è stata introdotta la fatturazione mensile, e ora il modello di fatturazione basato sui Token presenta somiglianze.

Logica di fatturazione dei Token

Perché utilizzare la fatturazione in Token? La sua ragionevolezza e il modello commerciale.

Il modello di fatturazione basato sui Token è molto comune nei servizi di AI, specialmente per l’uso di modelli di linguaggio forniti da OpenAI e simili. Questo modello di fatturazione si basa sull’uso concreto che un utente fa del servizio, ovvero sul numero di Token elaborati in ogni richiesta.

Ragionevolezza:
Il modello di fatturazione con i Token è ragionevole poiché riflette in modo preciso il consumo effettivo delle risorse da parte dell’utente. Ogni Token rappresenta un’unità di informazione che il modello deve elaborare; un numero maggiore di Token significa un aumento del consumo di risorse computazionali. Pertanto, questo sistema di fatturazione garantisce che gli utenti paghino in base al loro utilizzo effettivo, incentivando a ottimizzare gli input e ad evitare sprechi inutili.

Modello commerciale:
Da un punto di vista commerciale, il modello di fatturazione basato sui Token offre ai fornitori di servizi di AI un quadro di fatturazione flessibile e equo. Consente ai fornitori di stabilire diversi livelli di prezzo in base al carico di sistema e ai costi operativi, coinvolgendo così una clientela diversificata che va da piccole startup a grandi aziende.

Confronto tra la fatturazione in Token e altri modelli di fatturazione (come per numero di parole, caratteri o tempo)

Rispetto ad altri modelli di fatturazione comuni, il modello basato sui Token ha vantaggi e limiti unici:

Fatturazione basata su parole e caratteri: Questi metodi di fatturazione sono chiari e semplici, facili da comprendere e pianificare. Tuttavia, spesso non considerano la complessità del trattamento e l’uso effettivo delle risorse computazionali. Ad esempio, elaborare una lunga frase contenente un vocabolario semplice potrebbe richiedere meno sforzi rispetto al trattamento di termini tecnici, ma il costo basato sul numero di parole potrebbe risultare più elevato.
Fatturazione basata sul tempo: i modelli di fatturazione temporale (come per minuti o ore) si adattano a servizi continuativi, come l’elaborazione di dati in streaming o l’apprendimento online. Tuttavia, per compiti brevi basati su richieste, questo sistema potrebbe comportare costi imprecisi o non equi.

  graph TD;
    A[Fatturazione basata sui Token] -->|Riflette il reale consumo di risorse| B[Distribuzione equa delle risorse];
    A -->|Ottimizzazione dell'efficienza degli input| C[Incoraggiamento alla semplificazione degli input];
    D[Fatturazione basata su parole/caratteri] -->|Chiara e semplice| E[Facile da comprendere e pianificare];
    D -->|Non considera la complessità| F[Può causare costi imprecisi];
    G[Fatturazione basata su tempo] -->|Adatto a servizi continuativi| H[Elaborazione di flussi di dati/apprendimento online];
    G -->|Non adatto a compiti brevi| I[Può causare costi iniqui];

La fatturazione in Token offre una misura più dettagliata e riflette in modo più equo il consumo reale delle risorse da parte degli utenti.

I costi delle aziende dei grandi modelli, grossolanamente, possono includere:

Costi di ricerca e sviluppo (personale + esperimenti)

Costi di addestramento (risorse computazionali + trattamento dei dati)

Costi di distribuzione (infrastruttura + costi di memorizzazione)

Costi di manutenzione e aggiornamento

Costi di conformità etica (sicurezza dei dati, conformità dei dati)
Questi costi, apparentemente, gravano su un modello di fatturazione basato su Token, ma solo esperti del settore possono fare una valutazione realistica. Probabilmente è il sistema di valutazione più appropriato di questo periodo.

Effetti pratici della fatturazione basata sui Token

L’impatto dei diversi metodi di fatturazione su utenti e sviluppatori.

Il modello di fatturazione in Token implica che gli utenti debbano gestire con maggiore attenzione le richieste API, per controllare i costi. Gli sviluppatori devono progettare query efficienti, riducendo l’uso di Token ridondanti, massimizzando così il valore di ogni richiesta. Questo metodo di fatturazione incoraggia gli sviluppatori a ottimizzare i flussi di input e di trattamento dei dati, ma potrebbe anche aumentare la complessità dello sviluppo e i lavori di ottimizzazione iniziali.

Per i fornitori, la fatturazione in Token può aiutare a bilanciare il carico sui server, prevedere le entrate e ottimizzare la distribuzione delle risorse. Può anche fornire feedback per ottimizzare il prodotto e i piani di prezzo, aiutando a soddisfare meglio le domande di mercato.

Come ottimizzare l’uso dei Token per ridurre i costi?

Ottimizzare l’uso dei Token è fondamentale per controllare i costi. Ciò può essere realizzato con i seguenti metodi:

Semplificare i dati in ingresso: prima di inviare una richiesta, rimuovere il testo non necessario e i dati ridondanti, mantenendo solo le informazioni chiave.
Utilizzare design di query efficienti: progettare query ben concepite, evitando richieste complesse o eccessivamente dettagliate.
Sfruttare strategie di caching: usare risultati memorizzati per richieste comuni o ripetute, riducendo le interrogazioni ai servizi backend.
Monitorare e analizzare: analizzare periodicamente i dati sui consumi di Token, identificando punti di ottimizzazione e regolando le strategie per ridurre gli sprechi.

Attraverso questi metodi, non solo è possibile ridurre i costi, ma anche migliorare la velocità di risposta del sistema e la soddisfazione degli utenti, garantendo un vantaggio competitivo in un mercato sempre più agguerrito.

Il valore commerciale e i casi d’uso dei Token

Applicazioni pratiche dei Token nell’azienda

Nelle operazioni aziendali, l’applicazione della tecnologia di Tokenizzazione può migliorare significativamente l’efficienza del trattamento dei dati e la qualità delle decisioni. Per i dirigenti non tecnici, comprendere l’uso dei Token può aiutarli a valutare meglio gli investimenti tecnologici e stimolare l’innovazione aziendale.

  graph LR;
    A[Prospettiva tecnica: ruolo dei Token nell'NLP] 
    B[Prospettiva commerciale: ruolo dei Token nel migliorare il valore aziendale]
    
    A --> A1[Estrazione delle informazioni\nRapida estrazione delle informazioni chiave]
    A --> A2[Analisi del sentiment\nRiconoscimento delle emozioni dei clienti]
    A --> A3[Riassunto automatico\nGenerazione di riassunti documentali]
    
    B --> B1[Miglioramento delle interazioni con i clienti\nServizio clienti 24 ore su 24, 7 giorni su 7]
    B --> B2[Analisi di mercato\nAcquisizione di informazioni sulle tendenze]
    B --> B3[Raccomandazioni personalizzate\nAumento delle vendite]
    
    style A fill:#8ecae6,stroke:#333,stroke-width:4px
    style B fill:#90be6d,stroke:#333,stroke-width:4px
    style A1 fill:#219ebc,stroke:#333,stroke-width:2px
    style A2 fill:#219ebc,stroke:#333,stroke-width:2px
    style A3 fill:#219ebc,stroke:#333,stroke-width:2px
    style B1 fill:#ffb703,stroke:#333,stroke-width:2px
    style B2 fill:#ffb703,stroke:#333,stroke-width:2px
    style B3 fill:#ffb703,stroke:#333,stroke-width:2px

Prospettiva tecnica: ruolo dei Token nell’NLP

La Tokenizzazione è il processo di scomposizione dei dati testuali complessi in unità gestibili, che permette ai sistemi AI di analizzare e trattare i dati in modo efficace. Questo processo è particolarmente cruciale nell’elaborazione del linguaggio naturale (NLP), poiché consente alle macchine di “comprendere” il linguaggio umano e di svolgere compiti come:

Estrazione delle informazioni: la Tokenizzazione aiuta a estrarre rapidamente informazioni chiave da masse di testo, come estrarre clausole pertinenti da documenti legali.
Analisi del sentiment: analizzando i Token del feedback dei clienti, le aziende possono comprendere le emozioni dei clienti e quindi adattare i loro prodotti o servizi.
Riassunto automatico: la tecnologia di Tokenizzazione può generare automaticamente riassunti documentali, migliorando l’efficienza dei lavoratori della conoscenza.

Prospettiva commerciale: ruolo dei Token nel miglioramento del valore aziendale

Dal punto di vista commerciale, i Token non solo migliorano l’efficienza operativa, ma possono anche aprire nuove modalità e flussi di entrata:

Miglioramento delle interazioni con i clienti: ancorando l’uso della Tokenizzazione, i chatbot possono offrire servizio clienti 24 ore su 24 e 7 giorni su 7, aumentando la soddisfazione del cliente e riducendo i costi del servizio.
Analisi di mercato: l’elaborazione basata sui Token aiuta le aziende ad acquisire rapidamente informazioni sulle tendenze dai rapporti di mercato e guidare le decisioni strategiche.
Raccomandazioni personalizzate: sulle piattaforme di e-commerce, la tecnologia di Tokenizzazione consente di analizzare la cronologia degli acquisti e i comportamenti di navigazione degli utenti, offrendo raccomandazioni personalizzate sui prodotti e incrementando il volume delle transazioni.

Analisi di casi reali

Chatbot per il servizio clienti

Un’applicazione tipica è rappresentata dai chatbot di servizio clienti. Ad esempio, una grande azienda di telecomunicazioni ha implementato un chatbot basato su Tokenizzazione per gestire le domande degli utenti, come problemi di fatturazione o interruzioni del servizio. Il chatbot analizza rapidamente le domande degli utenti (già Tokenizzate), fornendo risposte corrette o indirizzando la richiesta all’ufficio competente.

Sistema di raccomandazione dei contenuti

Nel settore dei media e dell’intrattenimento, i sistemi di raccomandazione dei contenuti utilizzano la tecnologia di Tokenizzazione per analizzare le abitudini di visione o lettura degli utenti, raccomandando nuovi film, libri o articoli di cui potrebbero essere interessati. Ad esempio, il sistema di raccomandazione di Netflix analizza i Token delle descrizioni dei programmi precedentemente visualizzati per prevedere quali altri programmi potrebbero piacere agli utenti.

Valore commerciale e prospettive di applicazione dei Token

Nelle applicazioni aziendali, comprendere e utilizzare efficacemente i Token è cruciale per il successo dei progetti AI. Comprendere il valore commerciale e le sfide dei Token è fondamentale per pianificare strategie e guidare l’innovazione tecnologica.

Applicazioni commerciali dei Token

Prospettiva tecnica: ruolo dei Token

L’applicazione dei Token nell’elaborazione del linguaggio naturale (NLP) consente ai sistemi AI di gestire efficacemente le informazioni testuali. In breve, la Tokenizzazione è il processo di suddivisione di grandi blocchi di testo in unità di trattamento più piccole, che forniscono una base per i modelli di machine learning.

Elaborazione dei dati: durante l’elaborazione delle domande dei clienti, l’analisi dei feedback di mercato o la gestione di ampi documenti, la Tokenizzazione rende i dati complessi più facili da gestire e analizzare.
Aumento dell’efficienza: la Tokenizzazione consente ai modelli AI di rilevare rapidamente informazioni chiave, accelerando il processo decisionale e migliorando la velocità di risposta aziendale.

Prospettiva commerciale: valore economico dei Token

Dal punto di vista commerciale, i Token non sono solo una parte della realizzazione tecnologica; sono direttamente connessi a migliorare l’efficienza operativa, migliorare l’esperienza del cliente e sviluppare nuovi modelli di business.

Ottimizzazione del servizio clienti: i Token rendono possibile l’automazione del servizio clienti; i sistemi di risposta automatica possono gestire le richieste dei clienti in modo rapido e preciso, aumentando enormemente la soddisfazione del cliente e la fedeltà al marchio.
Marketing personalizzato: sfruttando la Tokenizzazione per analizzare i comportamenti e le preferenze degli utenti, le aziende possono offrire contenuti pubblicitari altamente personalizzati, aumentando il tasso di conversione delle vendite.

Prospettive future e sfide dei Token

Direzioni di sviluppo future

Con il progresso della tecnologia AI, è probabile che l’applicazione dei Token diventi sempre più intelligente e diversificata:

Applicazioni multimodali: la tecnologia dei Token non si limiterà più solo al trattamento del testo, ma si estenderà all’analisi di contenuti multimediali come video e audio, supportando una gamma più ampia di scenari applicativi.
Ottimizzazione intelligente: metodi di generazione e trattamento dei Token diventeranno più intelligenti, ad esempio, gli AI potrebbero regolare automaticamente la dimensione e il numero dei Token per soddisfare diverse esigenze aziendali.

Sfide e opportunità commerciali

Sicurezza dei dati e privacy: garantire la sicurezza dei dati e la privacy degli utenti durante il trattamento della Tokenizzazione sarà una delle principali sfide future, soprattutto nel caso di informazioni sensibili.
Integrazione tecnologica: come integrare la tecnologia dei Token con i sistemi IT esistenti e i processi aziendali è la chiave per portare a termine la conversione tecnologica.
Equità e interpretabilità: garantire che le decisioni AI ottenute tramite Tokenizzazione siano eque e trasparenti, aumentando la fiducia di tutte le parti interessate.

Conclusioni

Scrivendo questo articolo, Lin Miao ha fornito una nuova direzione (grazie), https://arxiv.org/abs/2104.12369, dando uno sguardo pratico al modello Pangu di Huawei; nello sviluppo dei Token nel settore cinese, sembra che ci tendi verso una direzione più ingegneristica, da osservare ulteriormente.

Sebbene la mia comprensione iniziale dei Token fosse limitata a considerare che un carattere cinese equivalga a 1 Token, e potessi confondere Token e vettorizzazione, ora capisco l’importanza della tokenizzazione che precede la vettorizzazione. Prepariamoci meglio per l’AI e abbracciamo il cambiamento; come possiamo utilizzare meglio i dati nei sistemi aziendali attuali? Possiamo iniziare da qui!