Introductie

Heb je gehoord dat AI kosten in rekening brengt per Token?
- Het gebruik ervan kost veel Tokens.
- Als je de computer ‘s nachts aan laat staan, verbruik je veel Tokens—is het alsof je een huis kwijt bent?
Waarom worden kosten berekend op basis van Tokens?
- Ik heb gehoord dat Tokens bidirectioneel zijn in de kosten.
- Vragen stellen aan AI kost geld, en antwoorden krijgen ook—dat lijkt een beetje overdreven, toch?
- Dan kan AI ook gewoon onnodige dingen gaan zeggen!
Is een Token een woord of een letter?
- Hoe worden Chinese karakters berekend?
- Hoe worden Arabische teksten berekend?
Wat betekent Token in het proces van informatietechnologie binnen bedrijven?
- Traditionele IT-bevindingen hebben gewoon een structuur en een database.
- Waarom zijn er bij AI-toepassingen problemen met Tokens?

Dit artikel probeert deze vragen te beantwoorden en te verduidelijken wat Tokens nu precies zijn. Het artikel is vrij lang, dus laten we er samen induiken.

In de geschiedenis van de computerontwikkeling zijn er vaak schokkende termen opgekomen die uiteindelijk in het dagelijks leven van gewone mensen zijn geïntegreerd, zoals het begrip ‘prompt’. Tokens zijn daar ook een voorbeeld van; het lijkt erop dat ze echt zijn doorgebroken.
Is het een goede methode van kostenberekening die door OpenAI is voorgesteld, waar veel bedrijven in de sector het zeer mee eens zijn? Of zijn er andere redenen?
Laten we beginnen met de oorsprong van Tokens.

In een zakelijke omgeving kan de toepassing van AI-technologie helpen kosten te verlagen en de efficiëntie te verhogen. Kennen van Tokens helpt ons beter te begrijpen hoe AI in bedrijven wordt toegepast. Om het eenvoudiger te maken, kunnen we het beschouwen als bouwstenen; door deze bouwstenen samen te voegen, kunnen we de toepassingen creëren die we nodig hebben om de efficiëntie te verbeteren.

Basis over Tokens

Basisconcept van Tokens

Laten we eens kijken naar de beschrijving van OpenAI over Tokens:

1 token ~= 4 Engelse karakters
1 token ~= ¾ van een woord
100 tokens ~= 75 woorden
of
1-2 zinnen ~= 30 tokens
1 alinea ~= 100 tokens
1.500 woorden ~= 2048 tokens

Wat voel je nu? Claustrofobisch? Wat maakt het nu anders dan dat oude verzinseltje van Confucius over het aantal schrijfwijzen van ‘hui’? Laten we eens kijken hoe het echt in elkaar zit:

Learning AI Meticulously, Sharing Knowledge Joyfully

Raad eens hoeveel Tokens deze zin bevat? Zes woorden, dus zes Tokens, toch? Helaas, dat is niet waar!

In ChatGPT 4 is het 10 Tokens. Aan de kleurblokken te zien, worden leestekens apart geteld en wordt ‘Joyfully’ gesplitst in ‘Joy’ en ‘fully’.

Van code naar conversatie: de noodzaak van Tokens

De basisstaal van computers bestaat uit de binaire codering van 0’s en 1’s; dit is de meest fundamentele uitdrukking van alle programma’s en data. Of het nu gaat om onze vaak gebruikte programmeertalen zoals Python of Java, of om verschillende multimedia-bestanden zoals afbeeldingen en video’s, alles wordt omgezet naar deze machinetaal. In de traditionele informatica hebben experts hun uiterste best gedaan om de complexiteit van de echte wereld te abstraheren door gedefinieerde datatypes, zoals strings (een reeks tekens) en integers (getallen), te gebruiken om informatie te verwerken. Deze methode is zeer effectief voor het omgaan met gestructureerde gegevens, zoals wiskundige berekeningen of databasequery’s.

Met de voortgang van de technologie en de toenemende vraag willen we echter dat computers niet alleen met cijfers en code omgaan, maar ook natuurlijke taal begrijpen en verwerken—de dagelijkse taal die wij als mensen gebruiken. Dit heeft geleid tot het domein van Natural Language Processing (NLP), dat is ontworpen om computers in staat te stellen menselijke taal te begrijpen, te interpreteren en te genereren.

Gezien de kenmerken van natuurlijke taal, zoals diversiteit, afhankelijkheid van context en ambiguïteit, zijn we niet langer bezig met simpele problemen zoals 1+1=2. We moeten nu begrijpen hoe we computers kunnen laten begrijpen wat zinnen als “Vandaag is het vrijdag, waar gaan we in het weekend naartoe? Thuis blijven en leren over AI?” betekenen, en verder de emotie analyseren of ze vertalen naar andere talen. In dit soort situaties zijn traditionele datatypes niet meer voldoende.

Dit is de reden waarom we het concept van Tokens nodig hebben. Tokenisatie is het proces waarbij complexe tekstdata wordt opgedeeld in kleinere, gemakkelijker door computers te verwerken eenheden, zoals woorden, zinnen of leestekens. Hierdoor kunnen computers de taal efficiënter verwerken en betekenis uit de teksten halen, in plaats van alleen het aantal tekens te tellen.

Van deterministisch naar vaagheid: Traditioneel programmeren gaat over het verwerken van duidelijke en voorspelbare gegevens, terwijl NLP te maken heeft met het interpreteren van meerdere betekenissen en contextgebonden taal.

Van gestructureerd naar ongestructureerd: In tegenstelling tot gestructureerde databases en algoritmen, heeft NLP te maken met vloeiende, vrije vormen van natuurlijke tekst.

Wat zijn Tokens? Waarom tekst omzetten in Tokens?

Stel je voor dat in de wereld van generatieve AI een zeer typisch toepassingsscenario is om snel samenvattingen te maken—we hoeven niet woord voor woord door te nemen om de belangrijkste informatie te begrijpen. Tokens spelen hierin een cruciale rol door computers te helpen tekst te “begrijpen” en een aanzienlijke hoeveelheid gegevens te verwerken.

Wat zijn Tokens?

In Natural Language Processing verwijst een Token doorgaans naar betekenisvolle segmenten in tekst. Deze segmenten kunnen woorden, zinnen of leestekens zijn, net als in de bovenstaande afbeelding.

Waarom omzetten naar Tokens?

Text omzetten in Tokens lijkt op het opdelen van een complexe reportage in zijn voornaamste onderdelen of het samenvatten van de inhoud van een e-mail. Deze opsplitsing helpt computers om de taal efficiënter te verwerken en analyseren, waardoor taken zoals het zoeken naar belangrijke informatie, automatische vertalingen of sentimentanalyse mogelijk zijn.

Bijvoorbeeld, stel je voor dat iemand een ketenwinkel opent op Meituan en klantrecensies wil analyseren om het product te verbeteren. Het opdelen van de recensies in Tokens kan helpen bij het identificeren van veelvoorkomende problemen of negatieve feedback.

Het lijkt misschien alsof Tokens woorden zijn, maar is dat werkelijk zo?

Verschillen en verband tussen Tokens, karakters en woorden.

	Definitie	Kenmerken	Voorbeeld
Karakter	Basis elementen van de tekst	Drukt niet noodzakelijkerwijs een volledige betekenis uit; kan met andere karakters samen woorden vormen.	happy
Woord	Bestaat uit karakters en drukt een bepaald betekenis uit	Is de basis eenheid voor informatieoverdracht en drukt rijkere informatie uit dan een enkel karakter.	I’m happy
Token	Komt meestal overeen met een woord maar is flexibeler; kan ook zinnen, leestekens, stamwoorden of voorvoegsels zijn.	De definitie van Tokens hangt af van hun gebruik, zoals tekstanalyse, machinevertaling, enz.	`I`, `'m`, `happy`

Hier hebben we een algemeen idee gekregen—deze materie is sterk afhankelijk van ons begrip van de taal zelf.

Hoewel karakters, woorden en Tokens technisch verschillend zijn, zijn ze nauw met elkaar verbonden in tekstverwerking. Karakters zijn de basis van woorden, terwijl woorden de elementen vormen waaruit Tokens bestaan. In de praktijk hangt het herkennen en gebruiken van Tokens af van ons begrip van karakters en woorden.

Bijvoorbeeld, als we een rapport over markttrends willen analyseren, kunnen we door Tokenisatie snel belangrijke zoekwoorden identificeren (zoals “groei”, “risico”, “kansen”), wat helpt om de executives in staat te stellen de kern van het rapport te begrijpen.

Samengevat, Tokens zijn een methode voor computers om tekst te verwerken en “begrijpen”, waardoor geautomatiseerde tekstverwerking mogelijk wordt, waardoor bedrijven taalinformatie effectiever kunnen gebruiken in data-gedreven besluitvormingsprocessen.

Hoe worden Tokens gegenereerd en verwerkt? Laten we dit vanuit een breder perspectief bekijken.

Genereren en verwerken van Tokens

Hoe worden Tokens gegenereerd? Het specifieke proces van het omzetten van tekst in Tokens.

  graph LR
  A[Proces van tekstverwerking]
  A1[Voorbewerking]
  A2[Woorden segmenteren]
  A3[Tokenisatie]
  A4[Na verwerking]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[Verwijder ongewenste karakters]
  B1 --> B1a[Zoals webpagina codes]
  
  A1 --> B2[Normaliseer tekst]
  B2 --> B2a[Standaardiseer hoofdletters]
  B2 --> B2b[Converteer van traditioneel naar vereenvoudigd]

  A1 --> B3[Verwijder stopwoorden]
  B3 --> B3a[Zoals "de", "en", enz.]

  A2 --> C1[Engelse woordsegmentatie]
  C1 --> C1a[Op basis van spaties en leestekens]

  A2 --> C2[Chinese woordsegmentatie]
  C2 --> C2a[Afhankelijk van algoritmes voor het identificeren van woordgrenzen]

  A3 --> D1[Combineer woorden]
  D1 --> D1a[Bijvoorbeeld naamwoorden zoals "New York"]
  D1 --> D2[Identificeer zinnen of vaste combinaties]
  D1 --> D3[Behandel leestekens als afzonderlijke Tokens]

  A4 --> E1[Woordsoortlabeling]
  A4 --> E2[Semantische labelgeving]

Verschillende modellen hebben variaties in hun aanpak; voor eenvoud zijn hier een paar stappen gepresenteerd. Bij het ontginnen van de gegevenswaarde in de informatieverwerking van bedrijven moeten we rekening houden met de prioriteit van gegevenswaarde, samen met de verwerkingskosten, om geschikte evaluaties te maken.

Bijvoorbeeld

Token generatie

Voorbewerking

Laten we zeggen dat we een voorbeeldtekst hebben die een mix is van Chinees, Engels en cijfers, met enkele elementen die voorbewerking vereisen:

In 2024 is AI-technologie snel ontwikkeld. Bijvoorbeeld, OpenAI heeft het GPT-4o model gelanceerd, dat niet alleen krachtig is, maar ook doorbraakprestaties heeft gegeven in de verwerking van <code>natuurlijke taal</code>. Maar we moeten enkele veelvoorkomende maar niet-informatieve stopwoorden verwijderen, zoals “de”, “was” enzovoorts. Voor details over deze technologieën, bezoek onze website

Verwijder overbodige karakters:
- Verwijder HTML-tags zoals <code> en </code>, die meestal geen nuttige informatie bevatten in de tekst.
Normaliseren van tekst:
- Zet alle Engelse karakters om naar kleine letters, zodat verschillen in hoofdletters geëlimineerd worden, bijvoorbeeld “OpenAI” wordt “openai”.
- Zet traditionele karakters om naar vereenvoudigde karakters, bijvoorbeeld “發展” naar “发展”.
Verwijder stopwoorden:
- Identificeer en verwijder veelvoorkomende woorden die doorgaans geen belangrijke informatie bevatten zoals “de”, “was”, enzovoorts.

Na deze voorbewerkingsstappen zal de tekst gestandaardiseerd zijn, wat de verdere segmentatie en tokenisatie vergemakkelijkt en de nauwkeurigheid en efficiëntie van latere analysetaken verbeterd.

In 2024 is AI-technologie snel ontwikkeld. Bijvoorbeeld, OpenAI heeft het GPT-4o model gelanceerd, dat niet alleen krachtig is, maar ook doorbraakprestaties heeft gegeven in de verwerking van natuurlijke taal. Maar we moeten enkele veelvoorkomende maar niet-informatieve stopwoorden verwijderen, zoals “”, “” enzovoorts. Voor details over deze technologieën, bezoek onze website

Woordsegmentatie

Woordsegmentatie is de techniek die woorden in een zin identificeert voor verdere verwerking. We hebben een string van kralen, en we moeten de juiste plekken vinden om af te knippen.

Hoe segmenteren we woorden? Een voor de hand liggende manier zou zijn om een woordenboek te gebruiken om het te vergelijken—dit is ook een historische methode geweest. Na segmentatie zou het er ongeveer zo uitzien:

In / 2024 / is / AI / technologie / snel / ontwikkeld / . / Bijvoorbeeld / , / OpenAI / heeft / het / GPT-4o / model / gelanceerd / , / dat / niet / alleen / krachtig / is / , / maar / ook / doorbraakprestaties / heeft / gegeven / in / de / verwerking / van / natuurlijke / taal / . / Maar / , / we / moeten / enkele / veelvoorkomende / maar / niet / informatieve / stopwoorden / verwijderen / , / zoals / “ ” / , / “ ” / enzovoorts / . / Voor / details / over / deze / technologieën / , / bezoek / onze / website

In werkelijkheid zijn er veel aspecten aan de woordsegmentatie. Kortom, hier zijn een paar benaderingen:

Bepalen van de grenzen van woorden:
- Voor talen zoals Engels, die spaties gebruiken, is dit relatief eenvoudig; zoals bij het lezen van Engels, kunnen we gemakkelijk herkennen waar een woord eindigt en een ander begint.
- Voor een taal zoals Chinees, die continu is geschreven zonder duidelijke spaties, is dit complexer. We moeten hier andere methoden gebruiken om te bepalen welke karakters samen een betekenisvolle woordgroep vormen.
Gebruik van woordenboeken en regels:
- Woordenboek-gebaseerde methode: Net als bij het raadplegen van een woordenboek, gebruiken we een grote lijst (woordenboek) om de woorden in de tekst te vinden en te matchen. Deze methode is eenvoudig maar heeft beperkingen, omdat nieuwe of minder gebruikelijke woorden mogelijk niet in het woordenboek staan.
- Regels-gebaseerde methode: Deze methode gebruikt specifieke regels om de relatie tussen karakters te bepalen, bijvoorbeeld grammatica en context, om te bepalen of ze samen een woord zouden moeten vormen.
Statistische en leermethoden:
- Gebruik van statistische gegevens om te leren welke karakters of letters doorgaans samenkomen. Deze methode leert en voorspelt de grenzen van woorden door talloze tekstgegevens te analyseren.
Gecombineerde benadering:
- In de praktijk worden meestal verschillende bovengenoemde methoden gecombineerd om de nauwkeurigheid en toepasbaarheid van de woordsegmentatie te verbeteren.

Samengevat:

Engels: Segmentatie op basis van spaties en leestekens.
Chinees: Gebruik van algoritmes om de grens van het woord te identificeren.

Een uitstekend component voor Chinese woordsegmentatie is Jieba, maar het is al vier jaar niet meer bijgewerkt.

De traditionele segmentatielogica houdt niet veel rekening met de betekenis van woorden binnen een specifieke context. Laten we een voorbeeld bekijken.

1 2	Waarom / altijd / een / call Jij / waarom / altijd / call

Waarom verwijst naar een persoon, waarom is een enkel woord. Deze heerlijke ambiguïteit is echt prachtig!

Na de segmentatie kunnen we beginnen met de tokenisatie.

Tokenisatie

Tokenisatie is een cruciale stap in het verwerken van tekstgegevens, waarin de tekstunits verder worden verfijnd en verwerkt om deze beter aan te passen aan de behoeften van latere verwerking en analyse. Laten we het proces van tokenisatie aan de hand van de aangeleverde tekst verder toelichten.

Combineer eigen namen en specifieke zinnen:
- Behandel “OpenAI” en “GPT-4o” als afzonderlijke Tokens, omdat dit eigen namen zijn met een zelfstandige betekenis.
- “Natuurlijke taal” als een vaste term ook als geheel Token beschouwen.
Leestekens als afzonderlijke Tokens:
- Leestekens zoals komma’s (,), punten (.) en aanhalingstekens (“”) moeten worden gezien als afzonderlijke Tokens, omdat ze syntactisch en structureel belangrijk zijn in de tekst.
Verwerking van aanhalingstekens:
- Ruimte binnen lege aanhalingstekens (bijvoorbeeld in “ ”) kan als een fout of een betekenisloos Token worden beschouwd en verwijderd.

Resultaten na Tokenisatie

In / 2024 / is / AI / technologie / snel / ontwikkeld / . / Bijvoorbeeld / , / OpenAI / heeft / het / GPT-4o / model / gelanceerd / , / dat / niet / alleen / krachtig / is / , / maar / ook / doorbraakprestaties / heeft / gegeven / in / de / verwerking / van / natuurlijke / taal / . / Maar / , / we / moeten / enkele / veelvoorkomende / maar / niet / informatieve / stopwoorden / verwijderen / , / zoals / , / enzovoorts / . / Voor / details / over / deze / technologieën / , / bezoek / onze / website

Dit verwerkte resultaat is compacter en betekenisvoller, en is beter geschikt voor latere NLP-taken zoals tekstanalyse en sentimentanalyse. Door een goede tokenisatie kunnen we beter de semantische en structurele kenmerken van de tekst vastleggen, wat de basis legt voor diepere tekstbegrip en analyse.

Het is belangrijk om te vermelden dat tokenisatie en vectorisatie nauw met elkaar verbonden maar toch verschillend zijn; vectorisatie is het omzetten van deze inhoud in numerieke waarden, wat later aan bod zal komen.

De rol van de woordenlijst bij de Token-generatie.

Door de eerdere analyses weten we dat de woordenlijst een grote rol speelt in het genereren van Tokens.

Grensherkenning, consistentiegarantie, informatiecompressie, versnelling van de verwerking, ondersteuning van semantiek:

Door de woordenlijst te onderhouden en bij te werken kunnen we het Token-generatieproces continu optimaliseren; zich aanpassen aan de veranderingen in taal en het ontstaan van nieuwe woorden, waardoor ons systeem als geheel nauwkeuriger en flexibeler wordt.

Behandeling van speciale tekens (zoals leestekens en spaties).

In het proces van Token-generatie is de behandeling van speciale tekens een belangrijk aandachtspunt. Speciale tekens zoals leestekens en spaties spelen vaak een belangrijke rol in de structuur en betekenis van tekst:

Leestekens: Leestekens worden doorgaans gebruikt om de structuur van zinnen aan te geven, zoals aan het einde van een zin met een punt (.), of om opsommingstekens of bijzinnen te scheiden met een komma (,), of om directe citaten met aanhalingstekens (“”) aan te duiden. Bij tokenisatie worden leestekens vaak beschouwd als aparte Tokens, omdat ze invloed hebben op de toon en structuur van de zin en soms zelfs de betekenis ervan kunnen veranderen.
Spaties: In het Engels en andere talen die het Latijns alfabet gebruiken, zijn spaties de belangrijkste manier om woorden te scheiden. Bij tokenisatie worden spaties meestal niet als Tokens bewaard, maar hun aanwezigheid is cruciaal voor het bepalen van de grenzen van woorden. In bepaalde geformatteerde tekst kan een spatie echter ook worden gebruikt voor visuele esthetiek; in dat geval moet het afhankelijk van de context worden behandeld.
Speciale opmaaktekens: Zoals tabbladen (Tab), nieuwe regels (\n) zijn ook belangrijk voor de opmaak van tekst. In sommige gevallen moet gesteld worden dat deze karakters genegeerd of speciaal behandeld moeten worden, bijvoorbeeld bij het verwerken van platte tekstbestanden.

Correcte behandeling van deze speciale karakters is een cruciaal onderdeel voor correcte tokenisatie in tekst. De behandelstrategieën hebben directe gevolgen voor de effectiviteit van latere tekstanalyses en toepassingen. Bij het ontwerpen van NLP-systemen is het noodzakelijk om de logica van behandeling van deze karakters zorgvuldig te overwegen, om te voldoen aan verschillende applicatiebehoeften en gegevenskenmerken.

Uit bovenstaande inhoud begrijpen we ook dat verschillende talen net iets anders omgaan met Tokens, en deze verschillen helpen ons beter te begrijpen.

De diversiteit en aanpasbaarheid van Tokens

Tokenisatie methoden in verschillende talen

De verschillende structuren en grammatica van talen vereisen dat tokenisatie-methoden een hoge mate van aanpasbaarheid en flexibiliteit hebben. Bijvoorbeeld:

Engels en andere West-Europese talen: Deze talen gebruiken doorgaans spaties als scheidingstekens tussen woorden, waardoor tokenisatie relatief eenvoudig is. Bijvoorbeeld, de zin “The quick brown fox” kan simpelweg op basis van spaties worden opgesplitst in “The”, “quick”, “brown”, “fox”.
Chinees, Japans en Koreaans: Deze talen hebben geen duidelijke scheidingstekens tussen woorden, waardoor tokenisatie complexer wordt. Chinees kan afhankelijk zijn van woordenboeken of op statistieken gebaseerde modellen om te erkennen welke karakters samen een betekenisvol woord vormen. Bijvoorbeeld, “快速发展” moet als één geheel worden herkend in plaats van als gescheiden “快速” en “发展”.
Arabisch en Hebreeuws: Deze van rechts naar links geschreven talen moeten bij tokenisatie niet alleen rekening houden met de schrijfwijze, maar ook met het samenvoegen van letters, wat speciale eisen aan de tokenisatie-algoritmes stelt.

Inzicht in deze verschillen helpt bedrijven wereldwijd om beter om te gaan met meertalige gegevens, en om meer gebruiksvriendelijke en aantrekkelijke interfaces te creëren die verbeterde gebruikerservaring en marktuitbreiding mogelijk maken.

Hoe wordt de grootte en granulariteit van Tokens bepaald?

De grootte en granulariteit van Tokens hangt af van de specifieke behoeften van de toepassing en het gewenste niveau van verwerking:

Fijne granulaire Tokens: Gewoonlijk toegepast in situaties waarin diepgaand taalbegrip vereist is, zoals bij sentimentanalyse of semantische zoekopdrachten. Het verder opsplitsen van samengestelde woorden kan modellen helpen subtiele wijzigingen in de betekenis van de taal nauwkeuriger vast te leggen.
Grove granulaire Tokens: Geschikt voor situaties waarin snel veel tekstdata moet worden verwerkt, zoals documentclassificatie of initiële sleutelwoordextractie. Grove granulariteit van tokenisatie vermindert de complexiteit van de verwerking en de vereisten van de berekeningen.

Het bepalen van de granulaire Tokens vereist gewoonlijk een afweging tussen verwerkingssnelheid en semantische precisie. Dit inzicht kan leidinggevenden helpen om beter geïnformeerde beslissingen te nemen bij het implementeren van AI-projecten; hoe de juiste technologieën en tools geselecteerd kunnen worden om aan de praktische behoeften van het bedrijf te voldoen.

Inzicht in de tokenisatie-methoden van verschillende talen en de bepalingsprincipes van de grootte en granulariteit van Tokens helpt u om:

AI-projecten beter te beoordelen: Het begrijpen van de complexiteit en uitdagingen van tokenisatie helpt bij het nemen van meer geïnformeerde beslissingen bij het aankopen of ontwikkelen van AI-oplossingen.

Wereldwijde operaties te optimaliseren: De aanpassing aan meertalige omgevingen is cruciaal voor het succes van mondiale bedrijven en helpt bij het verbeteren van interculturele communicatie en gebruikersinteractie.

De efficiëntie van dataverwerking te verhogen: Het kiezen van de juiste token granulariteit kan de efficiëntie en kosten van dataverwerking optimaliseren zonder afbreuk te doen aan de bedrijfsbehoeften.

Wat is de invloed van Tokens op modellen?

Tokens en de prestatie van AI-modellen

Tokens-strategieën hebben een zekere invloed op de contextruimte van grote modellen. In onze gesprekken met AI, na meerdere interacties, kan het zijn dat de AI de eerdere inhoud vergeet als deze teveel wordt. Dit kan worden gezien als een contextlimiet. Hieronder de contextlimieten van grote taalmodellen van vorig jaar.

src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

Dit zijn gegevens van vorig jaar; hier zijn de afbeeldingen van Gemini.

src: https://beebom.com/gemini-1-5-pro-announced/

In China kan Kimi omgaan met 100 miljoen PDF-bestanden; de grootte van de contextruimte is al een belangrijk marketingpunt geworden. En wat is de impact daarvan?

Binnen de context van de huidige schalingwetten vallen verschillende token-strategieën nog steeds onder de basis algoritmen—dat wil zeggen, optimalisatie van tokens-strategieën is niet zo effectief als simpelweg meer GPU’s kopen.

De impact van Tokens op de prestaties van modellen

  sequenceDiagram

participant U as Gebruiker

participant I as Invoer verwerking

participant M as Model berekening

participant S as Opslagsysteem

U->>+I: Voer gesprekshistorie in (aantal Tokens)

I->>+M: Parse Tokens en bereidt gegevens voor

M->>+M: Bereken zelf-aandacht

Note over M: Bereken de relatie tussen elk Token en andere Tokens

M->>+S: Vraag extra geheugen aan

Note over S: Verhoog de geheugenallocatie gebaseerd op het aantal Tokens

S-->>-M: Bevestig geheugenallocatie

M->>M: Blijf berekeningen maken voor respons

M-->>-I: Geef de gegenereerde respons terug

I-->>-U: Toon respons

Hoe beïnvloedt het aantal Tokens de rekencomplexiteit en geheugenbehoefte van modellen?

In generatieve AI-modellen zoals GPT-4 of andere op Transformer gebaseerde modellen, staat het aantal Tokens direct in verband met de rekencomplexiteit en geheugendance van het model. Elk extra Token dat wordt toegevoegd, betekent dat het model meer gegevenspunten moet verwerken; dit verhoogt niet alleen de rekenlast bij training en inferentie, maar ook de geheugeneisen. Bij het trainen van een taalmodel moet het model de relaties tussen elk Token en alle andere Tokens opslaan en berekenen; dit is vooral merkbaar in de zelf-aandachtsmechanismen van het model.

Casusvoorbeeld: Stel je eens een generatieve chatbot-project voor; als de ingevoerde gesprekshistorie te lang is (veel Tokens), dan kan het model trager reageren en meer rekenresources vereisen. Bijvoorbeeld, een gesprekshistorie van duizenden Tokens kan de verwerkingstijd aanzienlijk vertragen, vooral op apparaten met beperkte bronnen.

Een duidelijke conclusie is dat grote modelbedrijven om praktische redenen geen grotere capaciteiten willen; meer ruimte betekent niet altijd beter.

Betekent meer Tokens automatisch een betere modelprestaties?

Niet noodzakelijkerwijs; meer Tokens betekenen niet altijd betere prestaties van het model. In generatieve AI kan een geschikt aantal Tokens het model helpen om context beter vast te leggen en te begrijpen, waardoor de nauwkeurigheid en relevantie van de gegenereerde inhoud verbetert. Echter, te veel Tokens kunnen irrelevant zijn en de efficiëntie en outputkwaliteit van het model verminderen.

Casusvoorbeeld: In een AI-systeem voor generatie van marktrapporten kan een nauwkeurige indeling van Tokens ervoor zorgen dat belangrijke informatie daadwerkelijk de aandacht krijgt, en niet verzandt in een veelheid van onnodige details. Bijvoorbeeld, als het systeem moet samenvatten uit een grote hoeveelheid financiële nieuwsitems, kan een overdaad aan Tokens leiden tot een rapport dat chaotisch is en moeilijk de kerninformatie vast te leggen.

Het lijkt erop dat grote modelbedrijven bij het omgaan met enorme bestanden in engineering mogelijk vergelijkbare cloudoplossingen bekijken. Persoon A uploadt een bestand; wanneer persoon B ook uploadt, hoeft het systeem niet helemaal opnieuw te parseren. De parsering van persoon A kan eenvoudig hergebruikt worden. Naarmate de hoeveelheid content toeneemt, ontstaat er een productvoordeel.

Optimaliseren van Token-gebruik

Hoe bereik je een balans tussen het aantal Tokens en de prestaties van het model?

Hier betreft de Tokens-strategie vooral hoe gebruikers hun prompts optimaliseren, zodat de resultaten beter aansluiten bij hun verwachtingen.

Het vinden van het optimale evenwicht tussen het aantal Tokens en de modelprestaties is cruciaal voor een efficiënt en effectief generatief AI-model. Dit vereist vaak dat er door middel van experimenten wordt geëxperimenteerd, en dat gebruik wordt gemaakt van moderne technieken voor modeloptimalisatie.

Casusvoorbeeld: In een automatisch systeem voor het genereren van content is het een typische uitdaging om het gebruik van Tokens in balans te brengen. Het systeem kan de belangrijkste informatie proberen te extraheren uit een volledige tekst om samenvattingen te genereren. In deze situaties is het essentieel om een adequaat aantal Tokens te selecteren om voldoende informatie te behouden, terwijl je tegelijkertijd een te complexe modelstructuur voorkomt.

De relatie tussen Tokens en contextvensters, en de invloed daarvan op de kwaliteit van tekstgeneratie.

In generatieve AI beïnvloeden Tokens en de instelling van het contextvenster direct de samenhang en logica van de gegenereerde tekst. Hoe groter het contextvenster, hoe meer historische informatie het model kan overwegen bij het genereren van tekst, waardoor het coherente en natuurlijke tekst kan genereren.

Casusvoorbeeld: Stel je voor dat een AI-model wordt gebruikt om technische blogartikelen te genereren. Als het contextvenster te klein is ingesteld, kan het model moeite hebben om verschillende delen van het artikel effectief met elkaar te verbinden, wat leidt tot logische breuken in de gepresenteerde inhoud. Door het gebruik van Tokens te optimaliseren en het formaat van het contextvenster aan te passen, kan de kwaliteit en leesbaarheid van artikelen aanzienlijk worden verhoogd.

Nu komen we terug bij ons oorspronkelijke onderwerp: we willen dat de gebruikerservaring van de systemen goed is, maar we moeten ook rekening houden met de kosten.

De zakelijke toepassing van Tokens en cost-modellen

Laten we eerst een tabel bekijken van de huidige kostenstructuren van grote modellen.

Bron: https://yourgpt.ai/tools/openai-and-other-llm-api-pricing-calculator

Over het algemeen kunnen we het gebruik van grote taalmodellen splitsen in online dialoog en API-aanroepen. Het gebruik van OpenAI’s AI chatbot op het web is meestal vastgelegd op ongeveer 20 dollar per maand. Voor API-aanroepen kan het echter erg variëren.

Het spel van kat en muis; zelfs al heb je ChatGPT Plus, is er nog steeds een beperking op het aantal interacties binnen een periode van 3 uur. Veel mensen proberen soortgelijke manieren te gebruiken om ChatGPT via het web te benaderen in plaats van de API; dergelijke open-source codes worden meestal tegenwoordig verwijderd!

Vroeger was telecom-kosten gebaseerd op tijd, en dat was ook een extreem winstgevende fase. Later kregen we abonnementskosten, en tegenwoordig lijkt de kostenmodel voor Tokens een zekere gelijkenis te vertonen.

Logica van Token-kosten

Waarom gebruik maken van Token-kosten? De reden en het zakelijke model.

Het Token-kostenmodel komt veel voor in AI-diensten, vooral bij het gebruik van taaldiensten zoals die van OpenAI. Dit kostenmodel is gebaseerd op de exacte hoeveelheid verbruik van de gebruiker, namelijk het aantal Tokens dat in elk verzoek wordt verwerkt.

Reden:
De reden achter het Token-kostenmodel is dat het nauwkeurig de werkelijke consumptie van middelen door gebruikers weerspiegelt. Elk Token vertegenwoordigt een eenheid van informatie die het model moet verwerken; hoe meer Tokens, hoe meer rekenkracht er wordt verbruikt. Zodoende kunnen gebruikers betalen op basis van hun werkelijke gebruik, terwijl zij ook worden aangemoedigd om hun invoer te optimaliseren en onnodige verspilling te vermijden.

Zakelijk model:
Vanuit zakelijk perspectief biedt het Token-kostenmodel een flexibele en eerlijke kostenstructuur voor AI-dienstverleners. Het stelt aanbieders in staat om verschillende prijsniveaus in te stellen op basis van systeembelasting en operationele kosten, waardoor ze een bredere klantengroep kunnen aantrekken van kleine ontwikkelaars tot grote ondernemingen.

Vergelijking van Token-kosten met andere kostenmodellen (zoals op basis van woorden, karakters en tijd)

In vergelijking met andere gangbare kostenmodellen heeft Token-kosten zowel unieke voordelen als beperkingen:

Kosten op basis van woorden en karakters: Deze kostenmodellen zijn eenvoudig en duidelijk, en makkelijk te begrijpen en te budgetteren. Echter, ze houden vaak geen rekening met de complexiteit van de verwerking en het werkelijke verbruik van rekenbronnen. Bijvoorbeeld, het verwerken van een lange zin met eenvoudige woorden kan eenvoudiger zijn dan het verwerken van technische termen, maar toch kan de prijs op basis van het aantal woorden hoger zijn.
Tijd-gebaseerde kosten: Dit kostenmodel (zoals het vergoeden per minuut of uur) is meestal geschikt voor doorlopende diensten zoals stromen van gegevensverwerking of online leren. Echter, voor kortlopende aanvragen kan dit model leiden tot ongelijkheden of onnauwkeurige betalingsstructuren.

  graph TD;
    A[Token-kosten] -->|Reflecteert de werkelijke dekking van rekenresources| B[Eerlijke middelenverdeling];
    A -->|Optimale invoer efficiëntie| C[Aansporen tot vereenvoudigen van invoer];
    D[Kosten per woorden/karakters] -->|Duidelijk| E[Eenvoudig te begrijpen en budgetteren];
    D -->|Houdt geen rekening met complexiteit| F[Kan leiden tot onnauwkeurige kosten];
    G[Tijd-gebaseerde kosten] -->|Geschikt voor doorlopende diensten| H[Stromen van gegevensverwerking/online leren];
    G -->|Niet geschikt voor korte opdrachten| I[Kan leiden tot ongelijkheden in kosten];

Token-kosten bieden een gedetailleerdere maatstaf, die eerlijker weergeeft wat de gebruiker daadwerkelijk consumeert.

Over het algemeen zijn de kosten voor grote modellen ruwweg samengesteld uit:

R&D-kosten (arbeid + experimenten)

Trainingskosten (rekenresources + gegevensverwerking)

Implementatiekosten (infrastructuur + opslag)

Ondersteunings- en updatekosten

Ethische en compliancekosten (dataschuring, datacontrole)
Het is moeilijk om deze kosten adequaat te dekken via Tokens; in de praktijk moeten intern deskundigen dit voortdurend evalueren. Momenteel lijkt het de meest geschikte evaluatiemethode te zijn.

De werkelijke impact van Token-kosten

Invloed van verschillende kostenmodellen op gebruikers en ontwikkelaars.

Het Token-kostenmodel betekent dat gebruikers hun API-aanvragen nauwlettender moeten beheren om de kosten te beheersen. Ontwikkelaars moeten efficiënte verzoeken ontwerpen en overtollige Tokens gebruiken om de waarde van elk verzoek te maximaliseren. Dit kostenmodel moedigt ontwikkelaars aan om hun data-invoer en verwerking optimaler te maken, maar kan ook de complexiteit van de ontwikkeling en de initiële optimalisatie bemoeilijken.

Voor aanbieders kan het Token-kostenmodel helpen de serverbelasting te balanceren, inkomsten te voorspellen, en de middelen efficiënt in te richten. Het fungeert ook als een feedbackmechanisme voor productoptimalisatie en prijsstrategie-aanpassing, waardoor providers beter kunnen inspelen op marktvraag.

Hoe het gebruik van Tokens te optimaliseren om kosten te verlagen?

Optimalisatie van het Token-gebruik is de sleutel tot kostenbeheersing. Dit kan op verschillende manieren worden bereikt:

Vereenvoudig invoergegevens: Verwijder onnodige teksten en overtollige data voordat je verzoeken indient; houd alleen essentiële informatie over.
Gebruik efficiënte query-ontwerpen: Ontwerp goed doordachte aanvragen om te voorkomen dat je te complexe of diepgaande ketenverzoeken indient.
Haal voordeel uit cachingstrategieën: Gebruik cache voor veelvoorkomende of herhaalde aanvragen om het aantal queries naar de achterliggende service te verminderen.
Monitor en analyseer: Analyseer regelmatig de gegevens van Token-consumptie om optimalisatiepunten te identificeren, en pas de strategie aan om verspilling te verminderen.

Door deze strategieën te hanteren kan niet alleen het kostenniveau worden verlaagd, maar kan ook de responsiviteit van het systeem en de tevredenheid van de gebruiker worden verhoogd, waardoor een concurrentievoordeel in de steeds competitievere markt kan worden gerealiseerd.

De commerciële waarde van Tokens en toepassingsgevallen

Praktische toepassing van Tokens in bedrijven

In de ontdekking en waardevermeerdering van gegevens kunnen de toepassingen van Token-technologie aanzienlijk de efficiëntie in gegevensverwerking en de kwaliteit van besluitvorming verhogen. Voor niet-technische executives helpt inzicht in de toepassing van Tokens hen met het beter evalueren van technische investeringen en het stimuleren van bedrijfinnovatie.

  graph LR;
    A[Tecnhische perspectief: de rol van Tokens in Natural Language Processing] 
    B[Commercieel perspectief: de rol van Tokens in het versterken van bedrijfswaarde]
    
    A --> A1[Informatie-extractie\nSnelle extractie van belangrijke informatie]
    A --> A2[Sentimentanalyse\nIdentificeren van klant-emoties]
    A --> A3[Automatische samenvatting\nGenereren van document-samenvattingen]
    
    B --> B1[Verbeteren van klanteracties\n24/7 klantenservice]
    B --> B2[Marktanalyse\nVerkrijgen van trendinformatie]
    B --> B3[Persoonlijke aanbevelingen\nVerhogen van transacties]
    
    style A fill:#8ecae6,stroke:#333,stroke-width:4px
    style B fill:#90be6d,stroke:#333,stroke-width:4px
    style A1 fill:#219ebc,stroke:#333,stroke-width:2px
    style A2 fill:#219ebc,stroke:#333,stroke-width:2px
    style A3 fill:#219ebc,stroke:#333,stroke-width:2px
    style B1 fill:#ffb703,stroke:#333,stroke-width:2px
    style B2 fill:#ffb703,stroke:#333,stroke-width:2px
    style B3 fill:#ffb703,stroke:#333,stroke-width:2px

Technisch perspectief: de rol van Tokens in Natural Language Processing

Tokenisatie is de techniek die complexe tekstdata opdeelt in handzame eenheden, zodat AI-systemen effectieve gegevensanalyse en verwerking kunnen uitvoeren. Dit proces is cruciaal in Natural Language Processing (NLP), waardoor machines in staat zijn om menselijke taal te “begrijpen” en de volgende taken uit te voeren:

Informatie-extractie: Tokenisatie helpt om snel belangrijke informatie uit grote hoeveelheden tekst te extraheren, zoals relevante artikelen uit juridische documenten.
Sentimentanalyse: Door de Tokens van klantfeedback te analyseren, kunnen bedrijven de emotionele neigingen van klanten identificeren en hun producten of diensten aanpassen.
Automatische samenvattingen: De tokenisatietechnologie kan automatisch document-samenvattingen genereren, waardoor de efficiëntie van kenniswerkers toeneemt.

Commercieel perspectief: de rol van Tokens in het versterken van bedrijfswaarde

Vanuit een commercieel perspectief verhogen Tokens niet alleen de operationele efficiëntie, maar openen ze ook nieuwe bedrijfsmodellen en inkomstenstromen:

Verbetering van klantinteractie: Met token-gebaseerde chatbots kan 24/7 klantenservice worden aangeboden, de klanten tevreden stellen en de servicekosten verlagen.
Marktanalyse: Token-gebaseerde verwerking kan bedrijven helpen om snel trendinformatie uit marktrapporten te halen en hun strategische besluitvorming te informeren.
Persoonlijke aanbevelingen: In e-commerceplatforms kan token-technologie de aankoopgeschiedenis en browse-gedrag van gebruikers analyseren om op maat gemaakte productaanbevelingen te doen, waardoor transacties toenemen.

Analyse van praktische aangepaste gevallen

Klantenservicerobots

Een typisch voorbeeld is het gebruik van een klantenservicerobot. Bijvoorbeeld, een grote telecomprovider heeft een token-gebaseerde klantenservicerobot ingezet om klantvragen te behandelen, zoals vragen over facturen of storingen. De robot analyseert de vragen van de gebruiker (die getokeniseerd zijn) en geeft snel het juiste antwoord of verwijst de vraag naar de juiste dienstafdeling.

Inhoudsaanbevelingssystemen

In de media- en amusementsindustrie maken inhoudsaanbevelingssystemen gebruik van tokenisatie om gebruikers kijk- of leesgedrag te analyseren en hen nieuwe films, boeken of artikelen aan te bevelen die ze mogelijk interessant vinden. Bijv., het aanbevelingssysteem van Netflix analyseert de beschrijving-tokens van eerder bekeken programma’s om andere programma’s voor te stellen die de gebruiker mogelijk leuk vindt.

Commerciële waarde van Tokens en toekomstige toepassingen

In de toepassingen van bedrijven is het begrijpen en effecteTokens gebruiken de sleutel tot succes voor AI-projecten. Begrijpen van de commerciële waarde en uitdagingen van Tokens is cruciaal voor het formuleren van strategieën en het stimuleren van technologische innovaties.

Commerciële toepassingen van Tokens

Technisch perspectief: de rol van Tokens

Tokens in Natural Language Processing (NLP) maken het mogelijk dat tekstinformatie effectief door AI-systemen wordt verwerkt. Kortom, tokenisatie is het proces waarbij bladzijden vol tekst in kleine, hanteerbare eenheden worden verdeeld die als fundament dienen voor machinale leermodellen.

Gegevensverwerking: Tokenisatie maakt complexere teksten zoals klantverzoeken, marktenanalyse of documentbeheer gemakkelijker te beheren en analyseren.
Efficiëntieverbetering: Door tokenisatie kunnen AI-modellen snel belangrijke informatie identificeren, wat de besluitvorming versnelt en de bedrijfsefficiëntie verbetert.

Commercieel perspectief: de economische waarde van Tokens

Vanuit zakelijk perspectief zijn Tokens niet alleen een onderdeel van het technische proces, maar zijn ze ook direct verbonden met de verbetering van operationele efficiëntie, klanttevredenheid en het openen van nieuwe bedrijfsmodellen.

Optimalisatie van klantenservice: Tokenisatie maakt automatisering in klantenservice mogelijk door snel en nauwkeurig klantvragen te verwerken, wat de klanttevredenheid en merktrouw vergroot.
Persoonlijke marketing: het gebruik van token-analyse van gebruikersgedrag en voorkeuren stelt bedrijven in staat om zeer gepersonaliseerde marketinginhoud aan te bieden, wat de conversies verhoogt.

Toekomstvisie en uitdagingen van Tokens

Verwachte toekomstige ontwikkeling

Met de vooruitgang in AI-technologie zal toepassing van Tokens steeds intelligenter en diverser worden:

Cross-modale toepassingen: Het gebruik van token-technologie zal zich niet alleen tot tekstbehandeling beperken, maar in de toekomst uitbreiden naar het analyseren van video- en audiocontent, om bredere toepassingsscenario’s te ondersteunen.
Slimme optimalisaties: De methoden voor het genereren en verwerken van Tokens zullen geavanceerder worden, waarbij AI automatisch de granulariteit en hoeveelheid Tokens aanpast aan verschillende bedrijfsbehoeften.

Zakelijke uitdagingen en kansen

Gegevensbeveiliging en privacy: Het waarborgen van de gegevensbeveiliging en privacy tijdens de tokenisatie is een grote uitdaging, vooral bij het verwerken van gevoelige informatie.
Technische integratie: Hoe token-technologie naadloos kan worden geïntegreerd in bestaande IT-systemen en bedrijfsprocessen, is de sleutel tot het realiseren van deze technologische omzet.
Eerlijkheid en transparantie: Zorgen dat AI-besluiten die via tokenisatie worden genomen eerlijk en transparant zijn, verhoogt het vertrouwen van alle belanghebbenden.

Conclusie

Terwijl ik dit artikel schreef, inspireerde Lin Miao me met een nieuwe richting (dank!). https://arxiv.org/abs/2104.12369 . Vanuit de praktijk van Huawei’s Pangu-model lijkt het erop dat de ontwikkeling van Tokens in de Chinese sector de tendens heeft om minder gefocust te zijn op technologie, maar dat blijft nog te zien.

Voordat ik dit artikel schreef, was mijn begrip van Tokens beperkt tot het idee dat één Chinese karakter gelijk is aan één Token; ik had ook de neiging om Tokens en vectorisatie te verwarren. Voor vectorisatie komt het proces van Tokens vóór. Laten we ons meer voorbereiden op AI, veranderingen omarmen, en bestuderen hoe huidige databronnen binnen bedrijven beter kunnen worden benut. Dit kan hier beginnen!