Einleitende Worte

  • Haben Sie gehört, dass KI nach Token abrechnet?
    • Das verwendet viele Token.
    • Der Computer blieb die ganze Nacht eingeschaltet und verbrauchte viele Token. Fühlt es sich an, als ob man ein ganzes Haus verloren hat?
  • Warum wird mit Token abgerechnet?
    • Man hört, dass Token eine doppelte Abrechnung haben.
    • Fragen an die KI kosten etwas, aber auch Antworten kosten etwas. Ist das nicht etwas übertrieben?
    • Darf die KI dann nicht auch viel Blödsinn reden?
  • Sind Token Wörter oder Buchstaben?
    • Wie wird die Abrechnung für chinesische Zeichen gehandhabt?
    • Und wie für die arabische Sprache?
  • Welche unterschiedlichen Bedeutungen haben Tokens im Kontext der Unternehmensdigitalisierung?
    • In der traditionellen Digitalisierung geht es häufig um Struktur und Datenbanken.
    • Warum gibt es das Problem mit Tokens bei der Anwendung von KI?

Dieser Artikel versucht, diese Fragen zu beantworten und zu klären, was Tokens wirklich sind. Der Text ist lang, aber es lohnt sich, ihn zu lesen.

In der Geschichte der Computerentwicklung tauchen oft beeindruckende Begriffe auf, die schließlich in unser Leben Einzug halten. Prompt ist ein Beispiel dafür und Tokens scheinen aktuell ebenfalls aus der Nische herauszutreten.
Ist dies eine von OpenAI eingeführte Abrechnungsweise, die von vielen Unternehmen als sehr positiv angesehen wird? Oder gibt es andere Gründe dafür?
Lass uns mit der Herkunft von Tokens beginnen.

In der Unternehmenswelt wird die Verwendung von KI zur Kostenreduzierung und Effizienzsteigerung durch das Verständnis von Tokens erleichtert. Einfach gesagt, kann man sich Tokens als Bausteine vorstellen, die durch das Zusammenbauen die benötigte Anwendung erstellen und so die Effizienz steigern.

Token LEGO Bausteine

Grundlagen zu Tokens

Grundverständnis von Tokens

Sehen wir uns zunächst die offizielle Beschreibung von Tokens durch OpenAI an:

  • 1 Token ~= 4 englische Zeichen
  • 1 Token ~= ¾ Wort
  • 100 Tokens ~= 75 Wörter
    oder
  • 1-2 Sätze ~= 30 Tokens
  • 1 Absatz ~= 100 Tokens
  • 1.500 Wörter ~= 2.048 Tokens

Wie fühlt sich das an? Verwirrung? Was hat das mit der Anzahl der Schreibweisen des Wortes für “Bohnen” zu tun? Lass uns verstehen, um was es hier geht:

Learning AI Meticulously, Sharing Knowledge Joyfully

Wie viele Tokens hat dieser Satz? Sechs Wörter, also müssten es sechs Tokens sein, oder? Falsch gedacht!

Learning AI Meticulously, Sharing Knowledge Joyfully

Im ChatGPT 4 ist es tatsächlich 10 Tokens, denn die Satzzeichen werden als eigene gezählt, und Joyfully wird in Joy und fully aufgeteilt.

Von Code zu Konversation: Die Notwendigkeit der Einführung von Tokens

Die grundlegende Sprache der Computer besteht aus der binären Codierung mit 0 und 1, was die grundlegendste Darstellung aller Programme und Daten darstellt. Egal, ob wir Hochsprachen wie Python oder Java verwenden oder verschiedene Multimedia-Dateien wie Bilder und Videos, alles wird in diese maschinenlesbare Sprache umgewandelt. In der traditionellen Informatik haben Fachleute ihr Bestes gegeben, um die Komplexität der realen Welt zu abstrahieren, indem sie klar definierte Datentypen wie Strings (eine Reihe von Zeichen) und Integers (Zahlen) verwenden. Diese Methodik ist großartig für strukturierte Daten wie mathematische Berechnungen oder Datenbankanfragen.

Mit der Entwicklung der Technologie und dem steigenden Bedarf an Möglichkeiten, die über reine Zahlen und Code hinausgehen, möchten wir, dass Computer nicht nur Zahlen und Code verarbeiten, sondern auch natürliche Sprache – die Sprache, die wir Menschen im Alltag verwenden. Dies führt uns in den Bereich der natürlichen Sprachverarbeitung (NLP, Natural Language Processing), dessen Ziel es ist, Computern das Verständnis, die Interpretation und die Erzeugung menschlicher Sprache zu ermöglichen.

Angesichts der Besonderheiten der natürlichen Sprache – ihrer Vielfalt, Kontextabhängigkeit und Mehrdeutigkeit – bestehen die Herausforderungen nicht mehr einfach aus Fragen vom Typ 1+1=2. Stattdessen geht es darum, wie wir Computern helfen, Sätze wie „Heute ist Freitag, wo gehen wir am Wochenende hin? Zuhause bleiben und KI lernen?“ zu verstehen und weiter ihre Emotionen zu analysieren oder sie in andere Sprachen zu übersetzen. In diesem Kontext sind herkömmliche Datentypen nicht mehr ausreichend.

Deshalb brauchen wir das Konzept der Tokens. Tokenisierung ist der Prozess, komplexe Textdaten in kleinere, computergestützte Einheiten wie Wörter, Phrasen oder Satzzeichen zu zerlegen. So können Computer die Sprache effektiver verarbeiten und Bedeutungen aus dem Text abrufen, anstatt nur die Anzahl der Zeichen zu zählen.

Von Determinismus zu Mehrdeutigkeit: Traditionelle Programmierung verarbeitet klare und vorhersehbare Daten, während NLP die Interpretation von mehrdeutigen und kontextabhängigen Sprachen einbezieht.

Von strukturiert zu unstrukturiert: Im Gegensatz zu strukturierten Datenbanken oder Algorithmen verarbeitet NLP flüssige und freiformige Texte in natürlicher Sprache.

Was sind Tokens? Warum müssen Texte in Tokens umgewandelt werden?

Stellen Sie sich vor, eine sehr typische Anwendung von generativer KI ist die schnelle Zusammenfassung. Wir müssen nicht Wort für Wort durchlesen, um die Schlüsselinformationen zu erhalten. Tokens spielen dabei eine entscheidende Rolle, da sie dem Computer helfen, große Textmengen “zu verstehen” und zu verarbeiten.

Was sind Tokens?

In der natürlichen Sprachverarbeitung beziehen sich Tokens normalerweise auf bedeutungsvolle Segmente innerhalb eines Textes. Diese Segmente können Wörter, Phrasen oder Satzzeichen sein. So wie im obigen Beispiel.

Warum in Tokens umwandeln?

Die Umwandlung von Text in Tokens ähnelt dem Zerlegen eines komplexen Geschäftsberichts in Kernteile oder dem Aufbrechen des Inhalts einer E-Mail in die wichtigsten Punkte. Diese Zerlegung ermöglicht es dem Computer, die Sprache effektiver zu verarbeiten und zu analysieren, sodass Aufgaben wie das Suchen nach Schlüsselinformationen, automatisches Übersetzen oder die Durchführung von Sentimentanalysen durchgeführt werden können.

Beispielsweise könnte jemand, der in Meituan eine Kette von Geschäften eröffnet hat, die Kundenbewertungen analysieren wollen, um das Produkt zu verbessern (verbessern? Gut, sagen wir einfach mal so). Das Zerlegen der Bewertungen in Tokens kann helfen, häufige Probleme oder negative Aspekte zu erkennen.

Scheint, als wäre ein Token einfach ein Wort. Wie ist die Realität?

Der Unterschied zwischen Tokens, Zeichen und Wörtern

Definition Merkmale Beispiel
Zeichen Grundelemente, aus denen Texte bestehen Ausdruck kompletter Bedeutungen ist nicht garantiert, sie bilden Wörter zusammen. happy
Wort Aus Zeichen bestehend und in der Lage, bedeutungsvolle Einheiten zu bilden Grundlegende Einheit zur Informationsübertragung, drückt mehr Information als ein einzelnes Zeichen aus. I’m happy
Token Entspricht normalerweise Wörtern, ist jedoch flexibler und kann Phrasen, Satzzeichen, Wortstämme oder Präfixe umfassen Die Definition von Tokens hängt von ihrem Anwendungszweck ab, z.B. Textanalyse, maschinelle Übersetzung. I, 'm, happy

Anhand der obigen Tabelle haben wir ein grundlegendes Gefühl dafür, dass es stark von der menschlichen Sprachverständnis abhängt.

Obwohl Zeichen, Wörter und Tokens technisch unterschiedlich sind, stehen sie in engem Zusammenhang in der Textverarbeitung. Zeichen sind die Grundlage für Wörter, und Wörter sind dann die Elemente, die Tokens bilden. In der praktischen Anwendung hängen die Erkennung und Verwendung von Tokens vom Verständnis von Zeichen und Wörtern ab.

Wenn wir beispielsweise einen Bericht über Markttrends analysieren möchten, können wir durch Tokenisierung schnell Schlüsselwörter wie „Wachstum“, „Risiko“ und „Chancen“ identifizieren, die den Führungskräften helfen, die Kernaussagen des Berichts zu erfassen.

Zusammenfassend lässt sich sagen, dass Tokens eine Methode sind, um Computern zu helfen, Texte zu verarbeiten und „zu verstehen“, wodurch die automatisierte Textbearbeitung ermöglicht wird und Unternehmen die sprachliche Informationsnutzung in datengestützten Entscheidungsprozessen effizienter gestalten können.

Wie werden Tokens generiert und verarbeitet? Dafür müssen wir die traditionellen Programmieransätze hinter uns lassen.

Tokenisierung und Verarbeitung

Wie werden Tokens generiert? Der spezifische Prozess zur Umwandlung von Text in Tokens.

Je nach Modell kann der Prozess variieren. Um das Verständnis zu erleichtern, wurden einige Schritte dargestellt, bei denen im Hinblick auf die Datenwertschöpfung in der Unternehmensdigitalisierung die Priorität des Datenwerts sowie die Kosten der Datenverarbeitung zusammen berücksichtigt werden müssen, um eine angemessene Beurteilung zu treffen.

Beispiel: