Was sind Token bei KI und wie funktionieren sie?

Was sind Token bei KI

Willkommen im unsichtbaren Universum der „Token“, wo jedes Wort zählt. Hier erfährst du, wie sie die Brücke zwischen menschlicher Sprache und künstlicher Intelligenz schlagen. Erfahre, wie die Token funktionieren.

Von: René

📄

veröffentlicht:

zuletzt aktualisiert:

Willkommen im unsichtbaren Universum der „Token“, wo jedes Wort zählt. Hier erfährst du, wie sie die Brücke zwischen menschlicher Sprache und künstlicher Intelligenz schlagen. Erfahre, wie die Token funktionieren.

Was sind Token bei KI?

Token sind die grundlegende Einheit für alle gängigen KI Modelle, egal ob ChatGPT, Gemini, Copilot oder Claude. Mit dem Token wird die Länge eines Texts bestimmt. Auch für die Bezahlung ist die Zahl der Token relevant, wenn du einen API-Zugang benutzt. Hier werden häufig die verbrauchten Token einzeln abgerechnet (z. B. bei ChatGPT oder Claude). Daneben werden Token genutzt, um den Text zu „verstehen“ und die Antwort auf die Nutzeranfrage zu liefern.

Die Tokenzahl hängt davon ab:

  • welche Sprache genutzt wird,
  • wie lang der Text ist,
  • welches KI-Modell du nutzt,
  • ob es sich um Satzzeichen (.,:;?!) oder
  • ob es sich um Emojis (😀😄😂) handelt.

Es gibt keine feste Umrechnung von Text in Token oder zurück. Teilweise verbrauchen einzelne Buchstaben eines Wortes zusätzlich Token.

Woher weiß ich, wie viele Token mein Text verbraucht?

Von OpenAI gibt es einen Tokenizer, den du für die benutzen kannst. Beachte jedoch, dass dieser für ChatGPT 3 oder ChatGPT 3,5 und ChatGPT 4 funktioniert. Die aktuellste Version ChatGPT 4-Turbo ist nicht auswählbar. Hier funktioniert die Umrechnung ggf. anders.

Der Tokenizer von OpenAI für die Umrechnung in Token
Der Tokenizer von OpenAI rechnet Text in Token um.

Der Beispieltext hat 321 Zeichen. Unter ChatGPT 3 werden 134 Token und unter ChatGPT 3,5 oder ChatGPT 4 werden 98 Token berechnet. Immerhin ein Unterschied von 27 %.

Die Ermittlung der Token für unseren Beispieltext.

Bei jedem Farbwechsel wird ein zusätzlicher Token gezählt. Zum Beispiel werden bei „Buchstaben“ im letzten Satz 3 Token verbraucht. Insgesamt sind es 98 Token.

Dass die Tokenzahl je nach Sprache unterschiedlich ist, zeigt der folgende Test:

Beide Wörter haben 5 Zeichen. Die Bedeutung von „hello“ im englischen und „hallo“ sind identisch. Dennoch verbraucht „hallo“ 2 Token statt 1 Token.

Um das Verhältnis zwischen Token und Wörtern im Deutschen abzuschätzen, habe ich den Osterspaziergang von Goethe verwendet. Das Gedicht hat 215 Wörter. Der Tokenizer hat unter ChatGPT 3,5 und ChatGPT 4 genau 431 Token ermittelt.

Pro Wort werden 2,0 Token gezählt.

Das entspricht ungefähr dem Verhältnis, was du als Erfahrungswert im Netz an verschiedenen Stellen findest. Dort werden pro Wort in Deutsch zwischen 1,5 und 1,8 Token genannt. Allerdings entspricht der Osterspaziergang nicht mehr unserem aktuellen Sprachgebrauch. Auch sind keine Smileys enthalten. Als Näherung kannst du mit dem Faktor von 1 : 1,75 bei ChatGPT 3,5 und 4 rechnen.

Wie werden Token bei der Verarbeitung von Text genutzt?

Wenn du bei einer KI einen Text eingibst, wird deine Eingabe in Token zerlegt. In den Trainingsdaten wird auf Basis der Token-IDs nach der Antwort gesucht. Die Antwort wird zurückübersetzt und dem Anwender die Antwort angezeigt.

Dabei ist die Künstliche Intelligenz nicht wirklich intelligent. Die Antwort wird auf Grundlage erlernter Wahrscheinlichkeiten generiert. Der nächste Token wird anhand des vorherigen Tokens ausgewählt. Durch die extrem umfangreichen Trainingsdaten bekommst du „sinnvolle“ Antworten. Das System arbeitet nicht auf Ebene von Buchstaben oder Wörtern. Das ist auch der Grund, warum KI manchmal Schwierigkeiten mit der Rechtschreibung hat.

Darstellung von Token-ID

Die Token-ID sind die „interne Sprache“ von ChatGPT. In dem Beispiel siehst du die Darstellung des obigen Textes. Wenn es sich um einen Prompt handeln würde, würde auf dieser Ebene die Antwort generiert.

Bitte hinterlasse eine Bewertung oder einen Kommentar für Anregungen.

Über den Autor

Mein Name ist René. Ich bin ein leidenschaftlicher KI-Enthusiast und lade dich ein, die Welt der Künstlichen Intelligenz mit diesem Blog zu erkunden.

So möchte ich dich bei der Anwendung und dem Verständnis von KI begleiten.

Der Blog richtet sich sowohl an alle, die sich neu mit KI beschäftigen, als auch an Erfahrene, die auf der Suche nach Tipps und Tricks sind. Erfahre mehr.

Die mit einem * Symbol gekennzeichneten Links sind Affiliate-Links. Erfolgt darüber ein Einkauf, erhalten wir eine Provision ohne Mehrkosten für dich. Die redaktionelle Auswahl und Bewertung der Produkte bleibt davon unbeeinflusst. Dein Klick hilft bei der Finanzierung unseres kostenfreien Angebots. Erfahre mehr.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Mehr…!