Die Künstliche Intelligenz hat in jüngster Zeit Riesenfortschritte gemacht. Sie meistert komplexe Aufgaben mit Leichtigkeit. Dennoch macht die KI Rechtschreibfehler. Was sind die Ursachen hierfür?
Inhaltsverzeichnis
Warum sind Midjourney, DALL-E 3 und Co so schlecht bei der Rechtschreibung?
Warum haben Text-zu-Bild-KI eine schlechte Rechtschreibung?
Die meisten Bildgeneratoren nutzen sogenannte Diffusionsmodelle. Hierfür wird jedes Bild mit dessen Beschreibung (z. B. ein Sportwagen auf der Rennstrecke) durch schrittweises Hinzufügen eines Gaußschen Rauschen dekonstruiert. Am Ende wird das Bild in viele einzelne Punkte zerlegt. Vergleichbar ist das mit einem alten Röhrenfernseher ohne Empfang. Bei der Bilderstellung wird der Vorgang umgekehrt. Aus dem verrauschten Bild wird das Rauschen schrittweise entfernt. Durch die verrauschten Daten liegen der KI keine detaillierten Informationen zur richtigen Schreibweise oder einer anatomisch korrekt geformten Hand vor. Deshalb kommt es bei der Bilderstellung manchmal zu Fehlern.
Aktuell haben fast alle Text zu Bild Generatoren wie Midjourney und DALL-E 3 Probleme mit der richtigen Rechtschreibung sowie Details in den Bildern.
Der einfache Prompt sorgt für einen Buchstabensalat, obwohl es vermutlich Millionen Bilder in den Trainingsdaten mit der richtigen Schreibweise gibt und „Happy Birthday“ Kinder mit 10 Jahren wahrscheinlich sicher schreiben können.
DALL-E 3 schreibt stattdessen „Happy BTRTTHHDAY“
Die Text-zu-Bild KI’s sind deutlich besser darin, verschiedene Objekte in Bildern darzustellen. Doch häufig machen sie Fehler bei den Details wie dem Erstellen einer richtig geformten Hand oder beim Nachahmen von Details wie der menschlichen Handschrift.
Achte hier auf den Daumennagel der rechten Hand. Die Schrift ist nicht leserlich.
Die Bild KI erstellen auch Bilder mit 4 oder 6 Fingern.
Selbst wie ein A oder B geschrieben wird, weiß die KI nicht. Zudem ist der Anteil von Schriften in Bildern gering, sodass wenige Informationen hierzu in den Trainingsdaten vorhanden sind.
Der Algorithmus der Bild-KI reproduziert dein Bild anhand der Trainingsdaten. Unsere Regeln, nach denen Hände aus 5 Fingern bestehen sowie es „Happy Birthday“ und nicht „Happy BTRTTHHDAY“ heißt, weiß die KI nicht.
Mit zusätzlichen Datensätzen können die Modelle darauf trainiert werden, Hände immer mit 5 Fingern zu erstellen. Das haben alle großen Bild-KI’s inzwischen auch getan. Noch Mitte 2023 wurden deutlich häufiger unnatürliche Hände erstellt. Die Anzahl der fehlerhaft erstellten Bilder hat sich nach meinem Eindruck deutlich reduziert. Die Probleme mit der Rechtschreibung werden vermutlich länger dauern. Informationen zur richtigen Rechtschreibung sind deutlich komplexer und man bedenke nur die Vielzahl verschiedener Sprachen.
Adobe Firefly wurde deshalb anfangs darauf trainiert, keine Bilder mit Schrift zu erstellen. Inzwischen geht es. Bei dem Prompt: „Erstelle ein Bild einer deutschen Kleinstadt mit einem Ortseingangsschild“, kommt trotzdem nur unleserlicher Text.
Eine Ausnahme bei der Bilderstellung mit Text stellt Ideogramm dar. Dieses Modell kann sehr gut mit Text umgehen. Für einen Vergleich der KI klicke hier.
Warum machen ChatGPT und Co Fehler in ihren Antworten?
Warum begehen Text-KI Fehler?
Die Textgeneratoren hingegen scheinen die Eingaben und Ausgaben wie ein Mensch zu erfassen. Tatsächlich erzeugen sie die Antwort durch mathematische und statistische Verfahren. Ein Verständnis der Aufforderung und der generierten Antwort haben sie nicht. Die Text KI’s erkennen Muster in deiner Eingabe und gleichen diese mit den Trainingsdaten ab. Wirklich verstehen können Sie den Text noch nicht.
Auch ChatGPT 4 führst du an seine Grenzen, indem es ein Wort mit 10 Buchstaben ohne „A“ und „E“ schreiben soll. Ich bekomme „Kronjuwels“ als Antwort. Die Vorbereitung eines Referats oder einer Präsentation stellt ChatGPT überhaupt nicht vor eine Herausforderung.
Large Language Models (LLM’s) verstehen den Zusammenhang einzelner Buchstaben und die Bedeutung der Wörter nicht.
Die LLM’s transferieren die Bestandteile deiner Eingabe in sogenannten Token. Mit mathematischen und statistischen Verfahren werden die einzelnen Tokens in eine Beziehung zueinander gesetzt. Das LLM erkennt hierbei Muster und gleicht diese mit den Trainingsdaten ab. Aufgrund dieser Informationen wird deine Antwort erzeugt.
Wie erkennt man KI Bilder?
Ein von einer KI erstelltes Bild erkennt man heute an fehlerhaften Details.
Das kann z. B. Text innerhalb des Bildes sein, der aufgrund der unsauberen oder falschen Schrift leicht als KI-Bild erkennbar ist. Diese Fehler können auch an anderer Stelle auftreten. So können Gitarren mit 7 Saiten dargestellt werden oder die Proportionen menschlicher Körper passen in den Details nicht.
Zweifellos wird es in Zukunft schwieriger solche fehlerhaften Details zu erkennen, da sich die KI-Modelle rasend schnell entwickeln.
Das ist der Grund, warum an der Kennzeichnung vor KI-Bildern gearbeitet wird. Adobe Firefly schreibt die Informationen heute bereits beim Download in die erzeugten Bilder.
Schreibe einen Kommentar