Das ist der wahre Grund, warum KI Rechtschreibfehler macht.

Die Künstliche Intelligenz hat in jüngster Zeit Riesenfortschritte gemacht. Sie meistert komplexe Aufgaben mit Leichtigkeit. Dennoch macht die KI Rechtschreibfehler. Was sind die Ursachen hierfür?

Inhaltsverzeichnis

Warum sind Midjourney, DALL-E 3 und Co so schlecht bei der Rechtschreibung?

Warum haben Text-zu-Bild-KI eine schlechte Rechtschreibung?
Die meisten Bildgeneratoren nutzen sogenannte Diffusionsmodelle. Hierfür wird jedes Bild mit dessen Beschreibung (z. B. ein Sportwagen auf der Rennstrecke) durch schrittweises Hinzufügen eines Gaußschen Rauschen dekonstruiert. Am Ende wird das Bild in viele einzelne Punkte zerlegt. Vergleichbar ist das mit einem alten Röhrenfernseher ohne Empfang. Bei der Bilderstellung wird der Vorgang umgekehrt. Aus dem verrauschten Bild wird das Rauschen schrittweise entfernt. Durch die verrauschten Daten liegen der KI keine detaillierten Informationen zur richtigen Schreibweise oder einer anatomisch korrekt geformten Hand vor. Deshalb kommt es bei der Bilderstellung manchmal zu Fehlern.

DALL-E 3 mit Copilot: *Erstelle mir bitte ein Bild einer mehrstöckigen Geburtstagstorte. Oben auf der Torte brennen Kerzen und es steht Happy Birthday in leuchtender Farbe auf der Torte geschrieben.*

Aktuell haben fast alle Text zu Bild Generatoren wie Midjourney und DALL-E 3 Probleme mit der richtigen Rechtschreibung sowie Details in den Bildern.

Der einfache Prompt sorgt für einen Buchstabensalat, obwohl es vermutlich Millionen Bilder in den Trainingsdaten mit der richtigen Schreibweise gibt und „Happy Birthday“ Kinder mit 10 Jahren wahrscheinlich sicher schreiben können.

DALL-E 3 schreibt stattdessen „Happy BTRTTHHDAY“

Die Text-zu-Bild KI’s sind deutlich besser darin, verschiedene Objekte in Bildern darzustellen. Doch häufig machen sie Fehler bei den Details wie dem Erstellen einer richtig geformten Hand oder beim Nachahmen von Details wie der menschlichen Handschrift.

Achte hier auf den Daumennagel der rechten Hand. Die Schrift ist nicht leserlich.

Die Bild KI erstellen auch Bilder mit 4 oder 6 Fingern.

DALL-E 3 mit Copilot: *A letter on a table, a hand with a quill pen starting to write a love letter, focus on the page and the hand, candlelight.*

Selbst wie ein A oder B geschrieben wird, weiß die KI nicht. Zudem ist der Anteil von Schriften in Bildern gering, sodass wenige Informationen hierzu in den Trainingsdaten vorhanden sind.

Der Algorithmus der Bild-KI reproduziert dein Bild anhand der Trainingsdaten. Unsere Regeln, nach denen Hände aus 5 Fingern bestehen sowie es „Happy Birthday“ und nicht „Happy BTRTTHHDAY“ heißt, weiß die KI nicht.

Mit zusätzlichen Datensätzen können die Modelle darauf trainiert werden, Hände immer mit 5 Fingern zu erstellen. Das haben alle großen Bild-KI’s inzwischen auch getan. Noch Mitte 2023 wurden deutlich häufiger unnatürliche Hände erstellt. Die Anzahl der fehlerhaft erstellten Bilder hat sich nach meinem Eindruck deutlich reduziert. Die Probleme mit der Rechtschreibung werden vermutlich länger dauern. Informationen zur richtigen Rechtschreibung sind deutlich komplexer und man bedenke nur die Vielzahl verschiedener Sprachen.

Adobe Firefly wurde deshalb anfangs darauf trainiert, keine Bilder mit Schrift zu erstellen. Inzwischen geht es. Bei dem Prompt: „Erstelle ein Bild einer deutschen Kleinstadt mit einem Ortseingangsschild“, kommt trotzdem nur unleserlicher Text.

Eine Ausnahme bei der Bilderstellung mit Text stellt Ideogramm dar. Dieses Modell kann sehr gut mit Text umgehen. Für einen Vergleich der KI klicke hier.

Warum machen ChatGPT und Co Fehler in ihren Antworten?

Warum begehen Text-KI Fehler?
Die Textgeneratoren hingegen scheinen die Eingaben und Ausgaben wie ein Mensch zu erfassen. Tatsächlich erzeugen sie die Antwort durch mathematische und statistische Verfahren. Ein Verständnis der Aufforderung und der generierten Antwort haben sie nicht. Die Text KI’s erkennen Muster in deiner Eingabe und gleichen diese mit den Trainingsdaten ab. Wirklich verstehen können Sie den Text noch nicht.

Auch ChatGPT 4 führst du an seine Grenzen, indem es ein Wort mit 10 Buchstaben ohne „A“ und „E“ schreiben soll. Ich bekomme „Kronjuwels“ als Antwort. Die Vorbereitung eines Referats oder einer Präsentation stellt ChatGPT überhaupt nicht vor eine Herausforderung.

Large Language Models (LLM’s) verstehen den Zusammenhang einzelner Buchstaben und die Bedeutung der Wörter nicht.

Die LLM’s transferieren die Bestandteile deiner Eingabe in sogenannten Token. Mit mathematischen und statistischen Verfahren werden die einzelnen Tokens in eine Beziehung zueinander gesetzt. Das LLM erkennt hierbei Muster und gleicht diese mit den Trainingsdaten ab. Aufgrund dieser Informationen wird deine Antwort erzeugt.

Wie erkennt man KI Bilder?

Ein von einer KI erstelltes Bild erkennt man heute an fehlerhaften Details.

Das kann z. B. Text innerhalb des Bildes sein, der aufgrund der unsauberen oder falschen Schrift leicht als KI-Bild erkennbar ist. Diese Fehler können auch an anderer Stelle auftreten. So können Gitarren mit 7 Saiten dargestellt werden oder die Proportionen menschlicher Körper passen in den Details nicht.

Zweifellos wird es in Zukunft schwieriger solche fehlerhaften Details zu erkennen, da sich die KI-Modelle rasend schnell entwickeln.

Das ist der Grund, warum an der Kennzeichnung vor KI-Bildern gearbeitet wird. Adobe Firefly schreibt die Informationen heute bereits beim Download in die erzeugten Bilder.

Für dich interessant …

Die mit einem * Symbol gekennzeichneten Links sind Affiliate-Links. Erfolgt darüber ein Einkauf, erhalten wir eine Provision ohne Mehrkosten für dich. Die redaktionelle Auswahl und Bewertung der Produkte bleibt davon unbeeinflusst. Dein Klick hilft bei der Finanzierung unseres kostenfreien Angebots. Erfahre mehr.

2 Antworten zu „Das ist der wahre Grund, warum KI Rechtschreibfehler macht.“

Thilo

16. Dezember 2024

Der wahre Grund ist monetärer Natur. Ich kenne jedenfalls keine “KI” die kostenfrei beliebig viele Bilder erstellen kann und jeder Rechtschreibfehler ist ärgerlich und erfordert einen weiteren Versuch, der einen näher an das freie Kontingent führt.

Einfach testen und ein Bild mit drei Wörtern erstellen, z.B. “Happy Birthday René”, du wirst nie ein Bild erhalten, in den jedes Wort richtig geschrieben ist. Selbst dann nicht , wenn man der KI sagt, welches Wort falsch ist, nochmals auf die richtige Schreibweise hinweist sowie explizit die anderen richtigen Teile im Bild von der erneuten Überarbeitung Ausschließt.

Man könnte auch identische Wörter benutzen, selbst dann ist immer eines falsch. Und gerade anhand der Geburtstagwünsche fliegt die scheinheilige Sache eben auf, weil es Millionen Beispiele dazu im Netz gibt, die KI damit trainiert ist. Auch ein Name wie René ist nicht selten. Wenn Wörter wie Donaudampfschiffahrtsgesellschaftskapitänsmütze falsch geschrieben sind, könnte man das noch irgendwie verstehen.
Rene

17. Dezember 2024

Danke Tilo für deinen Beitrag.
Es gibt kostenlose Bild-KI, diese kannst du zB auf deinem PC laufen lassen. Zwei Beispiele sind NMKD Stable Diffusion GUI oder Automatic 1111. Es gibt aber unzählige andere Tools.
Dort kannst du gut sehen, wie ein einzelnes Bild entsteht. Das ist anfangs ein total verrauschtes Bild, was mit jeder Berechnung sichtbarer und klarer wird. Mit jedem Schritt wird das Rauschen weniger. Beim Training einer Bild KI geht das in umgekehrter Richtung. Da wird das Rauschen immer stärker. Irgendwann ist die Schrift nicht mehr erkennbar und geht verloren.
Zum Glück gibt es inzwischen mit Flux und Ideogram Bild KI, die Schrift gut beherrscht. Fehlerfrei ist das allerdings noch nicht. Auch dort werden Bilder mit unleserlicher Schrift erzeugt.