01. Mär 2024 Erstellt von Alexander Jordan

Text und Schrift im KI-BildText in KI-generierte Bilder integrieren?

Text in KI-generierte Bilder integrieren?
Text in KI-generierte Bilder integrieren?

Bildgenerierung mit Künstlicher Intelligenz hat in kurzer Zeit große Fortschritte gemacht. Schon lange waren Hände und Gesichter, aber auch Text in Bildern eklatante Schwachpunkte.

Wie gut funktioniert es aktuell, Text in KI generierte Bilder zu integrieren?

Problem gelöst: Hände und Gesichter

Das Problem von Händen mit sechs Fingern oder Gesichtern, die eher Frankenstein-Fantasien weckten, gehören dank der neuesten Bildgenerierungsmodelle, wie Stable Diffusion XL oder Midjourney 5.x eher der Vergangenheit an.

Hier einmal ein Vergleich mit dem Prompt “face of a young women” in Midjourney mit Version 1 und Version 5.

Version 1

Version 1
Version 1

Version 5

Version 5
Version 5

Vergleich Midjourney V1 versus V5

Problem fast gelöst: Texte in Bildern - Verbesserung in Sicht

Ein Problem blieb jedoch bislang: Text in KI generierten Bildern.
Allerdings mehren sich die Anzeichen, dass sich dies gerade ändert und solche Probleme in Zukunft gelöst sein könnten. Dieser Artikel wirft einen Blick auf den aktuellen Stand.
Dazu wurden 4 Bildgenerierer und ein Bild-Optimierungstool getestet:

Neuer Anbieter Ideogram von Beginn an Fähigkeit zur Textgenerierung

Der neue Anbieter im Textgenerierungsfeld Ideogram glänzt bereits vom Start weg mit guten Textgenerierungsfähigkeiten in seinen Bildern. Hier einmal das Ergebnis des Prompts “a wall of a living room in an urban apartment with a neon light writing saying KI Toolparty was here“. Von den vier erzeugten Varianten war eine dabei, die den vollständigen Text wie “gepromptet” generiert zeigt, die anderen haben nur den ersten Teil erzeugt - KI Toolparty - und diesen zumindest bei zwei Varianten richtig geschrieben.

Ergebnis Ideogram
Ergebnis Ideogram

Stable Diffusion in Version XL erzeugt Texte in begrenztem Umfang

Die letzte Version des Bild Generierungs-Systems Stable Diffusion in der Version XL kann nur einfache Texte generieren. Ich testete das mit dem gleichen Prompt “a wall of a living room in an urban apartment with a neon light writing saying KI Toolparty was here“. Das Ergebnis fiel leider schon deutlich schlechter aus als bei Ideogram. Bei einer von vier Varianten war zumindest der erste Teil - KI Toolparty - erzeugt, allerdings nicht zusammengeschrieben, sondern als - KI Tool Party - .

Ergebnis Stable Diffusion
Ergebnis Stable Diffusion

Midjourney

Mit der Version 6 ist nun auch der beliebte Bildgenerierer Midjourney in der Lage Texte in Bildern anzuzeigen. Auch hier wird der Prompt mit dem Wohnzimmer und der Leuchtschrift verwendet, allerdings leicht abgewandelt, da es bei Midjourney wichtig ist im Prompt den Text in Anführungszeichen zu setzen klar im Befehl als Textausgabe zu spezifizieren. Hier der verwendete Prompt: a wall of a living room in an urban apartment with a neon light writing saying text "KI Toolparty was here". Das Ergebnis ist passabel und ähnlich wie bei Ideogram. Eine der vier erzeugten Bildvarianten hatte den geforderten Text im Bild.
Ergebnis Midjourney
Ergebnis Midjourney

Dall-E 3

Nachdem ChatGPT seine Fähigkeiten neben Text auch mit Bild und Daten umzugehen, hat der vormals als eigenständiger Dienst bestehend Bildgenerierungsservice Dall-E mit der Fassung Version 3 in ChatGPT Einzug erhalten. Auch dieser kann Text im Bild darstellen. Da hier auch Deutsch eine akzeptierte Eingabesprache ist, haben wir den Prompt auf Deutsch eingegeben. Allerdings noch mit dem vorangestellten Hinweis, das die Aufgabe ist ein Bild zu erzeugen. Hier der Prompt: Erstelle folgendes Bild: eine Wohnzimmerwand in einer städtischen Wohnung mit einem Neonschriftzug, auf dem steht "KI Toolparty was here". Dall-E 3 erzeugt immer nur ein Bild. Das erste hat nicht geklappt, der 2. Anlauf war dann in Ordnung, allerdings das KI war nicht sehr leserlich. Anlauf 3 und 4 war dann wiederum nicht korrekt.

Ergebnis DALL-E3
Ergebnis DALL-E3

Storia Textify verbessert fehlerhafte Textgenerierungen

Das Tool Storia Textify (gratis) tritt an um fehlerhafte Textgenerierungen zu verbessern. Nach dem Upload des Problembilds wird der Bereich mit dem Text markiert und der korrekte Text eingegeben. In unserem Test habe ich das mit einer Stable Diffusion Generierung getestet um noch einen Bindestrich zwischen KI und Toolparty einzuziehen, also - KI-Toolparty - . Leider hat das nicht so recht funktioniert, denn es wurde ein anderer Wort-Trenner generiert - siehe nachfolgende Abbildung:
Ergebnis 1 Textify
Ergebnis 1 Textify

Vielleicht ist das mit der Neonreklameschrift auch etwas herausfordernd, deshalb hatte ich den Prompt noch einmal abgewandelt: “a wall of a living room in an urban apartment with a poster saying KI Toolparty was here”

Ergebnis 2 Textify
Ergebnis 2 Textify

Das Ergebnis war jedoch wieder nicht zufriedenstellend. Denn perfekt korrigieren konnte ich es in diesem Fall auch nicht.

Mein Fazit:

  • Texterzeugung in KI generierten Bildern funktioniert aktuell nur mit kurzen Texten (2 bis 4 Worte)
  • Englischer Text eignet sich deutlich besser als deutscher Text
  • Ideogram, Midjourney und Dall-E 3 sind auf einem ähnlichen Niveau - Alle haben gemein, dass es meist mehrere Versuche braucht

Tool-Ebene:

Fazit, die Möglichkeit Text in Bilder zu bekommen, ist ein Feature, das bereits 3 Bildgenerierer bieten. Vorreiter war hier im August 2023 Ideogram aber Dall-E und Midjourney haben mit Ihren neueren Versionen noch im Jahre 2023 nachgezogen. Midjourney verbessert insgesamt stetig seine Qualität und Features, darunter auch die Textfähigkeit. Am 22. Februar wurde Stable Diffusion 3 angekündigt, u.a. mit hervorragenden Textfähigkeiten. Es bleibt spannend, zu beobachten, wie die Textfähigkeiten sich entwickeln werden.