ComfyUI Text zu Bild: Komplette Anleitung & Fehlerbehebung

Schritt-für-Schritt-Anleitung zur Bildgenerierung aus Textprompts in ComfyUI — mit Prompt-Tipps, Parametereinstellungen und Lösungen für häufige Probleme.

Was ist Text zu Bild?

Text zu Bild ist der grundlegendste KI-Kunst-Workflow — du beschreibst in Worten, was du möchtest, und das KI-Modell erzeugt ein passendes Bild. In ComfyUI wird dies als Knotengraph aufgebaut, bei dem jeder Knoten einen Schritt der Generierungspipeline übernimmt.

Der Prozess umfasst drei Kernelemente:

Ein Generierungsmodell — das neuronale Netzwerk, das das Bild erzeugt (z.B. Stable Diffusion 1.5)
Latent Space — der komprimierte mathematische Raum, in dem das Bild schrittweise Gestalt annimmt
Prompts — deine Textbeschreibungen, aufgeteilt in positive (gewünschte Elemente) und negative (zu vermeidende Dinge)

Voraussetzungen

Bevor du beginnst, stelle sicher, dass du Folgendes hast:

ComfyUI installiert und gestartet (Schnellstart)
Mindestens ein checkpoint-Modell in deinem ComfyUI/models/checkpoints-Ordner

Für dieses Tutorial verwenden wir das SD1.5-Modell. Du kannst v1-5-pruned-emaonly-fp16.safetensors von HuggingFace herunterladen.

Wenn du ComfyUI Desktop installiert hast, kannst du Modelle direkt über die Benutzeroberfläche herunterladen, ohne Dateien manuell verwalten zu müssen.

Aufbau des Workflows

Der Standard-Text-zu-Bild-Workflow verwendet sechs Knotentypen (wobei CLIP Text Encode zweimal vorkommt — einmal für den positiven Prompt und einmal für den negativen). Hier ist die Funktion jedes Knotens:

Load Checkpoint

Lädt dein KI-Modell. Ein checkpoint bündelt typischerweise drei Komponenten:

Komponente	Funktion
MODEL (UNet)	Sagt Rauschen vorher und entfernt es während des Diffusionsprozesses
CLIP	Wandelt deine Textprompts in numerische Vektoren um, die das Modell versteht
VAE	Übersetzt zwischen Latent Space (wo das Modell arbeitet) und Pixelraum (was du siehst)

Empty Latent Image

Legt die Leinwandgröße fest. Dieser Knoten erstellt einen leeren Latent Space, gefüllt mit zufälligem Rauschen — der Ausgangspunkt für die Generierung. Breite und Höhe bestimmen hier die endgültigen Bildabmessungen.

Für SD1.5 bleibe bei 512×512 für beste Ergebnisse. Das Modell wurde mit dieser Auflösung trainiert.

CLIP Text Encode (x2)

Du benötigst zwei davon — einen für deinen positiven Prompt (was du willst) und einen für deinen negativen Prompt (was vermieden werden soll). Der CLIP-Encoder wandelt deinen Text in semantische Vektoren um, die den Entrauschungsprozess steuern.

KSampler

Dies ist das Herzstück des Workflows. Er nimmt das verrauschte Latent, das Modell und deine Prompt-Bedingungen und entrauscht das Bild iterativ über mehrere Schritte.

Wichtige Parameter:

Parameter	Was er steuert
seed	Zufallsgenerierung — gleicher seed + gleiche Einstellungen = gleiches Bild
steps	Anzahl der Entrauschungsschritte. Mehr Schritte = feinere Details, langsamere Generierung
cfg	Wie strikt das Modell deinem Prompt folgt. Zu niedrig = ignoriert Prompt. Zu hoch = Artefakte
denoise	Rauschstärke. Für Text-zu-Bild bei 1.0 belassen (vollständige Generierung aus Rauschen)

VAE Decode

Wandelt das entrauschte Latent zurück in ein sichtbares Bild.

Save Image

Zeigt dein Ergebnis an und speichert es im ComfyUI/output-Ordner.

Effektive Prompts schreiben

Gute Prompts machen einen enormen Unterschied bei der Ausgabequalität. Hier sind praktische Tipps für SD1.5:

Empfohlen:

Schreibe auf Englisch für beste Ergebnisse
Verwende kommagetrennte Phrasen, keine ganzen Sätze
Sei spezifisch: "golden sunset over calm ocean" ist besser als "nice landscape"
Füge Qualitätsverstärker hinzu: masterpiece, best quality, highly detailed
Verwende Gewichtungen zur Betonung: (golden hour:1.2) verstärkt dieses Konzept

Vermeiden:

Lange Absätze schreiben — das Modell reagiert besser auf prägnante Schlüsselwörter
Negative Prompts vergessen — sie sind essentiell, um häufige Artefakte zu vermeiden

Beispiel: Anime-Stil

Positiv:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Negativ:

low quality, blurry, deformed hands, extra fingers

Beispiel: Fotorealistisches Portrait

Positiv:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Negativ:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Wie es im Hintergrund funktioniert

Text-zu-Bild ist ein Reverse-Diffusion-Prozess:

Beginne mit reinem Zufallsrauschen im Latent Space
Das Modell sagt vorher, welches Rauschen in jedem Schritt entfernt werden soll
Deine Textprompts (als Vektoren kodiert) steuern die Entrauschungsrichtung
Nach Abschluss aller Schritte dekodiert der VAE das Ergebnis in Pixel

Der Latent Space ist eine komprimierte mathematische Darstellung — viel kleiner als das tatsächliche Bild. Deshalb können Diffusionsmodelle auf Consumer-Hardware laufen. Stelle es dir vor wie die Arbeit mit einer Skizze (Latent), bevor das endgültige Bild (Pixel) gemalt wird.

Über SD1.5

Stable Diffusion 1.5 ist eines der am weitesten verbreiteten Open-Source-Bildgenerierungsmodelle:

Größe: ~4 GB — läuft auf GPUs mit 6 GB+ VRAM
Optimaler Bereich: 512×512 Auflösung
Ökosystem: Riesige Bibliothek von LoRAs, ControlNets und Community-Feinabstimmungen
Kompromisse: Kann Probleme mit Händen, komplexer Beleuchtung und Auflösungen über 512px haben

Trotz neuerer Modelle wie SDXL und Flux bleibt SD1.5 ein hervorragender Einstiegspunkt zum Erlernen von ComfyUI dank seiner Geschwindigkeit und Hardware-Zugänglichkeit.

Häufige Probleme und Lösungen

Ausgabe ist unscharf oder von niedriger Qualität

Steps erhöhen — versuche 25–30 statt der Standard-20
cfg erhöhen — versuche 7–9 für schärfere Prompt-Befolgung
Qualitäts-Schlüsselwörter hinzufügen — masterpiece, best quality, highly detailed, 4k im positiven Prompt
Auflösung prüfen — SD1.5 funktioniert am besten bei 512×512. Höhere Auflösungen ohne Upscaling verschlechtern oft die Qualität

Hände und Finger sehen verformt aus

Dies ist eine bekannte Einschränkung von SD1.5. Abhilfemaßnahmen:

Füge deformed hands, extra fingers, bad anatomy zu deinem negativen Prompt hinzu
Verwende eine Hand-Korrektur-LoRA (z.B. "detail tweaker" oder "hand fix" LoRAs von Civitai)
Generiere bei 512×512 und führe danach ein Upscale durch

Ausgabe ignoriert meinen Prompt

cfg zu niedrig — erhöhe auf 7–12 für stärkere Prompt-Befolgung
Zu viele Konzepte — vereinfache deinen Prompt. Weniger, spezifischere Schlüsselwörter funktionieren besser als lange Beschreibungen
Falsches Modell — manche checkpoints sind auf bestimmte Stile feinabgestimmt. Anime-Modelle erzeugen keinen guten Fotorealismus

"Load Checkpoint" zeigt null oder leer an

Überprüfe, ob deine .safetensors-Datei in ComfyUI/models/checkpoints/ liegt
Aktualisiere ComfyUI (F5) oder starte es nach dem Hinzufügen neuer Modelle neu
Prüfe, ob die Datei nicht beschädigt ist (unvollständiger Download)

Generierung ist sehr langsam

VRAM unzureichend — versuche den Start mit --lowvram-Flag
Zu viele Steps — 20 Steps reichen für schnelle Iterationen; verwende 30+ nur für finale Renderings
Zu hohe Auflösung — generiere bei 512×512 und skaliere hoch, anstatt bei 1024×1024 zu generieren

Nächste Schritte

Jetzt, da du Bilder aus Text generieren kannst, erkunde diese Workflows:

Bild zu Bild — Verwende ein Referenzbild zur Steuerung der Generierung
LoRA-Anleitung — Optimiere deine Ergebnisse mit leichtgewichtigen Modelladaptern
Upscale-Anleitung — Erhöhe die Auflösung mit KI-Upscaling

Bereit, Ihre ComfyUI-Probleme zu lösen?