ComfyUI Text zu Bild: Komplette Anleitung & Fehlerbehebung
Schritt-für-Schritt-Anleitung zur Bildgenerierung aus Textprompts in ComfyUI — mit Prompt-Tipps, Parametereinstellungen und Lösungen für häufige Probleme.
Was ist Text zu Bild?
Text zu Bild ist der grundlegendste KI-Kunst-Workflow — du beschreibst in Worten, was du möchtest, und das KI-Modell erzeugt ein passendes Bild. In ComfyUI wird dies als Knotengraph aufgebaut, bei dem jeder Knoten einen Schritt der Generierungspipeline übernimmt.
Der Prozess umfasst drei Kernelemente:
- Ein Generierungsmodell — das neuronale Netzwerk, das das Bild erzeugt (z.B. Stable Diffusion 1.5)
- Latent Space — der komprimierte mathematische Raum, in dem das Bild schrittweise Gestalt annimmt
- Prompts — deine Textbeschreibungen, aufgeteilt in positive (gewünschte Elemente) und negative (zu vermeidende Dinge)
Voraussetzungen
Bevor du beginnst, stelle sicher, dass du Folgendes hast:
- ComfyUI installiert und gestartet (Schnellstart)
- Mindestens ein checkpoint-Modell in deinem
ComfyUI/models/checkpoints-Ordner
Für dieses Tutorial verwenden wir das SD1.5-Modell. Du kannst v1-5-pruned-emaonly-fp16.safetensors von HuggingFace herunterladen.
Wenn du ComfyUI Desktop installiert hast, kannst du Modelle direkt über die Benutzeroberfläche herunterladen, ohne Dateien manuell verwalten zu müssen.
Aufbau des Workflows
Der Standard-Text-zu-Bild-Workflow verwendet sechs Knotentypen (wobei CLIP Text Encode zweimal vorkommt — einmal für den positiven Prompt und einmal für den negativen). Hier ist die Funktion jedes Knotens:
Load Checkpoint
Lädt dein KI-Modell. Ein checkpoint bündelt typischerweise drei Komponenten:
| Komponente | Funktion |
|---|---|
| MODEL (UNet) | Sagt Rauschen vorher und entfernt es während des Diffusionsprozesses |
| CLIP | Wandelt deine Textprompts in numerische Vektoren um, die das Modell versteht |
| VAE | Übersetzt zwischen Latent Space (wo das Modell arbeitet) und Pixelraum (was du siehst) |
Empty Latent Image
Legt die Leinwandgröße fest. Dieser Knoten erstellt einen leeren Latent Space, gefüllt mit zufälligem Rauschen — der Ausgangspunkt für die Generierung. Breite und Höhe bestimmen hier die endgültigen Bildabmessungen.
Für SD1.5 bleibe bei 512×512 für beste Ergebnisse. Das Modell wurde mit dieser Auflösung trainiert.
CLIP Text Encode (x2)
Du benötigst zwei davon — einen für deinen positiven Prompt (was du willst) und einen für deinen negativen Prompt (was vermieden werden soll). Der CLIP-Encoder wandelt deinen Text in semantische Vektoren um, die den Entrauschungsprozess steuern.
KSampler
Dies ist das Herzstück des Workflows. Er nimmt das verrauschte Latent, das Modell und deine Prompt-Bedingungen und entrauscht das Bild iterativ über mehrere Schritte.
Wichtige Parameter:
| Parameter | Was er steuert |
|---|---|
| seed | Zufallsgenerierung — gleicher seed + gleiche Einstellungen = gleiches Bild |
| steps | Anzahl der Entrauschungsschritte. Mehr Schritte = feinere Details, langsamere Generierung |
| cfg | Wie strikt das Modell deinem Prompt folgt. Zu niedrig = ignoriert Prompt. Zu hoch = Artefakte |
| denoise | Rauschstärke. Für Text-zu-Bild bei 1.0 belassen (vollständige Generierung aus Rauschen) |
VAE Decode
Wandelt das entrauschte Latent zurück in ein sichtbares Bild.
Save Image
Zeigt dein Ergebnis an und speichert es im ComfyUI/output-Ordner.
Effektive Prompts schreiben
Gute Prompts machen einen enormen Unterschied bei der Ausgabequalität. Hier sind praktische Tipps für SD1.5:
Empfohlen:
- Schreibe auf Englisch für beste Ergebnisse
- Verwende kommagetrennte Phrasen, keine ganzen Sätze
- Sei spezifisch: "golden sunset over calm ocean" ist besser als "nice landscape"
- Füge Qualitätsverstärker hinzu:
masterpiece, best quality, highly detailed - Verwende Gewichtungen zur Betonung:
(golden hour:1.2)verstärkt dieses Konzept
Vermeiden:
- Lange Absätze schreiben — das Modell reagiert besser auf prägnante Schlüsselwörter
- Negative Prompts vergessen — sie sind essentiell, um häufige Artefakte zu vermeiden
Beispiel: Anime-Stil
Positiv:
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityNegativ:
low quality, blurry, deformed hands, extra fingersBeispiel: Fotorealistisches Portrait
Positiv:
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingNegativ:
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingersWie es im Hintergrund funktioniert
Text-zu-Bild ist ein Reverse-Diffusion-Prozess:
- Beginne mit reinem Zufallsrauschen im Latent Space
- Das Modell sagt vorher, welches Rauschen in jedem Schritt entfernt werden soll
- Deine Textprompts (als Vektoren kodiert) steuern die Entrauschungsrichtung
- Nach Abschluss aller Schritte dekodiert der VAE das Ergebnis in Pixel
Der Latent Space ist eine komprimierte mathematische Darstellung — viel kleiner als das tatsächliche Bild. Deshalb können Diffusionsmodelle auf Consumer-Hardware laufen. Stelle es dir vor wie die Arbeit mit einer Skizze (Latent), bevor das endgültige Bild (Pixel) gemalt wird.
Über SD1.5
Stable Diffusion 1.5 ist eines der am weitesten verbreiteten Open-Source-Bildgenerierungsmodelle:
- Größe: ~4 GB — läuft auf GPUs mit 6 GB+ VRAM
- Optimaler Bereich: 512×512 Auflösung
- Ökosystem: Riesige Bibliothek von LoRAs, ControlNets und Community-Feinabstimmungen
- Kompromisse: Kann Probleme mit Händen, komplexer Beleuchtung und Auflösungen über 512px haben
Trotz neuerer Modelle wie SDXL und Flux bleibt SD1.5 ein hervorragender Einstiegspunkt zum Erlernen von ComfyUI dank seiner Geschwindigkeit und Hardware-Zugänglichkeit.
Häufige Probleme und Lösungen
Ausgabe ist unscharf oder von niedriger Qualität
- Steps erhöhen — versuche 25–30 statt der Standard-20
- cfg erhöhen — versuche 7–9 für schärfere Prompt-Befolgung
- Qualitäts-Schlüsselwörter hinzufügen —
masterpiece, best quality, highly detailed, 4kim positiven Prompt - Auflösung prüfen — SD1.5 funktioniert am besten bei 512×512. Höhere Auflösungen ohne Upscaling verschlechtern oft die Qualität
Hände und Finger sehen verformt aus
Dies ist eine bekannte Einschränkung von SD1.5. Abhilfemaßnahmen:
- Füge
deformed hands, extra fingers, bad anatomyzu deinem negativen Prompt hinzu - Verwende eine Hand-Korrektur-LoRA (z.B. "detail tweaker" oder "hand fix" LoRAs von Civitai)
- Generiere bei 512×512 und führe danach ein Upscale durch
Ausgabe ignoriert meinen Prompt
- cfg zu niedrig — erhöhe auf 7–12 für stärkere Prompt-Befolgung
- Zu viele Konzepte — vereinfache deinen Prompt. Weniger, spezifischere Schlüsselwörter funktionieren besser als lange Beschreibungen
- Falsches Modell — manche checkpoints sind auf bestimmte Stile feinabgestimmt. Anime-Modelle erzeugen keinen guten Fotorealismus
"Load Checkpoint" zeigt null oder leer an
- Überprüfe, ob deine
.safetensors-Datei inComfyUI/models/checkpoints/liegt - Aktualisiere ComfyUI (F5) oder starte es nach dem Hinzufügen neuer Modelle neu
- Prüfe, ob die Datei nicht beschädigt ist (unvollständiger Download)
Generierung ist sehr langsam
- VRAM unzureichend — versuche den Start mit
--lowvram-Flag - Zu viele Steps — 20 Steps reichen für schnelle Iterationen; verwende 30+ nur für finale Renderings
- Zu hohe Auflösung — generiere bei 512×512 und skaliere hoch, anstatt bei 1024×1024 zu generieren
Nächste Schritte
Jetzt, da du Bilder aus Text generieren kannst, erkunde diese Workflows:
- Bild zu Bild — Verwende ein Referenzbild zur Steuerung der Generierung
- LoRA-Anleitung — Optimiere deine Ergebnisse mit leichtgewichtigen Modelladaptern
- Upscale-Anleitung — Erhöhe die Auflösung mit KI-Upscaling
How to Install ComfyUI Custom Nodes Without Breaking Your Environment
Install ComfyUI custom nodes safely and avoid the plugin import failures and dependency drift that often break environments.
ComfyUI Bild zu Bild: Denoise-Einstellungen & h盲ufige Fehler
img2img in ComfyUI meistern 鈥?Denoise-Werte verstehen, den Workflow korrekt aufbauen und h盲ufige Probleme wie den Verlust von Referenzdetails beheben.
Wonderful Launcher Dokumentation