LogoWonderful Launcher
  • Startseite
  • Preise
  • Doku
  • Download
Diese Übersetzung wurde noch nicht als mit der verifizierten englischen Quelle synchronisiert markiert. Sie bleibt als Referenz verfügbar, wird aber nicht in die Sitemap aufgenommen.

ComfyUI Text zu Bild: Komplette Anleitung & Fehlerbehebung

Needs verification

Schritt-für-Schritt-Anleitung zur Bildgenerierung aus Textprompts in ComfyUI — mit Prompt-Tipps, Parametereinstellungen und Lösungen für häufige Probleme.

Was ist Text zu Bild?

Text zu Bild ist der grundlegendste KI-Kunst-Workflow — du beschreibst in Worten, was du möchtest, und das KI-Modell erzeugt ein passendes Bild. In ComfyUI wird dies als Knotengraph aufgebaut, bei dem jeder Knoten einen Schritt der Generierungspipeline übernimmt.

Der Prozess umfasst drei Kernelemente:

  • Ein Generierungsmodell — das neuronale Netzwerk, das das Bild erzeugt (z.B. Stable Diffusion 1.5)
  • Latent Space — der komprimierte mathematische Raum, in dem das Bild schrittweise Gestalt annimmt
  • Prompts — deine Textbeschreibungen, aufgeteilt in positive (gewünschte Elemente) und negative (zu vermeidende Dinge)

Voraussetzungen

Bevor du beginnst, stelle sicher, dass du Folgendes hast:

  1. ComfyUI installiert und gestartet (Schnellstart)
  2. Mindestens ein checkpoint-Modell in deinem ComfyUI/models/checkpoints-Ordner

Für dieses Tutorial verwenden wir das SD1.5-Modell. Du kannst v1-5-pruned-emaonly-fp16.safetensors von HuggingFace herunterladen.

Wenn du ComfyUI Desktop installiert hast, kannst du Modelle direkt über die Benutzeroberfläche herunterladen, ohne Dateien manuell verwalten zu müssen.

Aufbau des Workflows

Der Standard-Text-zu-Bild-Workflow verwendet sechs Knotentypen (wobei CLIP Text Encode zweimal vorkommt — einmal für den positiven Prompt und einmal für den negativen). Hier ist die Funktion jedes Knotens:

Load Checkpoint

Lädt dein KI-Modell. Ein checkpoint bündelt typischerweise drei Komponenten:

KomponenteFunktion
MODEL (UNet)Sagt Rauschen vorher und entfernt es während des Diffusionsprozesses
CLIPWandelt deine Textprompts in numerische Vektoren um, die das Modell versteht
VAEÜbersetzt zwischen Latent Space (wo das Modell arbeitet) und Pixelraum (was du siehst)

Empty Latent Image

Legt die Leinwandgröße fest. Dieser Knoten erstellt einen leeren Latent Space, gefüllt mit zufälligem Rauschen — der Ausgangspunkt für die Generierung. Breite und Höhe bestimmen hier die endgültigen Bildabmessungen.

Für SD1.5 bleibe bei 512×512 für beste Ergebnisse. Das Modell wurde mit dieser Auflösung trainiert.

CLIP Text Encode (x2)

Du benötigst zwei davon — einen für deinen positiven Prompt (was du willst) und einen für deinen negativen Prompt (was vermieden werden soll). Der CLIP-Encoder wandelt deinen Text in semantische Vektoren um, die den Entrauschungsprozess steuern.

KSampler

Dies ist das Herzstück des Workflows. Er nimmt das verrauschte Latent, das Modell und deine Prompt-Bedingungen und entrauscht das Bild iterativ über mehrere Schritte.

Wichtige Parameter:

ParameterWas er steuert
seedZufallsgenerierung — gleicher seed + gleiche Einstellungen = gleiches Bild
stepsAnzahl der Entrauschungsschritte. Mehr Schritte = feinere Details, langsamere Generierung
cfgWie strikt das Modell deinem Prompt folgt. Zu niedrig = ignoriert Prompt. Zu hoch = Artefakte
denoiseRauschstärke. Für Text-zu-Bild bei 1.0 belassen (vollständige Generierung aus Rauschen)

VAE Decode

Wandelt das entrauschte Latent zurück in ein sichtbares Bild.

Save Image

Zeigt dein Ergebnis an und speichert es im ComfyUI/output-Ordner.

Effektive Prompts schreiben

Gute Prompts machen einen enormen Unterschied bei der Ausgabequalität. Hier sind praktische Tipps für SD1.5:

Empfohlen:

  • Schreibe auf Englisch für beste Ergebnisse
  • Verwende kommagetrennte Phrasen, keine ganzen Sätze
  • Sei spezifisch: "golden sunset over calm ocean" ist besser als "nice landscape"
  • Füge Qualitätsverstärker hinzu: masterpiece, best quality, highly detailed
  • Verwende Gewichtungen zur Betonung: (golden hour:1.2) verstärkt dieses Konzept

Vermeiden:

  • Lange Absätze schreiben — das Modell reagiert besser auf prägnante Schlüsselwörter
  • Negative Prompts vergessen — sie sind essentiell, um häufige Artefakte zu vermeiden

Beispiel: Anime-Stil

Positiv:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Negativ:

low quality, blurry, deformed hands, extra fingers

Beispiel: Fotorealistisches Portrait

Positiv:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Negativ:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Wie es im Hintergrund funktioniert

Text-zu-Bild ist ein Reverse-Diffusion-Prozess:

  1. Beginne mit reinem Zufallsrauschen im Latent Space
  2. Das Modell sagt vorher, welches Rauschen in jedem Schritt entfernt werden soll
  3. Deine Textprompts (als Vektoren kodiert) steuern die Entrauschungsrichtung
  4. Nach Abschluss aller Schritte dekodiert der VAE das Ergebnis in Pixel

Der Latent Space ist eine komprimierte mathematische Darstellung — viel kleiner als das tatsächliche Bild. Deshalb können Diffusionsmodelle auf Consumer-Hardware laufen. Stelle es dir vor wie die Arbeit mit einer Skizze (Latent), bevor das endgültige Bild (Pixel) gemalt wird.

Über SD1.5

Stable Diffusion 1.5 ist eines der am weitesten verbreiteten Open-Source-Bildgenerierungsmodelle:

  • Größe: ~4 GB — läuft auf GPUs mit 6 GB+ VRAM
  • Optimaler Bereich: 512×512 Auflösung
  • Ökosystem: Riesige Bibliothek von LoRAs, ControlNets und Community-Feinabstimmungen
  • Kompromisse: Kann Probleme mit Händen, komplexer Beleuchtung und Auflösungen über 512px haben

Trotz neuerer Modelle wie SDXL und Flux bleibt SD1.5 ein hervorragender Einstiegspunkt zum Erlernen von ComfyUI dank seiner Geschwindigkeit und Hardware-Zugänglichkeit.

Häufige Probleme und Lösungen

Ausgabe ist unscharf oder von niedriger Qualität

  • Steps erhöhen — versuche 25–30 statt der Standard-20
  • cfg erhöhen — versuche 7–9 für schärfere Prompt-Befolgung
  • Qualitäts-Schlüsselwörter hinzufügen — masterpiece, best quality, highly detailed, 4k im positiven Prompt
  • Auflösung prüfen — SD1.5 funktioniert am besten bei 512×512. Höhere Auflösungen ohne Upscaling verschlechtern oft die Qualität

Hände und Finger sehen verformt aus

Dies ist eine bekannte Einschränkung von SD1.5. Abhilfemaßnahmen:

  • Füge deformed hands, extra fingers, bad anatomy zu deinem negativen Prompt hinzu
  • Verwende eine Hand-Korrektur-LoRA (z.B. "detail tweaker" oder "hand fix" LoRAs von Civitai)
  • Generiere bei 512×512 und führe danach ein Upscale durch

Ausgabe ignoriert meinen Prompt

  • cfg zu niedrig — erhöhe auf 7–12 für stärkere Prompt-Befolgung
  • Zu viele Konzepte — vereinfache deinen Prompt. Weniger, spezifischere Schlüsselwörter funktionieren besser als lange Beschreibungen
  • Falsches Modell — manche checkpoints sind auf bestimmte Stile feinabgestimmt. Anime-Modelle erzeugen keinen guten Fotorealismus

"Load Checkpoint" zeigt null oder leer an

  • Überprüfe, ob deine .safetensors-Datei in ComfyUI/models/checkpoints/ liegt
  • Aktualisiere ComfyUI (F5) oder starte es nach dem Hinzufügen neuer Modelle neu
  • Prüfe, ob die Datei nicht beschädigt ist (unvollständiger Download)

Generierung ist sehr langsam

  • VRAM unzureichend — versuche den Start mit --lowvram-Flag
  • Zu viele Steps — 20 Steps reichen für schnelle Iterationen; verwende 30+ nur für finale Renderings
  • Zu hohe Auflösung — generiere bei 512×512 und skaliere hoch, anstatt bei 1024×1024 zu generieren

Nächste Schritte

Jetzt, da du Bilder aus Text generieren kannst, erkunde diese Workflows:

  • Bild zu Bild — Verwende ein Referenzbild zur Steuerung der Generierung
  • LoRA-Anleitung — Optimiere deine Ergebnisse mit leichtgewichtigen Modelladaptern
  • Upscale-Anleitung — Erhöhe die Auflösung mit KI-Upscaling

Wenn dieses Problem deine echte ComfyUI-Umgebung betrifft, starte mit Wonderful Launcher, prüfe den vorhandenen Rechner und nutze die Anleitung für die eigentliche Reparaturentscheidung.

Wonderful Launcher herunterladen

Did this fix your issue?

Your answer helps prioritize verified ComfyUI repairs.

Inhaltsverzeichnis

Was ist Text zu Bild?
Voraussetzungen
Aufbau des Workflows
Load Checkpoint
Empty Latent Image
CLIP Text Encode (x2)
KSampler
VAE Decode
Save Image
Effektive Prompts schreiben
Beispiel: Anime-Stil
Beispiel: Fotorealistisches Portrait
Wie es im Hintergrund funktioniert
Über SD1.5
Häufige Probleme und Lösungen
Ausgabe ist unscharf oder von niedriger Qualität
Hände und Finger sehen verformt aus
Ausgabe ignoriert meinen Prompt
"Load Checkpoint" zeigt null oder leer an
Generierung ist sehr langsam
Nächste Schritte