ComfyUI Texte vers Image : Guide Complet et Dépannage

Guide étape par étape pour générer des images IA à partir de prompts texte dans ComfyUI — avec des astuces de prompts, le réglage des paramètres et les solutions aux problèmes courants.

Qu'est-ce que le Text to Image ?

Le Text to Image est le workflow d'art IA le plus fondamental — vous décrivez ce que vous voulez en mots, et le modèle IA génère une image correspondante. Dans ComfyUI, cela se construit sous forme de graphe de nœuds où chaque nœud gère une étape du pipeline de génération.

Le processus implique trois éléments essentiels :

Un modèle de génération — le réseau neuronal qui crée l'image (ex. Stable Diffusion 1.5)
Le Latent Space — l'espace mathématique compressé où l'image prend forme progressivement
Les Prompts — vos descriptions textuelles divisées en positif (éléments souhaités) et négatif (éléments à éviter)

Prérequis

Avant de commencer, assurez-vous d'avoir :

ComfyUI installé et en cours d'exécution (Démarrage rapide)
Au moins un modèle checkpoint dans votre dossier ComfyUI/models/checkpoints

Pour ce tutoriel, nous utiliserons le modèle SD1.5. Vous pouvez télécharger v1-5-pruned-emaonly-fp16.safetensors depuis HuggingFace.

Si vous avez installé ComfyUI Desktop, vous pouvez télécharger les modèles directement via l'interface sans gestion manuelle des fichiers.

Construction du Workflow

Le workflow Text to Image par défaut utilise six types de nœuds (avec le CLIP Text Encode apparaissant deux fois — une pour le prompt positif et une pour le négatif). Voici la fonction de chacun :

Load Checkpoint

Charge votre modèle IA. Un checkpoint regroupe généralement trois composants :

Composant	Rôle
MODEL (UNet)	Prédit et supprime le bruit pendant le processus de diffusion
CLIP	Convertit vos prompts texte en vecteurs numériques compréhensibles par le modèle
VAE	Traduit entre le Latent Space (où le modèle travaille) et l'espace pixel (ce que vous voyez)

Empty Latent Image

Définit la taille du canevas. Ce nœud crée un Latent Space vide rempli de bruit aléatoire — le point de départ de la génération. La largeur et la hauteur déterminent les dimensions finales de votre image.

Pour SD1.5, restez à 512×512 pour de meilleurs résultats. Le modèle a été entraîné à cette résolution.

CLIP Text Encode (x2)

Vous en avez besoin de deux — un pour votre prompt positif (ce que vous voulez) et un pour votre prompt négatif (ce qu'il faut éviter). L'encodeur CLIP convertit votre texte en vecteurs sémantiques qui guident le processus de débruitage.

KSampler

C'est le cœur du workflow. Il prend le latent bruité, le modèle et vos conditions de prompt, puis débruite itérativement l'image sur plusieurs étapes.

Paramètres clés :

Paramètre	Ce qu'il contrôle
seed	Aléatoire — même seed + mêmes paramètres = même image
steps	Nombre d'itérations de débruitage. Plus de steps = plus de détails, génération plus lente
cfg	À quel point le modèle suit votre prompt. Trop bas = ignore le prompt. Trop haut = artefacts
denoise	Intensité du bruit. Gardez à 1.0 pour le Text to Image (génération complète à partir du bruit)

VAE Decode

Convertit le latent débruité en une image visible.

Save Image

Affiche et sauvegarde votre résultat dans le dossier ComfyUI/output.

Écrire des Prompts Efficaces

De bons prompts font une énorme différence sur la qualité du résultat. Voici des conseils pratiques pour SD1.5 :

À faire :

Écrire en anglais pour de meilleurs résultats
Utiliser des phrases séparées par des virgules, pas des phrases complètes
Être spécifique : "golden sunset over calm ocean" est mieux que "nice landscape"
Ajouter des amplificateurs de qualité : masterpiece, best quality, highly detailed
Utiliser des pondérations pour l'emphase : (golden hour:1.2) renforce ce concept

À éviter :

Écrire de longs paragraphes — le modèle répond mieux aux mots-clés concis
Oublier les prompts négatifs — ils sont essentiels pour éviter les artefacts courants

Exemple : Style Anime

Positif :

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Négatif :

low quality, blurry, deformed hands, extra fingers

Exemple : Portrait Photoréaliste

Positif :

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Négatif :

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Comment ça Fonctionne en Coulisses

Le Text to Image est un processus de diffusion inverse :

On commence avec du bruit aléatoire pur dans le Latent Space
Le modèle prédit quel bruit supprimer à chaque étape
Vos prompts texte (encodés en vecteurs) orientent la direction du débruitage
Après toutes les étapes, le VAE décode le résultat en pixels

Le Latent Space est une représentation mathématique compressée — bien plus petite que l'image réelle. C'est pourquoi les modèles de diffusion peuvent fonctionner sur du matériel grand public. Pensez-y comme travailler sur une esquisse (latent) avant de peindre l'œuvre finale (pixels).

À propos de SD1.5

Stable Diffusion 1.5 est l'un des modèles de génération d'images open-source les plus utilisés :

Taille : ~4 Go — fonctionne sur les GPU avec 6 Go+ de VRAM
Point optimal : résolution 512×512
Écosystème : Immense bibliothèque de LoRAs, ControlNets et fine-tunes communautaires
Compromis : Peut avoir des difficultés avec les mains, l'éclairage complexe et les résolutions au-dessus de 512px

Malgré des modèles plus récents comme SDXL et Flux, SD1.5 reste un excellent point de départ pour apprendre ComfyUI grâce à sa rapidité et son accessibilité matérielle.

Problèmes Courants et Solutions

La sortie est floue ou de basse qualité

Augmenter les steps — essayez 25–30 au lieu des 20 par défaut
Augmenter le cfg — essayez 7–9 pour une meilleure adhérence au prompt
Ajouter des mots-clés de qualité — masterpiece, best quality, highly detailed, 4k dans votre prompt positif
Vérifier la résolution — SD1.5 fonctionne mieux à 512×512. Aller plus haut sans upscaling dégrade souvent la qualité

Les mains et les doigts sont déformés

C'est une limitation connue de SD1.5. Solutions :

Ajoutez deformed hands, extra fingers, bad anatomy à votre prompt négatif
Utilisez une LoRA de correction des mains (ex. "detail tweaker" ou "hand fix" LoRAs depuis Civitai)
Générez à 512×512 puis faites un upscale ensuite

La sortie ignore mon prompt

cfg trop bas — augmentez à 7–12 pour un meilleur suivi du prompt
Trop de concepts — simplifiez votre prompt. Moins de mots-clés, plus spécifiques, fonctionnent mieux que de longues descriptions
Mauvais modèle — certains checkpoints sont fine-tunés pour des styles spécifiques. Les modèles anime ne produiront pas un bon photoréalisme

"Load Checkpoint" affiche null ou vide

Vérifiez que votre fichier .safetensors est dans ComfyUI/models/checkpoints/
Rafraîchissez ComfyUI (F5) ou redémarrez-le après avoir ajouté de nouveaux modèles
Vérifiez que le fichier n'est pas corrompu (téléchargement incomplet)

La génération est très lente

VRAM insuffisante — essayez de lancer avec le flag --lowvram
Trop de steps — 20 steps suffisent pour des itérations rapides ; utilisez 30+ uniquement pour les rendus finaux
Résolution trop élevée — générez à 512×512 et faites un upscale au lieu de générer à 1024×1024

Étapes Suivantes

Maintenant que vous savez générer des images à partir de texte, explorez ces workflows :

Image vers Image — Utilisez une image de référence pour guider la génération
Guide LoRA — Affinez vos résultats avec des adaptateurs de modèle légers
Guide Upscale — Augmentez la résolution avec l'upscaling IA

Prêt à résoudre vos problèmes ComfyUI ?