ComfyUI Texte vers Image : Guide Complet et Dépannage
Guide étape par étape pour générer des images IA à partir de prompts texte dans ComfyUI — avec des astuces de prompts, le réglage des paramètres et les solutions aux problèmes courants.
Qu'est-ce que le Text to Image ?
Le Text to Image est le workflow d'art IA le plus fondamental — vous décrivez ce que vous voulez en mots, et le modèle IA génère une image correspondante. Dans ComfyUI, cela se construit sous forme de graphe de nœuds où chaque nœud gère une étape du pipeline de génération.
Le processus implique trois éléments essentiels :
- Un modèle de génération — le réseau neuronal qui crée l'image (ex. Stable Diffusion 1.5)
- Le Latent Space — l'espace mathématique compressé où l'image prend forme progressivement
- Les Prompts — vos descriptions textuelles divisées en positif (éléments souhaités) et négatif (éléments à éviter)
Prérequis
Avant de commencer, assurez-vous d'avoir :
- ComfyUI installé et en cours d'exécution (Démarrage rapide)
- Au moins un modèle checkpoint dans votre dossier
ComfyUI/models/checkpoints
Pour ce tutoriel, nous utiliserons le modèle SD1.5. Vous pouvez télécharger v1-5-pruned-emaonly-fp16.safetensors depuis HuggingFace.
Si vous avez installé ComfyUI Desktop, vous pouvez télécharger les modèles directement via l'interface sans gestion manuelle des fichiers.
Construction du Workflow
Le workflow Text to Image par défaut utilise six types de nœuds (avec le CLIP Text Encode apparaissant deux fois — une pour le prompt positif et une pour le négatif). Voici la fonction de chacun :
Load Checkpoint
Charge votre modèle IA. Un checkpoint regroupe généralement trois composants :
| Composant | Rôle |
|---|---|
| MODEL (UNet) | Prédit et supprime le bruit pendant le processus de diffusion |
| CLIP | Convertit vos prompts texte en vecteurs numériques compréhensibles par le modèle |
| VAE | Traduit entre le Latent Space (où le modèle travaille) et l'espace pixel (ce que vous voyez) |
Empty Latent Image
Définit la taille du canevas. Ce nœud crée un Latent Space vide rempli de bruit aléatoire — le point de départ de la génération. La largeur et la hauteur déterminent les dimensions finales de votre image.
Pour SD1.5, restez à 512×512 pour de meilleurs résultats. Le modèle a été entraîné à cette résolution.
CLIP Text Encode (x2)
Vous en avez besoin de deux — un pour votre prompt positif (ce que vous voulez) et un pour votre prompt négatif (ce qu'il faut éviter). L'encodeur CLIP convertit votre texte en vecteurs sémantiques qui guident le processus de débruitage.
KSampler
C'est le cœur du workflow. Il prend le latent bruité, le modèle et vos conditions de prompt, puis débruite itérativement l'image sur plusieurs étapes.
Paramètres clés :
| Paramètre | Ce qu'il contrôle |
|---|---|
| seed | Aléatoire — même seed + mêmes paramètres = même image |
| steps | Nombre d'itérations de débruitage. Plus de steps = plus de détails, génération plus lente |
| cfg | À quel point le modèle suit votre prompt. Trop bas = ignore le prompt. Trop haut = artefacts |
| denoise | Intensité du bruit. Gardez à 1.0 pour le Text to Image (génération complète à partir du bruit) |
VAE Decode
Convertit le latent débruité en une image visible.
Save Image
Affiche et sauvegarde votre résultat dans le dossier ComfyUI/output.
Écrire des Prompts Efficaces
De bons prompts font une énorme différence sur la qualité du résultat. Voici des conseils pratiques pour SD1.5 :
À faire :
- Écrire en anglais pour de meilleurs résultats
- Utiliser des phrases séparées par des virgules, pas des phrases complètes
- Être spécifique : "golden sunset over calm ocean" est mieux que "nice landscape"
- Ajouter des amplificateurs de qualité :
masterpiece, best quality, highly detailed - Utiliser des pondérations pour l'emphase :
(golden hour:1.2)renforce ce concept
À éviter :
- Écrire de longs paragraphes — le modèle répond mieux aux mots-clés concis
- Oublier les prompts négatifs — ils sont essentiels pour éviter les artefacts courants
Exemple : Style Anime
Positif :
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityNégatif :
low quality, blurry, deformed hands, extra fingersExemple : Portrait Photoréaliste
Positif :
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingNégatif :
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingersComment ça Fonctionne en Coulisses
Le Text to Image est un processus de diffusion inverse :
- On commence avec du bruit aléatoire pur dans le Latent Space
- Le modèle prédit quel bruit supprimer à chaque étape
- Vos prompts texte (encodés en vecteurs) orientent la direction du débruitage
- Après toutes les étapes, le VAE décode le résultat en pixels
Le Latent Space est une représentation mathématique compressée — bien plus petite que l'image réelle. C'est pourquoi les modèles de diffusion peuvent fonctionner sur du matériel grand public. Pensez-y comme travailler sur une esquisse (latent) avant de peindre l'œuvre finale (pixels).
À propos de SD1.5
Stable Diffusion 1.5 est l'un des modèles de génération d'images open-source les plus utilisés :
- Taille : ~4 Go — fonctionne sur les GPU avec 6 Go+ de VRAM
- Point optimal : résolution 512×512
- Écosystème : Immense bibliothèque de LoRAs, ControlNets et fine-tunes communautaires
- Compromis : Peut avoir des difficultés avec les mains, l'éclairage complexe et les résolutions au-dessus de 512px
Malgré des modèles plus récents comme SDXL et Flux, SD1.5 reste un excellent point de départ pour apprendre ComfyUI grâce à sa rapidité et son accessibilité matérielle.
Problèmes Courants et Solutions
La sortie est floue ou de basse qualité
- Augmenter les steps — essayez 25–30 au lieu des 20 par défaut
- Augmenter le cfg — essayez 7–9 pour une meilleure adhérence au prompt
- Ajouter des mots-clés de qualité —
masterpiece, best quality, highly detailed, 4kdans votre prompt positif - Vérifier la résolution — SD1.5 fonctionne mieux à 512×512. Aller plus haut sans upscaling dégrade souvent la qualité
Les mains et les doigts sont déformés
C'est une limitation connue de SD1.5. Solutions :
- Ajoutez
deformed hands, extra fingers, bad anatomyà votre prompt négatif - Utilisez une LoRA de correction des mains (ex. "detail tweaker" ou "hand fix" LoRAs depuis Civitai)
- Générez à 512×512 puis faites un upscale ensuite
La sortie ignore mon prompt
- cfg trop bas — augmentez à 7–12 pour un meilleur suivi du prompt
- Trop de concepts — simplifiez votre prompt. Moins de mots-clés, plus spécifiques, fonctionnent mieux que de longues descriptions
- Mauvais modèle — certains checkpoints sont fine-tunés pour des styles spécifiques. Les modèles anime ne produiront pas un bon photoréalisme
"Load Checkpoint" affiche null ou vide
- Vérifiez que votre fichier
.safetensorsest dansComfyUI/models/checkpoints/ - Rafraîchissez ComfyUI (F5) ou redémarrez-le après avoir ajouté de nouveaux modèles
- Vérifiez que le fichier n'est pas corrompu (téléchargement incomplet)
La génération est très lente
- VRAM insuffisante — essayez de lancer avec le flag
--lowvram - Trop de steps — 20 steps suffisent pour des itérations rapides ; utilisez 30+ uniquement pour les rendus finaux
- Résolution trop élevée — générez à 512×512 et faites un upscale au lieu de générer à 1024×1024
Étapes Suivantes
Maintenant que vous savez générer des images à partir de texte, explorez ces workflows :
- Image vers Image — Utilisez une image de référence pour guider la génération
- Guide LoRA — Affinez vos résultats avec des adaptateurs de modèle légers
- Guide Upscale — Augmentez la résolution avec l'upscaling IA
How to Install ComfyUI Custom Nodes Without Breaking Your Environment
Install ComfyUI custom nodes safely and avoid the plugin import failures and dependency drift that often break environments.
ComfyUI Image vers Image : R茅glages Denoise et Erreurs Courantes
Ma卯trisez l'img2img dans ComfyUI 鈥?comprenez les valeurs de denoise, construisez le workflow correctement et corrigez les probl猫mes courants comme la perte de d茅tails de r茅f茅rence.
Documentation Wonderful Launcher