ComfyUI Texto a Imagen: Guía Completa y Solución de Problemas
Guía paso a paso para generar imágenes con IA a partir de texto en ComfyUI — con consejos de prompts, ajuste de parámetros y soluciones a problemas comunes.
¿Qué es Texto a Imagen?
Texto a Imagen es el flujo de trabajo más fundamental del arte con IA — describes lo que quieres con palabras y el modelo de IA genera una imagen correspondiente. En ComfyUI, esto se construye como un grafo de nodos donde cada nodo se encarga de un paso del pipeline de generación.
El proceso involucra tres elementos fundamentales:
- Un modelo de generación — la red neuronal que crea la imagen (por ejemplo, Stable Diffusion 1.5)
- Latent space — el espacio matemático comprimido donde la imagen toma forma gradualmente
- Prompts — tus descripciones de texto divididas en positivas (elementos deseados) y negativas (elementos a evitar)
Requisitos previos
Antes de comenzar, asegúrate de tener:
- ComfyUI instalado y funcionando (Inicio Rápido)
- Al menos un modelo checkpoint en tu carpeta
ComfyUI/models/checkpoints
Para este tutorial usaremos el modelo SD1.5. Puedes descargar v1-5-pruned-emaonly-fp16.safetensors desde HuggingFace.
Si instalaste ComfyUI Desktop, puedes descargar modelos directamente a través de la interfaz sin necesidad de gestionar archivos manualmente.
Construyendo el Flujo de Trabajo
El flujo de trabajo predeterminado de texto a imagen utiliza seis tipos de nodos (con CLIP Text Encode apareciendo dos veces — una para el prompt positivo y otra para el negativo). Esto es lo que hace cada uno:
Load Checkpoint
Carga tu modelo de IA. Un checkpoint típicamente agrupa tres componentes:
| Componente | Función |
|---|---|
| MODEL (UNet) | Predice y elimina ruido durante el proceso de difusión |
| CLIP | Convierte tus prompts de texto en vectores numéricos que el modelo entiende |
| VAE | Traduce entre latent space (donde trabaja el modelo) y espacio de píxeles (lo que ves) |
Empty Latent Image
Establece el tamaño del lienzo. Este nodo crea un latent space en blanco lleno de ruido aleatorio — el punto de partida para la generación. El ancho y alto aquí determinan las dimensiones finales de tu imagen.
Para SD1.5, mantén 512×512 para mejores resultados. El modelo fue entrenado a esta resolución.
CLIP Text Encode (x2)
Necesitas dos de estos — uno para tu prompt positivo (lo que quieres) y otro para tu prompt negativo (lo que quieres evitar). El encoder CLIP convierte tu texto en vectores semánticos que guían el proceso de denoising.
KSampler
Este es el corazón del flujo de trabajo. Toma el latent con ruido, el modelo y las condiciones de tu prompt, y luego elimina iterativamente el ruido de la imagen durante múltiples pasos.
Parámetros clave:
| Parámetro | Qué controla |
|---|---|
| seed | Aleatorización — misma seed + mismos ajustes = misma imagen |
| steps | Número de iteraciones de denoising. Más pasos = más detalle, generación más lenta |
| cfg | Qué tan estrictamente el modelo sigue tu prompt. Muy bajo = ignora el prompt. Muy alto = artefactos |
| denoise | Intensidad del ruido. Mantener en 1.0 para texto a imagen (generación completa desde ruido) |
VAE Decode
Convierte el latent sin ruido de vuelta a una imagen visible.
Save Image
Muestra y guarda tu resultado en la carpeta ComfyUI/output.
Cómo Escribir Prompts Efectivos
Buenos prompts hacen una gran diferencia en la calidad del resultado. Aquí tienes consejos prácticos para SD1.5:
Haz esto:
- Escribe en inglés para mejores resultados
- Usa frases separadas por comas, no oraciones completas
- Sé específico: "golden sunset over calm ocean" es mejor que "nice landscape"
- Añade palabras de calidad:
masterpiece, best quality, highly detailed - Usa pesos para enfatizar:
(golden hour:1.2)hace ese concepto más fuerte
No hagas esto:
- Escribir párrafos largos — el modelo responde mejor a palabras clave concisas
- Olvidar los prompts negativos — son esenciales para evitar artefactos comunes
Ejemplo: Estilo Anime
Positivo:
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityNegativo:
low quality, blurry, deformed hands, extra fingersEjemplo: Retrato Fotorrealista
Positivo:
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingNegativo:
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingersCómo Funciona Internamente
Texto a imagen es un proceso de difusión inversa:
- Se comienza con ruido aleatorio puro en latent space
- El modelo predice qué ruido eliminar en cada paso
- Tus prompts de texto (codificados como vectores) dirigen la dirección del denoising
- Después de completar todos los pasos, el VAE decodifica el resultado en píxeles
El latent space es una representación matemática comprimida — mucho más pequeña que la imagen real. Por eso los modelos de difusión pueden ejecutarse en hardware de consumo. Piensa en ello como trabajar con un boceto (latent) antes de pintar la pieza final (píxeles).
Acerca de SD1.5
Stable Diffusion 1.5 es uno de los modelos de generación de imágenes de código abierto más utilizados:
- Tamaño: ~4 GB — funciona en GPUs con 6 GB+ de VRAM
- Resolución ideal: 512×512
- Ecosistema: Enorme biblioteca de LoRAs, ControlNets y fine-tunes de la comunidad
- Limitaciones: Puede tener problemas con manos, iluminación compleja y resoluciones superiores a 512px
A pesar de modelos más nuevos como SDXL y Flux, SD1.5 sigue siendo un excelente punto de partida para aprender ComfyUI debido a su velocidad y accesibilidad de hardware.
Problemas Comunes y Soluciones
La imagen sale borrosa o de baja calidad
- Aumenta los steps — prueba 25–30 en lugar del predeterminado de 20
- Sube el cfg — prueba 7–9 para mayor fidelidad al prompt
- Añade palabras de calidad —
masterpiece, best quality, highly detailed, 4ken tu prompt positivo - Verifica la resolución — SD1.5 funciona mejor a 512×512. Ir más alto sin upscaling frecuentemente degrada la calidad
Las manos y dedos salen deformados
Esta es una limitación conocida de SD1.5. Mitigaciones:
- Añade
deformed hands, extra fingers, bad anatomya tu prompt negativo - Usa un LoRA para corregir manos (por ejemplo, "detail tweaker" o "hand fix" LoRAs de Civitai)
- Genera a 512×512 y haz upscale después
La imagen ignora mi prompt
- cfg muy bajo — auméntalo a 7–12 para mayor seguimiento del prompt
- Demasiados conceptos — simplifica tu prompt. Menos palabras clave y más específicas funcionan mejor que descripciones largas
- Modelo incorrecto — algunos checkpoints están ajustados para estilos específicos. Los modelos anime no producirán buen fotorrealismo
"Load Checkpoint" muestra null o vacío
- Verifica que tu archivo
.safetensorsesté enComfyUI/models/checkpoints/ - Refresca ComfyUI (F5) o reinícialo después de agregar nuevos modelos
- Comprueba que el archivo no esté corrupto (descarga incompleta)
La generación es muy lenta
- VRAM insuficiente — prueba ejecutar con la flag
--lowvram - Demasiados steps — 20 steps están bien para iteraciones rápidas; usa 30+ solo para renders finales
- Resolución grande — genera a 512×512 y haz upscale en lugar de generar a 1024×1024
Próximos Pasos
Ahora que puedes generar imágenes a partir de texto, explora estos flujos de trabajo:
- Imagen a Imagen — Usa una imagen de referencia para guiar la generación
- Guía de LoRA — Afina tus resultados con adaptadores de modelo ligeros
- Guía de Upscale — Aumenta la resolución con upscaling por IA
How to Install ComfyUI Custom Nodes Without Breaking Your Environment
Install ComfyUI custom nodes safely and avoid the plugin import failures and dependency drift that often break environments.
ComfyUI Imagen a Imagen: Configuraci贸n de Denoise y Errores Comunes
Domina img2img en ComfyUI 鈥?comprende los valores de denoise, construye el flujo de trabajo correctamente y soluciona problemas comunes como perder detalles de referencia.
Documentación de Wonderful Launcher