ComfyUI Texto a Imagen: Guía Completa y Solución de Problemas

Guía paso a paso para generar imágenes con IA a partir de texto en ComfyUI — con consejos de prompts, ajuste de parámetros y soluciones a problemas comunes.

¿Qué es Texto a Imagen?

Texto a Imagen es el flujo de trabajo más fundamental del arte con IA — describes lo que quieres con palabras y el modelo de IA genera una imagen correspondiente. En ComfyUI, esto se construye como un grafo de nodos donde cada nodo se encarga de un paso del pipeline de generación.

El proceso involucra tres elementos fundamentales:

Un modelo de generación — la red neuronal que crea la imagen (por ejemplo, Stable Diffusion 1.5)
Latent space — el espacio matemático comprimido donde la imagen toma forma gradualmente
Prompts — tus descripciones de texto divididas en positivas (elementos deseados) y negativas (elementos a evitar)

Requisitos previos

Antes de comenzar, asegúrate de tener:

ComfyUI instalado y funcionando (Inicio Rápido)
Al menos un modelo checkpoint en tu carpeta ComfyUI/models/checkpoints

Para este tutorial usaremos el modelo SD1.5. Puedes descargar v1-5-pruned-emaonly-fp16.safetensors desde HuggingFace.

Si instalaste ComfyUI Desktop, puedes descargar modelos directamente a través de la interfaz sin necesidad de gestionar archivos manualmente.

Construyendo el Flujo de Trabajo

El flujo de trabajo predeterminado de texto a imagen utiliza seis tipos de nodos (con CLIP Text Encode apareciendo dos veces — una para el prompt positivo y otra para el negativo). Esto es lo que hace cada uno:

Load Checkpoint

Carga tu modelo de IA. Un checkpoint típicamente agrupa tres componentes:

Componente	Función
MODEL (UNet)	Predice y elimina ruido durante el proceso de difusión
CLIP	Convierte tus prompts de texto en vectores numéricos que el modelo entiende
VAE	Traduce entre latent space (donde trabaja el modelo) y espacio de píxeles (lo que ves)

Empty Latent Image

Establece el tamaño del lienzo. Este nodo crea un latent space en blanco lleno de ruido aleatorio — el punto de partida para la generación. El ancho y alto aquí determinan las dimensiones finales de tu imagen.

Para SD1.5, mantén 512×512 para mejores resultados. El modelo fue entrenado a esta resolución.

CLIP Text Encode (x2)

Necesitas dos de estos — uno para tu prompt positivo (lo que quieres) y otro para tu prompt negativo (lo que quieres evitar). El encoder CLIP convierte tu texto en vectores semánticos que guían el proceso de denoising.

KSampler

Este es el corazón del flujo de trabajo. Toma el latent con ruido, el modelo y las condiciones de tu prompt, y luego elimina iterativamente el ruido de la imagen durante múltiples pasos.

Parámetros clave:

Parámetro	Qué controla
seed	Aleatorización — misma seed + mismos ajustes = misma imagen
steps	Número de iteraciones de denoising. Más pasos = más detalle, generación más lenta
cfg	Qué tan estrictamente el modelo sigue tu prompt. Muy bajo = ignora el prompt. Muy alto = artefactos
denoise	Intensidad del ruido. Mantener en 1.0 para texto a imagen (generación completa desde ruido)

VAE Decode

Convierte el latent sin ruido de vuelta a una imagen visible.

Save Image

Muestra y guarda tu resultado en la carpeta ComfyUI/output.

Cómo Escribir Prompts Efectivos

Buenos prompts hacen una gran diferencia en la calidad del resultado. Aquí tienes consejos prácticos para SD1.5:

Haz esto:

Escribe en inglés para mejores resultados
Usa frases separadas por comas, no oraciones completas
Sé específico: "golden sunset over calm ocean" es mejor que "nice landscape"
Añade palabras de calidad: masterpiece, best quality, highly detailed
Usa pesos para enfatizar: (golden hour:1.2) hace ese concepto más fuerte

No hagas esto:

Escribir párrafos largos — el modelo responde mejor a palabras clave concisas
Olvidar los prompts negativos — son esenciales para evitar artefactos comunes

Ejemplo: Estilo Anime

Positivo:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Negativo:

low quality, blurry, deformed hands, extra fingers

Ejemplo: Retrato Fotorrealista

Positivo:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Negativo:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Cómo Funciona Internamente

Texto a imagen es un proceso de difusión inversa:

Se comienza con ruido aleatorio puro en latent space
El modelo predice qué ruido eliminar en cada paso
Tus prompts de texto (codificados como vectores) dirigen la dirección del denoising
Después de completar todos los pasos, el VAE decodifica el resultado en píxeles

El latent space es una representación matemática comprimida — mucho más pequeña que la imagen real. Por eso los modelos de difusión pueden ejecutarse en hardware de consumo. Piensa en ello como trabajar con un boceto (latent) antes de pintar la pieza final (píxeles).

Acerca de SD1.5

Stable Diffusion 1.5 es uno de los modelos de generación de imágenes de código abierto más utilizados:

Tamaño: ~4 GB — funciona en GPUs con 6 GB+ de VRAM
Resolución ideal: 512×512
Ecosistema: Enorme biblioteca de LoRAs, ControlNets y fine-tunes de la comunidad
Limitaciones: Puede tener problemas con manos, iluminación compleja y resoluciones superiores a 512px

A pesar de modelos más nuevos como SDXL y Flux, SD1.5 sigue siendo un excelente punto de partida para aprender ComfyUI debido a su velocidad y accesibilidad de hardware.

Problemas Comunes y Soluciones

La imagen sale borrosa o de baja calidad

Aumenta los steps — prueba 25–30 en lugar del predeterminado de 20
Sube el cfg — prueba 7–9 para mayor fidelidad al prompt
Añade palabras de calidad — masterpiece, best quality, highly detailed, 4k en tu prompt positivo
Verifica la resolución — SD1.5 funciona mejor a 512×512. Ir más alto sin upscaling frecuentemente degrada la calidad

Las manos y dedos salen deformados

Esta es una limitación conocida de SD1.5. Mitigaciones:

Añade deformed hands, extra fingers, bad anatomy a tu prompt negativo
Usa un LoRA para corregir manos (por ejemplo, "detail tweaker" o "hand fix" LoRAs de Civitai)
Genera a 512×512 y haz upscale después

La imagen ignora mi prompt

cfg muy bajo — auméntalo a 7–12 para mayor seguimiento del prompt
Demasiados conceptos — simplifica tu prompt. Menos palabras clave y más específicas funcionan mejor que descripciones largas
Modelo incorrecto — algunos checkpoints están ajustados para estilos específicos. Los modelos anime no producirán buen fotorrealismo

"Load Checkpoint" muestra null o vacío

Verifica que tu archivo .safetensors esté en ComfyUI/models/checkpoints/
Refresca ComfyUI (F5) o reinícialo después de agregar nuevos modelos
Comprueba que el archivo no esté corrupto (descarga incompleta)

La generación es muy lenta

VRAM insuficiente — prueba ejecutar con la flag --lowvram
Demasiados steps — 20 steps están bien para iteraciones rápidas; usa 30+ solo para renders finales
Resolución grande — genera a 512×512 y haz upscale en lugar de generar a 1024×1024

Próximos Pasos

Ahora que puedes generar imágenes a partir de texto, explora estos flujos de trabajo:

Imagen a Imagen — Usa una imagen de referencia para guiar la generación
Guía de LoRA — Afina tus resultados con adaptadores de modelo ligeros
Guía de Upscale — Aumenta la resolución con upscaling por IA

¿Listo para solucionar tus problemas de ComfyUI?