ComfyUI Texto para Imagem: Guia Completo e Solução de Problemas
Guia passo a passo para gerar imagens com IA a partir de texto no ComfyUI — com dicas de prompts, ajuste de parâmetros e soluções para problemas comuns.
O que é Texto para Imagem?
Texto para Imagem é o fluxo de trabalho mais fundamental da arte com IA — você descreve o que quer em palavras e o modelo de IA gera uma imagem correspondente. No ComfyUI, isso é construído como um grafo de nós onde cada nó cuida de uma etapa do pipeline de geração.
O processo envolve três elementos fundamentais:
- Um modelo de geração — a rede neural que cria a imagem (ex: Stable Diffusion 1.5)
- Latent space — o espaço matemático comprimido onde a imagem toma forma gradualmente
- Prompts — suas descrições de texto divididas em positivas (elementos desejados) e negativas (elementos a evitar)
Pré-requisitos
Antes de começar, certifique-se de ter:
- ComfyUI instalado e funcionando (Início Rápido)
- Pelo menos um modelo checkpoint na sua pasta
ComfyUI/models/checkpoints
Para este tutorial, usaremos o modelo SD1.5. Você pode baixar v1-5-pruned-emaonly-fp16.safetensors do HuggingFace.
Se você instalou o ComfyUI Desktop, pode baixar modelos diretamente pela interface sem precisar gerenciar arquivos manualmente.
Construindo o Fluxo de Trabalho
O fluxo de trabalho padrão de texto para imagem utiliza seis tipos de nós (com o CLIP Text Encode aparecendo duas vezes — uma para o prompt positivo e outra para o negativo). Veja o que cada um faz:
Load Checkpoint
Carrega seu modelo de IA. Um checkpoint normalmente agrupa três componentes:
| Componente | Função |
|---|---|
| MODEL (UNet) | Prevê e remove ruído durante o processo de difusão |
| CLIP | Converte seus prompts de texto em vetores numéricos que o modelo entende |
| VAE | Traduz entre latent space (onde o modelo trabalha) e espaço de pixels (o que você vê) |
Empty Latent Image
Define o tamanho da tela. Este nó cria um latent space em branco preenchido com ruído aleatório — o ponto de partida para a geração. A largura e altura aqui determinam as dimensões finais da sua imagem.
Para SD1.5, mantenha 512×512 para melhores resultados. O modelo foi treinado nessa resolução.
CLIP Text Encode (x2)
Você precisa de dois desses — um para o seu prompt positivo (o que você quer) e outro para o seu prompt negativo (o que quer evitar). O encoder CLIP converte seu texto em vetores semânticos que guiam o processo de denoising.
KSampler
Este é o coração do fluxo de trabalho. Ele recebe o latent com ruído, o modelo e as condições do seu prompt, e então remove iterativamente o ruído da imagem ao longo de múltiplos passos.
Parâmetros principais:
| Parâmetro | O que controla |
|---|---|
| seed | Aleatorização — mesma seed + mesmas configurações = mesma imagem |
| steps | Número de iterações de denoising. Mais passos = mais detalhes, geração mais lenta |
| cfg | Quão rigorosamente o modelo segue seu prompt. Muito baixo = ignora o prompt. Muito alto = artefatos |
| denoise | Intensidade do ruído. Mantenha em 1.0 para texto para imagem (geração completa a partir de ruído) |
VAE Decode
Converte o latent sem ruído de volta para uma imagem visível.
Save Image
Exibe e salva seu resultado na pasta ComfyUI/output.
Como Escrever Prompts Eficazes
Bons prompts fazem uma enorme diferença na qualidade do resultado. Aqui estão dicas práticas para SD1.5:
Faça:
- Escreva em inglês para melhores resultados
- Use frases separadas por vírgulas, não frases completas
- Seja específico: "golden sunset over calm ocean" é melhor que "nice landscape"
- Adicione palavras de qualidade:
masterpiece, best quality, highly detailed - Use pesos para ênfase:
(golden hour:1.2)torna esse conceito mais forte
Não faça:
- Escrever parágrafos longos — o modelo responde melhor a palavras-chave concisas
- Esquecer os prompts negativos — são essenciais para evitar artefatos comuns
Exemplo: Estilo Anime
Positivo:
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityNegativo:
low quality, blurry, deformed hands, extra fingersExemplo: Retrato Fotorrealista
Positivo:
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingNegativo:
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingersComo Funciona por Dentro
Texto para imagem é um processo de difusão reversa:
- Começa com ruído aleatório puro no latent space
- O modelo prevê qual ruído remover em cada passo
- Seus prompts de texto (codificados como vetores) direcionam a direção do denoising
- Após completar todos os passos, o VAE decodifica o resultado em pixels
O latent space é uma representação matemática comprimida — muito menor que a imagem real. É por isso que modelos de difusão conseguem rodar em hardware doméstico. Pense nisso como trabalhar com um rascunho (latent) antes de pintar a peça final (pixels).
Sobre o SD1.5
Stable Diffusion 1.5 é um dos modelos de geração de imagens de código aberto mais utilizados:
- Tamanho: ~4 GB — roda em GPUs com 6 GB+ de VRAM
- Resolução ideal: 512×512
- Ecossistema: Enorme biblioteca de LoRAs, ControlNets e fine-tunes da comunidade
- Limitações: Pode ter dificuldades com mãos, iluminação complexa e resoluções acima de 512px
Apesar de modelos mais novos como SDXL e Flux, o SD1.5 continua sendo um excelente ponto de partida para aprender ComfyUI devido à sua velocidade e acessibilidade de hardware.
Problemas Comuns e Soluções
A imagem sai borrada ou de baixa qualidade
- Aumente os steps — tente 25–30 ao invés do padrão de 20
- Suba o cfg — tente 7–9 para maior fidelidade ao prompt
- Adicione palavras de qualidade —
masterpiece, best quality, highly detailed, 4kno seu prompt positivo - Verifique a resolução — SD1.5 funciona melhor em 512×512. Ir mais alto sem upscaling frequentemente degrada a qualidade
Mãos e dedos saem deformados
Esta é uma limitação conhecida do SD1.5. Mitigações:
- Adicione
deformed hands, extra fingers, bad anatomyao seu prompt negativo - Use um LoRA para corrigir mãos (por exemplo, "detail tweaker" ou "hand fix" LoRAs do Civitai)
- Gere em 512×512 e faça upscale depois
A imagem ignora meu prompt
- cfg muito baixo — aumente para 7–12 para maior aderência ao prompt
- Conceitos demais — simplifique seu prompt. Menos palavras-chave e mais específicas funcionam melhor que descrições longas
- Modelo errado — alguns checkpoints são ajustados para estilos específicos. Modelos anime não vão produzir bom fotorrealismo
"Load Checkpoint" mostra null ou vazio
- Verifique se seu arquivo
.safetensorsestá emComfyUI/models/checkpoints/ - Atualize o ComfyUI (F5) ou reinicie após adicionar novos modelos
- Confira se o arquivo não está corrompido (download incompleto)
A geração está muito lenta
- VRAM insuficiente — tente iniciar com a flag
--lowvram - Steps demais — 20 steps são suficientes para iterações rápidas; use 30+ apenas para renders finais
- Resolução grande — gere em 512×512 e faça upscale ao invés de gerar em 1024×1024
Próximos Passos
Agora que você consegue gerar imagens a partir de texto, explore estes fluxos de trabalho:
- Imagem para Imagem — Use uma imagem de referência para guiar a geração
- Guia de LoRA — Refine seus resultados com adaptadores de modelo leves
- Guia de Upscale — Aumente a resolução com upscaling por IA
How to Install ComfyUI Custom Nodes Without Breaking Your Environment
Install ComfyUI custom nodes safely and avoid the plugin import failures and dependency drift that often break environments.
ComfyUI Imagem para Imagem: Configura莽茫o de Denoise e Erros Comuns
Domine img2img no ComfyUI 鈥?entenda os valores de denoise, construa o fluxo de trabalho corretamente e corrija problemas comuns como perder detalhes da refer锚ncia.
Documentacao do Wonderful Launcher