ComfyUI Texto para Imagem: Guia Completo e Solução de Problemas

Guia passo a passo para gerar imagens com IA a partir de texto no ComfyUI — com dicas de prompts, ajuste de parâmetros e soluções para problemas comuns.

O que é Texto para Imagem?

Texto para Imagem é o fluxo de trabalho mais fundamental da arte com IA — você descreve o que quer em palavras e o modelo de IA gera uma imagem correspondente. No ComfyUI, isso é construído como um grafo de nós onde cada nó cuida de uma etapa do pipeline de geração.

O processo envolve três elementos fundamentais:

Um modelo de geração — a rede neural que cria a imagem (ex: Stable Diffusion 1.5)
Latent space — o espaço matemático comprimido onde a imagem toma forma gradualmente
Prompts — suas descrições de texto divididas em positivas (elementos desejados) e negativas (elementos a evitar)

Pré-requisitos

Antes de começar, certifique-se de ter:

ComfyUI instalado e funcionando (Início Rápido)
Pelo menos um modelo checkpoint na sua pasta ComfyUI/models/checkpoints

Para este tutorial, usaremos o modelo SD1.5. Você pode baixar v1-5-pruned-emaonly-fp16.safetensors do HuggingFace.

Se você instalou o ComfyUI Desktop, pode baixar modelos diretamente pela interface sem precisar gerenciar arquivos manualmente.

Construindo o Fluxo de Trabalho

O fluxo de trabalho padrão de texto para imagem utiliza seis tipos de nós (com o CLIP Text Encode aparecendo duas vezes — uma para o prompt positivo e outra para o negativo). Veja o que cada um faz:

Load Checkpoint

Carrega seu modelo de IA. Um checkpoint normalmente agrupa três componentes:

Componente	Função
MODEL (UNet)	Prevê e remove ruído durante o processo de difusão
CLIP	Converte seus prompts de texto em vetores numéricos que o modelo entende
VAE	Traduz entre latent space (onde o modelo trabalha) e espaço de pixels (o que você vê)

Empty Latent Image

Define o tamanho da tela. Este nó cria um latent space em branco preenchido com ruído aleatório — o ponto de partida para a geração. A largura e altura aqui determinam as dimensões finais da sua imagem.

Para SD1.5, mantenha 512×512 para melhores resultados. O modelo foi treinado nessa resolução.

CLIP Text Encode (x2)

Você precisa de dois desses — um para o seu prompt positivo (o que você quer) e outro para o seu prompt negativo (o que quer evitar). O encoder CLIP converte seu texto em vetores semânticos que guiam o processo de denoising.

KSampler

Este é o coração do fluxo de trabalho. Ele recebe o latent com ruído, o modelo e as condições do seu prompt, e então remove iterativamente o ruído da imagem ao longo de múltiplos passos.

Parâmetros principais:

Parâmetro	O que controla
seed	Aleatorização — mesma seed + mesmas configurações = mesma imagem
steps	Número de iterações de denoising. Mais passos = mais detalhes, geração mais lenta
cfg	Quão rigorosamente o modelo segue seu prompt. Muito baixo = ignora o prompt. Muito alto = artefatos
denoise	Intensidade do ruído. Mantenha em 1.0 para texto para imagem (geração completa a partir de ruído)

VAE Decode

Converte o latent sem ruído de volta para uma imagem visível.

Save Image

Exibe e salva seu resultado na pasta ComfyUI/output.

Como Escrever Prompts Eficazes

Bons prompts fazem uma enorme diferença na qualidade do resultado. Aqui estão dicas práticas para SD1.5:

Faça:

Escreva em inglês para melhores resultados
Use frases separadas por vírgulas, não frases completas
Seja específico: "golden sunset over calm ocean" é melhor que "nice landscape"
Adicione palavras de qualidade: masterpiece, best quality, highly detailed
Use pesos para ênfase: (golden hour:1.2) torna esse conceito mais forte

Não faça:

Escrever parágrafos longos — o modelo responde melhor a palavras-chave concisas
Esquecer os prompts negativos — são essenciais para evitar artefatos comuns

Exemplo: Estilo Anime

Positivo:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Negativo:

low quality, blurry, deformed hands, extra fingers

Exemplo: Retrato Fotorrealista

Positivo:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Negativo:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Como Funciona por Dentro

Texto para imagem é um processo de difusão reversa:

Começa com ruído aleatório puro no latent space
O modelo prevê qual ruído remover em cada passo
Seus prompts de texto (codificados como vetores) direcionam a direção do denoising
Após completar todos os passos, o VAE decodifica o resultado em pixels

O latent space é uma representação matemática comprimida — muito menor que a imagem real. É por isso que modelos de difusão conseguem rodar em hardware doméstico. Pense nisso como trabalhar com um rascunho (latent) antes de pintar a peça final (pixels).

Sobre o SD1.5

Stable Diffusion 1.5 é um dos modelos de geração de imagens de código aberto mais utilizados:

Tamanho: ~4 GB — roda em GPUs com 6 GB+ de VRAM
Resolução ideal: 512×512
Ecossistema: Enorme biblioteca de LoRAs, ControlNets e fine-tunes da comunidade
Limitações: Pode ter dificuldades com mãos, iluminação complexa e resoluções acima de 512px

Apesar de modelos mais novos como SDXL e Flux, o SD1.5 continua sendo um excelente ponto de partida para aprender ComfyUI devido à sua velocidade e acessibilidade de hardware.

Problemas Comuns e Soluções

A imagem sai borrada ou de baixa qualidade

Aumente os steps — tente 25–30 ao invés do padrão de 20
Suba o cfg — tente 7–9 para maior fidelidade ao prompt
Adicione palavras de qualidade — masterpiece, best quality, highly detailed, 4k no seu prompt positivo
Verifique a resolução — SD1.5 funciona melhor em 512×512. Ir mais alto sem upscaling frequentemente degrada a qualidade

Mãos e dedos saem deformados

Esta é uma limitação conhecida do SD1.5. Mitigações:

Adicione deformed hands, extra fingers, bad anatomy ao seu prompt negativo
Use um LoRA para corrigir mãos (por exemplo, "detail tweaker" ou "hand fix" LoRAs do Civitai)
Gere em 512×512 e faça upscale depois

A imagem ignora meu prompt

cfg muito baixo — aumente para 7–12 para maior aderência ao prompt
Conceitos demais — simplifique seu prompt. Menos palavras-chave e mais específicas funcionam melhor que descrições longas
Modelo errado — alguns checkpoints são ajustados para estilos específicos. Modelos anime não vão produzir bom fotorrealismo

"Load Checkpoint" mostra null ou vazio

Verifique se seu arquivo .safetensors está em ComfyUI/models/checkpoints/
Atualize o ComfyUI (F5) ou reinicie após adicionar novos modelos
Confira se o arquivo não está corrompido (download incompleto)

A geração está muito lenta

VRAM insuficiente — tente iniciar com a flag --lowvram
Steps demais — 20 steps são suficientes para iterações rápidas; use 30+ apenas para renders finais
Resolução grande — gere em 512×512 e faça upscale ao invés de gerar em 1024×1024

Próximos Passos

Agora que você consegue gerar imagens a partir de texto, explore estes fluxos de trabalho:

Imagem para Imagem — Use uma imagem de referência para guiar a geração
Guia de LoRA — Refine seus resultados com adaptadores de modelo leves
Guia de Upscale — Aumente a resolução com upscaling por IA

Pronto para resolver seus problemas de ComfyUI?