ComfyUI Текст в Изображение: Полное Руководство и Устранение Неполадок

Пошаговое руководство по генерации AI-изображений из текстовых промптов в ComfyUI — советы по промптам, настройка параметров и решения типичных проблем.

Что такое Text to Image?

Text to Image — это самый базовый рабочий процесс AI-арта: вы описываете желаемое изображение словами, а AI-модель генерирует соответствующую картинку. В ComfyUI это реализовано в виде графа узлов, где каждый узел отвечает за один этап генерации.

Процесс включает три ключевых элемента:

Модель генерации — нейронная сеть, создающая изображение (например, Stable Diffusion 1.5)
Latent space — сжатое математическое пространство, в котором изображение постепенно формируется
Промпты — ваши текстовые описания, разделённые на позитивные (желаемые элементы) и негативные (чего следует избегать)

Предварительные требования

Перед началом убедитесь, что у вас есть:

Установленный и запущенный ComfyUI (Быстрый старт)
Хотя бы одна модель checkpoint в папке ComfyUI/models/checkpoints

В этом руководстве мы будем использовать модель SD1.5. Вы можете скачать v1-5-pruned-emaonly-fp16.safetensors с HuggingFace.

Если вы установили ComfyUI Desktop, модели можно скачивать прямо через интерфейс без ручного управления файлами.

Построение рабочего процесса

Стандартный рабочий процесс text-to-image использует шесть типов узлов (при этом CLIP Text Encode используется дважды — для позитивного и негативного промптов). Вот что делает каждый из них:

Load Checkpoint

Загружает вашу AI-модель. checkpoint обычно объединяет три компонента:

Компонент	Роль
MODEL (UNet)	Предсказывает и удаляет шум в процессе диффузии
CLIP	Преобразует текстовые промпты в числовые векторы, понятные модели
VAE	Преобразует между latent space (где работает модель) и пиксельным пространством (что вы видите)

Empty Latent Image

Задаёт размер холста. Этот узел создаёт пустое латентное пространство, заполненное случайным шумом — начальную точку генерации. Ширина и высота здесь определяют итоговые размеры изображения.

Для SD1.5 используйте 512x512 для лучших результатов. Модель обучалась на этом разрешении.

CLIP Text Encode (x2)

Вам нужны два таких узла — один для позитивного промпта (что вы хотите) и один для негативного промпта (чего избегать). CLIP-кодировщик преобразует текст в семантические векторы, направляющие процесс удаления шума.

KSampler

Это сердце рабочего процесса. Он принимает зашумлённый latent, модель и условия промптов, затем итеративно удаляет шум из изображения за несколько шагов.

Ключевые параметры:

Параметр	Что контролирует
seed	Рандомизация — одинаковый seed + одинаковые настройки = одинаковое изображение
steps	Количество итераций удаления шума. Больше шагов = больше деталей, медленнее генерация
cfg	Насколько строго модель следует промпту. Слишком низкий = игнорирует промпт. Слишком высокий = артефакты
denoise	Сила шума. Для text-to-image оставьте 1.0 (полная генерация из шума)

VAE Decode

Преобразует очищенный от шума latent обратно в видимое изображение.

Save Image

Отображает и сохраняет результат в папку ComfyUI/output.

Написание эффективных промптов

Хорошие промпты существенно влияют на качество результата. Практические советы для SD1.5:

Рекомендуется:

Пишите на английском для лучших результатов
Используйте фразы через запятую, а не полные предложения
Будьте конкретны: "golden sunset over calm ocean" лучше, чем "nice landscape"
Добавляйте слова для повышения качества: masterpiece, best quality, highly detailed
Используйте веса для акцентов: (golden hour:1.2) усиливает этот концепт

Не рекомендуется:

Писать длинные абзацы — модель лучше реагирует на краткие ключевые слова
Забывать негативные промпты — они необходимы для избежания типичных артефактов

Пример: Аниме-стиль

Позитивный:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Негативный:

low quality, blurry, deformed hands, extra fingers

Пример: Фотореалистичный портрет

Позитивный:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Негативный:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Как это работает изнутри

Text-to-image — это процесс обратной диффузии:

Начинается с чистого случайного шума в latent space
Модель предсказывает, какой шум нужно удалить на каждом шаге
Ваши текстовые промпты (закодированные как векторы) направляют процесс удаления шума
После завершения всех шагов VAE декодирует результат в пиксели

Latent space — это сжатое математическое представление, значительно меньшее, чем само изображение. Именно поэтому диффузионные модели могут работать на обычном оборудовании. Представьте это как работу с эскизом (latent) перед созданием финальной картины (пиксели).

О SD1.5

Stable Diffusion 1.5 — одна из самых популярных open-source моделей генерации изображений:

Размер: ~4 ГБ — работает на GPU с 6 ГБ+ VRAM
Оптимальное разрешение: 512x512
Экосистема: Огромная библиотека LoRA, ControlNet и пользовательских доработок
Ограничения: Может плохо справляться с руками, сложным освещением и разрешениями выше 512px

Несмотря на появление более новых моделей, таких как SDXL и Flux, SD1.5 остаётся отличной отправной точкой для изучения ComfyUI благодаря своей скорости и доступности по аппаратным требованиям.

Типичные проблемы и решения

Результат размытый или низкого качества

Увеличьте steps — попробуйте 25–30 вместо стандартных 20
Повысьте cfg — попробуйте 7–9 для более точного следования промпту
Добавьте слова качества — masterpiece, best quality, highly detailed, 4k в позитивный промпт
Проверьте разрешение — SD1.5 лучше всего работает при 512x512. Увеличение без апскейла часто ухудшает качество

Руки и пальцы деформированы

Это известное ограничение SD1.5. Способы смягчения:

Добавьте deformed hands, extra fingers, bad anatomy в негативный промпт
Используйте LoRA для исправления рук (например, "detail tweaker" или "hand fix" LoRA с Civitai)
Генерируйте в 512x512 и увеличивайте после

Результат игнорирует промпт

cfg слишком низкий — увеличьте до 7–12 для более сильного следования промпту
Слишком много концептов — упростите промпт. Меньше конкретных ключевых слов работает лучше длинных описаний
Неподходящая модель — некоторые checkpoint настроены под определённые стили. Аниме-модели не дадут фотореализм

"Load Checkpoint" показывает null или пусто

Убедитесь, что файл .safetensors находится в ComfyUI/models/checkpoints/
Обновите ComfyUI (F5) или перезапустите после добавления новых моделей
Проверьте, не повреждён ли файл (неполная загрузка)

Генерация очень медленная

Недостаточно VRAM — попробуйте запуск с флагом --lowvram
Слишком много steps — 20 шагов достаточно для быстрых итераций; используйте 30+ только для финальных рендеров
Большое разрешение — генерируйте в 512x512 и увеличивайте, а не генерируйте сразу в 1024x1024

Следующие шаги

Теперь, когда вы умеете генерировать изображения из текста, изучите следующие рабочие процессы:

Image to Image — Используйте эталонное изображение для направления генерации
Руководство по LoRA — Тонкая настройка результатов с помощью лёгких адаптеров модели
Руководство по апскейлу — Увеличение разрешения с помощью AI-апскейлинга

Готовы решить проблемы ComfyUI?