ComfyUI Текст в Изображение: Полное Руководство и Устранение Неполадок
Пошаговое руководство по генерации AI-изображений из текстовых промптов в ComfyUI — советы по промптам, настройка параметров и решения типичных проблем.
Что такое Text to Image?
Text to Image — это самый базовый рабочий процесс AI-арта: вы описываете желаемое изображение словами, а AI-модель генерирует соответствующую картинку. В ComfyUI это реализовано в виде графа узлов, где каждый узел отвечает за один этап генерации.
Процесс включает три ключевых элемента:
- Модель генерации — нейронная сеть, создающая изображение (например, Stable Diffusion 1.5)
- Latent space — сжатое математическое пространство, в котором изображение постепенно формируется
- Промпты — ваши текстовые описания, разделённые на позитивные (желаемые элементы) и негативные (чего следует избегать)
Предварительные требования
Перед началом убедитесь, что у вас есть:
- Установленный и запущенный ComfyUI (Быстрый старт)
- Хотя бы одна модель checkpoint в папке
ComfyUI/models/checkpoints
В этом руководстве мы будем использовать модель SD1.5. Вы можете скачать v1-5-pruned-emaonly-fp16.safetensors с HuggingFace.
Если вы установили ComfyUI Desktop, модели можно скачивать прямо через интерфейс без ручного управления файлами.
Построение рабочего процесса
Стандартный рабочий процесс text-to-image использует шесть типов узлов (при этом CLIP Text Encode используется дважды — для позитивного и негативного промптов). Вот что делает каждый из них:
Load Checkpoint
Загружает вашу AI-модель. checkpoint обычно объединяет три компонента:
| Компонент | Роль |
|---|---|
| MODEL (UNet) | Предсказывает и удаляет шум в процессе диффузии |
| CLIP | Преобразует текстовые промпты в числовые векторы, понятные модели |
| VAE | Преобразует между latent space (где работает модель) и пиксельным пространством (что вы видите) |
Empty Latent Image
Задаёт размер холста. Этот узел создаёт пустое латентное пространство, заполненное случайным шумом — начальную точку генерации. Ширина и высота здесь определяют итоговые размеры изображения.
Для SD1.5 используйте 512x512 для лучших результатов. Модель обучалась на этом разрешении.
CLIP Text Encode (x2)
Вам нужны два таких узла — один для позитивного промпта (что вы хотите) и один для негативного промпта (чего избегать). CLIP-кодировщик преобразует текст в семантические векторы, направляющие процесс удаления шума.
KSampler
Это сердце рабочего процесса. Он принимает зашумлённый latent, модель и условия промптов, затем итеративно удаляет шум из изображения за несколько шагов.
Ключевые параметры:
| Параметр | Что контролирует |
|---|---|
| seed | Рандомизация — одинаковый seed + одинаковые настройки = одинаковое изображение |
| steps | Количество итераций удаления шума. Больше шагов = больше деталей, медленнее генерация |
| cfg | Насколько строго модель следует промпту. Слишком низкий = игнорирует промпт. Слишком высокий = артефакты |
| denoise | Сила шума. Для text-to-image оставьте 1.0 (полная генерация из шума) |
VAE Decode
Преобразует очищенный от шума latent обратно в видимое изображение.
Save Image
Отображает и сохраняет результат в папку ComfyUI/output.
Написание эффективных промптов
Хорошие промпты существенно влияют на качество результата. Практические советы для SD1.5:
Рекомендуется:
- Пишите на английском для лучших результатов
- Используйте фразы через запятую, а не полные предложения
- Будьте конкретны: "golden sunset over calm ocean" лучше, чем "nice landscape"
- Добавляйте слова для повышения качества:
masterpiece, best quality, highly detailed - Используйте веса для акцентов:
(golden hour:1.2)усиливает этот концепт
Не рекомендуется:
- Писать длинные абзацы — модель лучше реагирует на краткие ключевые слова
- Забывать негативные промпты — они необходимы для избежания типичных артефактов
Пример: Аниме-стиль
Позитивный:
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityНегативный:
low quality, blurry, deformed hands, extra fingersПример: Фотореалистичный портрет
Позитивный:
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingНегативный:
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingersКак это работает изнутри
Text-to-image — это процесс обратной диффузии:
- Начинается с чистого случайного шума в latent space
- Модель предсказывает, какой шум нужно удалить на каждом шаге
- Ваши текстовые промпты (закодированные как векторы) направляют процесс удаления шума
- После завершения всех шагов VAE декодирует результат в пиксели
Latent space — это сжатое математическое представление, значительно меньшее, чем само изображение. Именно поэтому диффузионные модели могут работать на обычном оборудовании. Представьте это как работу с эскизом (latent) перед созданием финальной картины (пиксели).
О SD1.5
Stable Diffusion 1.5 — одна из самых популярных open-source моделей генерации изображений:
- Размер: ~4 ГБ — работает на GPU с 6 ГБ+ VRAM
- Оптимальное разрешение: 512x512
- Экосистема: Огромная библиотека LoRA, ControlNet и пользовательских доработок
- Ограничения: Может плохо справляться с руками, сложным освещением и разрешениями выше 512px
Несмотря на появление более новых моделей, таких как SDXL и Flux, SD1.5 остаётся отличной отправной точкой для изучения ComfyUI благодаря своей скорости и доступности по аппаратным требованиям.
Типичные проблемы и решения
Результат размытый или низкого качества
- Увеличьте steps — попробуйте 25–30 вместо стандартных 20
- Повысьте cfg — попробуйте 7–9 для более точного следования промпту
- Добавьте слова качества —
masterpiece, best quality, highly detailed, 4kв позитивный промпт - Проверьте разрешение — SD1.5 лучше всего работает при 512x512. Увеличение без апскейла часто ухудшает качество
Руки и пальцы деформированы
Это известное ограничение SD1.5. Способы смягчения:
- Добавьте
deformed hands, extra fingers, bad anatomyв негативный промпт - Используйте LoRA для исправления рук (например, "detail tweaker" или "hand fix" LoRA с Civitai)
- Генерируйте в 512x512 и увеличивайте после
Результат игнорирует промпт
- cfg слишком низкий — увеличьте до 7–12 для более сильного следования промпту
- Слишком много концептов — упростите промпт. Меньше конкретных ключевых слов работает лучше длинных описаний
- Неподходящая модель — некоторые checkpoint настроены под определённые стили. Аниме-модели не дадут фотореализм
"Load Checkpoint" показывает null или пусто
- Убедитесь, что файл
.safetensorsнаходится вComfyUI/models/checkpoints/ - Обновите ComfyUI (F5) или перезапустите после добавления новых моделей
- Проверьте, не повреждён ли файл (неполная загрузка)
Генерация очень медленная
- Недостаточно VRAM — попробуйте запуск с флагом
--lowvram - Слишком много steps — 20 шагов достаточно для быстрых итераций; используйте 30+ только для финальных рендеров
- Большое разрешение — генерируйте в 512x512 и увеличивайте, а не генерируйте сразу в 1024x1024
Следующие шаги
Теперь, когда вы умеете генерировать изображения из текста, изучите следующие рабочие процессы:
- Image to Image — Используйте эталонное изображение для направления генерации
- Руководство по LoRA — Тонкая настройка результатов с помощью лёгких адаптеров модели
- Руководство по апскейлу — Увеличение разрешения с помощью AI-апскейлинга
How to Install ComfyUI Custom Nodes Without Breaking Your Environment
Install ComfyUI custom nodes safely and avoid the plugin import failures and dependency drift that often break environments.
ComfyUI 袠蟹芯斜褉邪卸械薪懈械 胁 袠蟹芯斜褉邪卸械薪懈械: 袧邪褋褌褉芯泄泻懈 Denoise 懈 孝懈锌懈褔薪褘械 袨褕懈斜泻懈
袨褋胁芯泄褌械 img2img 胁 ComfyUI 鈥?褉邪蟹斜械褉懈褌械褋褜 胁 蟹薪邪褔械薪懈褟褏 denoise, 锌褉邪胁懈谢褜薪芯 锌芯褋褌褉芯泄褌械 褉邪斜芯褔懈泄 锌褉芯褑械褋褋 懈 懈褋锌褉邪胁褜褌械 褌懈锌懈褔薪褘械 锌褉芯斜谢械屑褘 褋 锌芯褌械褉械泄 写械褌邪谢械泄.
Документация Wonderful Launcher