ComfyUI 文字轉圖片:完整教學與疑難排解
ComfyUI 文字轉圖片完整教學 — prompt 技巧、參數調整及常見問題修復,解決出圖模糊、手部變形等問題。
什麼是 Text to Image?
Text to Image 是最基本的 AI 繪圖工作流程 — 你用文字描述想要的畫面,AI 模型就會產生對應的圖片。在 ComfyUI 中,這個流程被建構為節點圖,每個節點負責產生流程中的一個步驟。
這個流程包含三個核心要素:
- 生成模型 — 產生圖片的神經網路(例如 Stable Diffusion 1.5)
- Latent space — 圖片逐步成形的壓縮數學空間
- Prompt — 你的文字描述,分為 positive prompt(想要的元素)和 negative prompt(想避免的元素)
事前準備
開始之前,請確認你已經:
- 安裝並執行 ComfyUI(快速開始)
- 在
ComfyUI/models/checkpoints資料夾中至少有一個 checkpoint model
本教學使用 SD1.5 模型。你可以從 HuggingFace 下載 v1-5-pruned-emaonly-fp16.safetensors。
如果你使用 ComfyUI Desktop 安裝,可以直接透過介面下載模型,無需手動管理檔案。
建立工作流程
預設的 text-to-image 工作流程使用六種節點(其中 CLIP Text Encode 出現兩次 — 一次用於 positive prompt,一次用於 negative prompt)。以下是每個節點的功能:
Load Checkpoint
載入你的 AI 模型。一個 checkpoint 通常包含三個元件:
| 元件 | 功能 |
|---|---|
| MODEL (UNet) | 在 diffusion 過程中預測並移除雜訊 |
| CLIP | 將文字 prompt 轉換為模型可理解的數值向量 |
| VAE | 在 latent space(模型運作空間)與像素空間(你看到的畫面)之間轉換 |
Empty Latent Image
設定畫布大小。此節點建立一個充滿隨機雜訊的空白 latent space — 這是產生圖片的起點。這裡的寬度和高度決定最終圖片尺寸。
SD1.5 建議使用 512×512 以獲得最佳效果。模型是在此解析度下訓練的。
CLIP Text Encode (x2)
你需要兩個此節點 — 一個用於 positive prompt(你想要的),一個用於 negative prompt(想避免的)。CLIP 編碼器將文字轉換為語意向量,引導去雜訊過程。
KSampler
這是工作流程的核心。它接收帶有雜訊的 latent、模型和 prompt 條件,然後透過多個步驟反覆去除雜訊。
關鍵參數:
| 參數 | 功能說明 |
|---|---|
| seed | 隨機化控制 — 相同 seed + 相同設定 = 相同圖片 |
| steps | 去雜訊迭代次數。步數越多 = 細節越豐富,生成越慢 |
| cfg | 模型遵循 prompt 的程度。太低 = 忽略 prompt。太高 = 產生偽影 |
| denoise | 雜訊強度。Text-to-image 請保持 1.0(從雜訊完全生成) |
VAE Decode
將去雜訊後的 latent 轉換回可檢視的圖片。
Save Image
顯示並儲存結果至 ComfyUI/output 資料夾。
撰寫有效的 Prompt
好的 prompt 對輸出品質有極大影響。以下是 SD1.5 的實用技巧:
建議做法:
- 使用英文撰寫以獲得最佳效果
- 使用逗號分隔的詞組,而非完整句子
- 要具體:"golden sunset over calm ocean" 比 "nice landscape" 好
- 加入品質關鍵字:
masterpiece, best quality, highly detailed - 使用權重加強效果:
(golden hour:1.2)讓該概念更強烈
避免做法:
- 寫長段落 — 模型對簡潔關鍵字的反應更好
- 忘記 negative prompt — 它們對避免常見偽影很重要
範例:動漫風格
Positive:
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityNegative:
low quality, blurry, deformed hands, extra fingers範例:寫實人像
Positive:
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingNegative:
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers底層運作原理
Text-to-image 是 reverse diffusion 過程:
- 從 latent space 中的純隨機雜訊開始
- 模型預測每一步需要移除哪些雜訊
- 你的文字 prompt(編碼為向量)引導去雜訊方向
- 所有步驟完成後,VAE 將結果解碼為像素
Latent space 是壓縮的數學表示 — 比實際圖片小得多。這就是 diffusion 模型能在一般消費級硬體上執行的原因。可以把它想成先畫草稿(latent),再完成最終作品(像素)。
關於 SD1.5
Stable Diffusion 1.5 是最廣泛使用的開源圖片生成模型之一:
- 檔案大小: ~4 GB — 可在 6 GB+ VRAM 的 GPU 上執行
- 最佳解析度: 512×512
- 生態系統: 龐大的 LoRA、ControlNet 和社群微調模型庫
- 限制: 在手部、複雜光影和超過 512px 的解析度上可能遇到困難
儘管已有 SDXL 和 Flux 等更新的模型,SD1.5 憑藉其速度和硬體相容性,仍然是學習 ComfyUI 的絕佳起點。
常見問題與解決方案
輸出圖片模糊或品質低
- 增加 steps — 嘗試 25–30,而非預設的 20
- 提高 cfg — 嘗試 7–9 以更嚴格地遵循 prompt
- 加入品質關鍵字 — 在 positive prompt 中加入
masterpiece, best quality, highly detailed, 4k - 檢查解析度 — SD1.5 在 512×512 時效果最佳。未經 upscale 直接提高解析度通常會降低品質
手部和手指變形
這是 SD1.5 的已知限制。緩解方法:
- 在 negative prompt 中加入
deformed hands, extra fingers, bad anatomy - 使用修復手部的 LoRA(例如 Civitai 上的 "detail tweaker" 或 "hand fix" LoRA)
- 以 512×512 生成後再 upscale
輸出結果忽略 prompt
- cfg 太低 — 提高到 7–12 以加強 prompt 遵循度
- 概念太多 — 簡化 prompt。少量具體的關鍵字比冗長描述更有效
- 模型不對 — 某些 checkpoint 是針對特定風格微調的。動漫模型無法很好地產生寫實效果
"Load Checkpoint" 顯示 null 或空白
- 確認
.safetensors檔案位於ComfyUI/models/checkpoints/ - 新增模型後重新整理 ComfyUI(F5)或重新啟動
- 檢查檔案是否損壞(下載不完整)
生成速度非常慢
- VRAM 不足 — 嘗試使用
--lowvramflag 啟動 - steps 太多 — 20 steps 足以快速迭代;30+ 僅用於最終渲染
- 解析度太大 — 以 512×512 生成後再 upscale,而非直接以 1024×1024 生成
下一步
現在你已經能從文字生成圖片了,接下來探索這些工作流程:
- Image to Image — 使用參考圖片引導生成過程
- LoRA Guide — 透過輕量模型適配器微調輸出
- Upscale Guide — 使用 AI upscaling 提升解析度
Wonderful Launcher 文件