ComfyUI 文字轉圖片：完整教學與疑難排解

ComfyUI 文字轉圖片完整教學 — prompt 技巧、參數調整及常見問題修復，解決出圖模糊、手部變形等問題。

什麼是 Text to Image？

Text to Image 是最基本的 AI 繪圖工作流程 — 你用文字描述想要的畫面，AI 模型就會產生對應的圖片。在 ComfyUI 中，這個流程被建構為節點圖，每個節點負責產生流程中的一個步驟。

這個流程包含三個核心要素：

生成模型 — 產生圖片的神經網路（例如 Stable Diffusion 1.5）
Latent space — 圖片逐步成形的壓縮數學空間
Prompt — 你的文字描述，分為 positive prompt（想要的元素）和 negative prompt（想避免的元素）

事前準備

開始之前，請確認你已經：

安裝並執行 ComfyUI（快速開始）
在 ComfyUI/models/checkpoints 資料夾中至少有一個 checkpoint model

本教學使用 SD1.5 模型。你可以從 HuggingFace 下載 v1-5-pruned-emaonly-fp16.safetensors。

如果你使用 ComfyUI Desktop 安裝，可以直接透過介面下載模型，無需手動管理檔案。

建立工作流程

預設的 text-to-image 工作流程使用六種節點（其中 CLIP Text Encode 出現兩次 — 一次用於 positive prompt，一次用於 negative prompt）。以下是每個節點的功能：

Load Checkpoint

載入你的 AI 模型。一個 checkpoint 通常包含三個元件：

元件	功能
MODEL (UNet)	在 diffusion 過程中預測並移除雜訊
CLIP	將文字 prompt 轉換為模型可理解的數值向量
VAE	在 latent space（模型運作空間）與像素空間（你看到的畫面）之間轉換

Empty Latent Image

設定畫布大小。此節點建立一個充滿隨機雜訊的空白 latent space — 這是產生圖片的起點。這裡的寬度和高度決定最終圖片尺寸。

SD1.5 建議使用 512×512 以獲得最佳效果。模型是在此解析度下訓練的。

CLIP Text Encode (x2)

你需要兩個此節點 — 一個用於 positive prompt（你想要的），一個用於 negative prompt（想避免的）。CLIP 編碼器將文字轉換為語意向量，引導去雜訊過程。

KSampler

這是工作流程的核心。它接收帶有雜訊的 latent、模型和 prompt 條件，然後透過多個步驟反覆去除雜訊。

關鍵參數：

參數	功能說明
seed	隨機化控制 — 相同 seed + 相同設定 = 相同圖片
steps	去雜訊迭代次數。步數越多 = 細節越豐富，生成越慢
cfg	模型遵循 prompt 的程度。太低 = 忽略 prompt。太高 = 產生偽影
denoise	雜訊強度。Text-to-image 請保持 1.0（從雜訊完全生成）

VAE Decode

將去雜訊後的 latent 轉換回可檢視的圖片。

Save Image

顯示並儲存結果至 ComfyUI/output 資料夾。

撰寫有效的 Prompt

好的 prompt 對輸出品質有極大影響。以下是 SD1.5 的實用技巧：

建議做法：

使用英文撰寫以獲得最佳效果
使用逗號分隔的詞組，而非完整句子
要具體："golden sunset over calm ocean" 比 "nice landscape" 好
加入品質關鍵字：masterpiece, best quality, highly detailed
使用權重加強效果：(golden hour:1.2) 讓該概念更強烈

避免做法：

寫長段落 — 模型對簡潔關鍵字的反應更好
忘記 negative prompt — 它們對避免常見偽影很重要

範例：動漫風格

Positive:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Negative:

low quality, blurry, deformed hands, extra fingers

範例：寫實人像

Positive:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Negative:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

底層運作原理

Text-to-image 是 reverse diffusion 過程：

從 latent space 中的純隨機雜訊開始
模型預測每一步需要移除哪些雜訊
你的文字 prompt（編碼為向量）引導去雜訊方向
所有步驟完成後，VAE 將結果解碼為像素

Latent space 是壓縮的數學表示 — 比實際圖片小得多。這就是 diffusion 模型能在一般消費級硬體上執行的原因。可以把它想成先畫草稿（latent），再完成最終作品（像素）。

關於 SD1.5

Stable Diffusion 1.5 是最廣泛使用的開源圖片生成模型之一：

檔案大小： ~4 GB — 可在 6 GB+ VRAM 的 GPU 上執行
最佳解析度： 512×512
生態系統： 龐大的 LoRA、ControlNet 和社群微調模型庫
限制： 在手部、複雜光影和超過 512px 的解析度上可能遇到困難

儘管已有 SDXL 和 Flux 等更新的模型，SD1.5 憑藉其速度和硬體相容性，仍然是學習 ComfyUI 的絕佳起點。

常見問題與解決方案

輸出圖片模糊或品質低

增加 steps — 嘗試 25–30，而非預設的 20
提高 cfg — 嘗試 7–9 以更嚴格地遵循 prompt
加入品質關鍵字 — 在 positive prompt 中加入 masterpiece, best quality, highly detailed, 4k
檢查解析度 — SD1.5 在 512×512 時效果最佳。未經 upscale 直接提高解析度通常會降低品質

手部和手指變形

這是 SD1.5 的已知限制。緩解方法：

在 negative prompt 中加入 deformed hands, extra fingers, bad anatomy
使用修復手部的 LoRA（例如 Civitai 上的 "detail tweaker" 或 "hand fix" LoRA）
以 512×512 生成後再 upscale

輸出結果忽略 prompt

cfg 太低 — 提高到 7–12 以加強 prompt 遵循度
概念太多 — 簡化 prompt。少量具體的關鍵字比冗長描述更有效
模型不對 — 某些 checkpoint 是針對特定風格微調的。動漫模型無法很好地產生寫實效果

"Load Checkpoint" 顯示 null 或空白

確認 .safetensors 檔案位於 ComfyUI/models/checkpoints/
新增模型後重新整理 ComfyUI（F5）或重新啟動
檢查檔案是否損壞（下載不完整）

生成速度非常慢

VRAM 不足 — 嘗試使用 --lowvram flag 啟動
steps 太多 — 20 steps 足以快速迭代；30+ 僅用於最終渲染
解析度太大 — 以 512×512 生成後再 upscale，而非直接以 1024×1024 生成

下一步

現在你已經能從文字生成圖片了，接下來探索這些工作流程：

Image to Image — 使用參考圖片引導生成過程
LoRA Guide — 透過輕量模型適配器微調輸出
Upscale Guide — 使用 AI upscaling 提升解析度

ComfyUI 文字轉圖片：完整教學與疑難排解

Ready to Fix Your ComfyUI Issues?