ComfyUI Text to Image: Hướng Dẫn Đầy Đủ & Khắc Phục Lỗi
Hướng dẫn từng bước tạo ảnh AI từ prompt văn bản trong ComfyUI — mẹo viết prompt, chỉnh thông số và cách sửa các lỗi thường gặp.
Text to Image là gì?
Text to Image là workflow AI art cơ bản nhất — bạn mô tả những gì muốn bằng văn bản, và mô hình AI sẽ tạo ra hình ảnh tương ứng. Trong ComfyUI, quy trình này được xây dựng dưới dạng đồ thị node, mỗi node đảm nhận một bước trong pipeline tạo ảnh.
Quy trình bao gồm ba yếu tố cốt lõi:
- Mô hình tạo ảnh — mạng neural tạo ra hình ảnh (ví dụ: Stable Diffusion 1.5)
- Latent space — không gian toán học nén nơi hình ảnh dần được hình thành
- Prompt — mô tả văn bản của bạn, chia thành positive prompt (yếu tố mong muốn) và negative prompt (những thứ cần tránh)
Yêu cầu chuẩn bị
Trước khi bắt đầu, hãy đảm bảo bạn đã:
- Cài đặt và chạy ComfyUI (Bắt đầu nhanh)
- Có ít nhất một checkpoint model trong thư mục
ComfyUI/models/checkpoints
Trong hướng dẫn này, chúng ta sẽ dùng mô hình SD1.5. Bạn có thể tải v1-5-pruned-emaonly-fp16.safetensors từ HuggingFace.
Nếu bạn cài ComfyUI Desktop, bạn có thể tải model trực tiếp qua giao diện mà không cần quản lý file thủ công.
Xây dựng Workflow
Workflow text-to-image mặc định sử dụng sáu loại node (với CLIP Text Encode xuất hiện hai lần — một cho positive prompt và một cho negative prompt). Dưới đây là chức năng của từng node:
Load Checkpoint
Tải mô hình AI của bạn. Một checkpoint thường bao gồm ba thành phần:
| Thành phần | Vai trò |
|---|---|
| MODEL (UNet) | Dự đoán và loại bỏ nhiễu trong quá trình diffusion |
| CLIP | Chuyển đổi prompt văn bản thành vector số mà mô hình hiểu được |
| VAE | Chuyển đổi giữa latent space (nơi mô hình hoạt động) và không gian pixel (những gì bạn nhìn thấy) |
Empty Latent Image
Thiết lập kích thước canvas. Node này tạo một latent space trống chứa đầy nhiễu ngẫu nhiên — điểm khởi đầu cho quá trình tạo ảnh. Chiều rộng và chiều cao ở đây quyết định kích thước ảnh cuối cùng.
Với SD1.5, hãy giữ ở 512×512 để có kết quả tốt nhất. Mô hình được huấn luyện ở độ phân giải này.
CLIP Text Encode (x2)
Bạn cần hai node này — một cho positive prompt (những gì bạn muốn) và một cho negative prompt (những gì cần tránh). Bộ mã hóa CLIP chuyển đổi văn bản thành các vector ngữ nghĩa hướng dẫn quá trình khử nhiễu.
KSampler
Đây là trung tâm của workflow. Nó nhận latent nhiễu, mô hình và các điều kiện prompt, sau đó lặp lại quá trình khử nhiễu qua nhiều bước.
Các thông số chính:
| Thông số | Chức năng |
|---|---|
| seed | Giá trị ngẫu nhiên — cùng seed + cùng cài đặt = cùng hình ảnh |
| steps | Số lần lặp khử nhiễu. Nhiều steps hơn = chi tiết hơn, tạo ảnh chậm hơn |
| cfg | Mức độ mô hình tuân theo prompt. Quá thấp = bỏ qua prompt. Quá cao = artifact |
| denoise | Cường độ nhiễu. Giữ ở 1.0 cho text-to-image (tạo hoàn toàn từ nhiễu) |
VAE Decode
Chuyển đổi latent đã khử nhiễu trở lại thành hình ảnh có thể xem được.
Save Image
Hiển thị và lưu kết quả vào thư mục ComfyUI/output.
Viết Prompt hiệu quả
Prompt tốt tạo ra sự khác biệt lớn về chất lượng đầu ra. Dưới đây là các mẹo thực tế cho SD1.5:
Nên:
- Viết bằng tiếng Anh để có kết quả tốt nhất
- Dùng các cụm từ phân cách bằng dấu phẩy, không viết câu hoàn chỉnh
- Cụ thể: "golden sunset over calm ocean" tốt hơn "nice landscape"
- Thêm từ khóa chất lượng:
masterpiece, best quality, highly detailed - Dùng trọng số để nhấn mạnh:
(golden hour:1.2)làm khái niệm đó mạnh hơn
Không nên:
- Viết đoạn văn dài — mô hình phản hồi tốt hơn với từ khóa ngắn gọn
- Quên negative prompt — chúng rất cần thiết để tránh các artifact phổ biến
Ví dụ: Phong cách Anime
Positive:
anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best qualityNegative:
low quality, blurry, deformed hands, extra fingersVí dụ: Chân dung chân thực
Positive:
(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color gradingNegative:
deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingersCách hoạt động bên trong
Text-to-image là quá trình reverse diffusion:
- Bắt đầu với nhiễu ngẫu nhiên thuần túy trong latent space
- Mô hình dự đoán nhiễu nào cần loại bỏ ở mỗi bước
- Prompt văn bản (được mã hóa thành vector) điều hướng quá trình khử nhiễu
- Sau khi hoàn thành tất cả các bước, VAE giải mã kết quả thành pixel
Latent space là biểu diễn toán học nén — nhỏ hơn nhiều so với hình ảnh thực tế. Đây là lý do mô hình diffusion có thể chạy trên phần cứng người dùng thông thường. Hãy nghĩ nó như làm việc với bản phác thảo (latent) trước khi vẽ tác phẩm hoàn chỉnh (pixel).
Về SD1.5
Stable Diffusion 1.5 là một trong những mô hình tạo ảnh mã nguồn mở được sử dụng rộng rãi nhất:
- Dung lượng: ~4 GB — chạy được trên GPU có 6 GB+ VRAM
- Độ phân giải tối ưu: 512×512
- Hệ sinh thái: Thư viện khổng lồ các LoRA, ControlNet và bản fine-tune cộng đồng
- Hạn chế: Có thể gặp khó khăn với bàn tay, ánh sáng phức tạp và độ phân giải trên 512px
Mặc dù đã có các mô hình mới hơn như SDXL và Flux, SD1.5 vẫn là điểm khởi đầu tuyệt vời để học ComfyUI nhờ tốc độ và khả năng tương thích phần cứng.
Lỗi thường gặp và cách khắc phục
Ảnh đầu ra bị mờ hoặc chất lượng thấp
- Tăng steps — thử 25–30 thay vì mặc định 20
- Tăng cfg — thử 7–9 để prompt được tuân thủ chặt hơn
- Thêm từ khóa chất lượng —
masterpiece, best quality, highly detailed, 4ktrong positive prompt - Kiểm tra độ phân giải — SD1.5 hoạt động tốt nhất ở 512×512. Tăng cao hơn mà không upscale thường làm giảm chất lượng
Bàn tay và ngón tay bị biến dạng
Đây là hạn chế đã biết của SD1.5. Cách khắc phục:
- Thêm
deformed hands, extra fingers, bad anatomyvào negative prompt - Sử dụng LoRA sửa tay (ví dụ: "detail tweaker" hoặc "hand fix" LoRA từ Civitai)
- Tạo ảnh ở 512×512 và upscale sau đó
Kết quả bỏ qua prompt
- cfg quá thấp — tăng lên 7–12 để prompt được tuân thủ mạnh hơn
- Quá nhiều khái niệm — đơn giản hóa prompt. Ít từ khóa cụ thể hơn hoạt động tốt hơn mô tả dài
- Sai mô hình — một số checkpoint được fine-tune cho phong cách cụ thể. Mô hình anime sẽ không tạo ảnh chân thực tốt
"Load Checkpoint" hiển thị null hoặc trống
- Xác minh file
.safetensorsnằm trongComfyUI/models/checkpoints/ - Làm mới ComfyUI (F5) hoặc khởi động lại sau khi thêm model mới
- Kiểm tra file không bị hỏng (tải xuống không hoàn chỉnh)
Tạo ảnh rất chậm
- VRAM không đủ — thử khởi chạy với flag
--lowvram - Quá nhiều steps — 20 steps là đủ cho các lần thử nhanh; dùng 30+ chỉ cho bản render cuối cùng
- Độ phân giải lớn — tạo ảnh ở 512×512 và upscale thay vì tạo ở 1024×1024
Bước tiếp theo
Bây giờ bạn đã có thể tạo ảnh từ văn bản, hãy khám phá các workflow sau:
- Image to Image — Dùng ảnh tham chiếu để hướng dẫn quá trình tạo ảnh
- LoRA Guide — Tinh chỉnh kết quả với bộ điều chỉnh model nhẹ
- Upscale Guide — Tăng độ phân giải bằng AI upscaling
How to Install ComfyUI Custom Nodes Without Breaking Your Environment
Install ComfyUI custom nodes safely and avoid the plugin import failures and dependency drift that often break environments.
ComfyUI Image to Image: C脿i 膼岷穞 Denoise & L峄梚 Th瓢峄漬g G岷穚
H瓢峄沶g d岷玭 img2img trong ComfyUI 鈥?hi峄僽 gi谩 tr峄?denoise, x芒y d峄眓g workflow 膽煤ng c谩ch v脿 s峄璦 c谩c l峄梚 th瓢峄漬g g岷穚 nh瓢 m岷 chi ti岷縯 岷h g峄慶.
Wonderful Launcher Docs