ComfyUI Text to Image: Hướng Dẫn Đầy Đủ & Khắc Phục Lỗi

Hướng dẫn từng bước tạo ảnh AI từ prompt văn bản trong ComfyUI — mẹo viết prompt, chỉnh thông số và cách sửa các lỗi thường gặp.

Text to Image là gì?

Text to Image là workflow AI art cơ bản nhất — bạn mô tả những gì muốn bằng văn bản, và mô hình AI sẽ tạo ra hình ảnh tương ứng. Trong ComfyUI, quy trình này được xây dựng dưới dạng đồ thị node, mỗi node đảm nhận một bước trong pipeline tạo ảnh.

Quy trình bao gồm ba yếu tố cốt lõi:

Mô hình tạo ảnh — mạng neural tạo ra hình ảnh (ví dụ: Stable Diffusion 1.5)
Latent space — không gian toán học nén nơi hình ảnh dần được hình thành
Prompt — mô tả văn bản của bạn, chia thành positive prompt (yếu tố mong muốn) và negative prompt (những thứ cần tránh)

Yêu cầu chuẩn bị

Trước khi bắt đầu, hãy đảm bảo bạn đã:

Cài đặt và chạy ComfyUI (Bắt đầu nhanh)
Có ít nhất một checkpoint model trong thư mục ComfyUI/models/checkpoints

Trong hướng dẫn này, chúng ta sẽ dùng mô hình SD1.5. Bạn có thể tải v1-5-pruned-emaonly-fp16.safetensors từ HuggingFace.

Nếu bạn cài ComfyUI Desktop, bạn có thể tải model trực tiếp qua giao diện mà không cần quản lý file thủ công.

Xây dựng Workflow

Workflow text-to-image mặc định sử dụng sáu loại node (với CLIP Text Encode xuất hiện hai lần — một cho positive prompt và một cho negative prompt). Dưới đây là chức năng của từng node:

Load Checkpoint

Tải mô hình AI của bạn. Một checkpoint thường bao gồm ba thành phần:

Thành phần	Vai trò
MODEL (UNet)	Dự đoán và loại bỏ nhiễu trong quá trình diffusion
CLIP	Chuyển đổi prompt văn bản thành vector số mà mô hình hiểu được
VAE	Chuyển đổi giữa latent space (nơi mô hình hoạt động) và không gian pixel (những gì bạn nhìn thấy)

Empty Latent Image

Thiết lập kích thước canvas. Node này tạo một latent space trống chứa đầy nhiễu ngẫu nhiên — điểm khởi đầu cho quá trình tạo ảnh. Chiều rộng và chiều cao ở đây quyết định kích thước ảnh cuối cùng.

Với SD1.5, hãy giữ ở 512×512 để có kết quả tốt nhất. Mô hình được huấn luyện ở độ phân giải này.

CLIP Text Encode (x2)

Bạn cần hai node này — một cho positive prompt (những gì bạn muốn) và một cho negative prompt (những gì cần tránh). Bộ mã hóa CLIP chuyển đổi văn bản thành các vector ngữ nghĩa hướng dẫn quá trình khử nhiễu.

KSampler

Đây là trung tâm của workflow. Nó nhận latent nhiễu, mô hình và các điều kiện prompt, sau đó lặp lại quá trình khử nhiễu qua nhiều bước.

Các thông số chính:

Thông số	Chức năng
seed	Giá trị ngẫu nhiên — cùng seed + cùng cài đặt = cùng hình ảnh
steps	Số lần lặp khử nhiễu. Nhiều steps hơn = chi tiết hơn, tạo ảnh chậm hơn
cfg	Mức độ mô hình tuân theo prompt. Quá thấp = bỏ qua prompt. Quá cao = artifact
denoise	Cường độ nhiễu. Giữ ở 1.0 cho text-to-image (tạo hoàn toàn từ nhiễu)

VAE Decode

Chuyển đổi latent đã khử nhiễu trở lại thành hình ảnh có thể xem được.

Save Image

Hiển thị và lưu kết quả vào thư mục ComfyUI/output.

Viết Prompt hiệu quả

Prompt tốt tạo ra sự khác biệt lớn về chất lượng đầu ra. Dưới đây là các mẹo thực tế cho SD1.5:

Nên:

Viết bằng tiếng Anh để có kết quả tốt nhất
Dùng các cụm từ phân cách bằng dấu phẩy, không viết câu hoàn chỉnh
Cụ thể: "golden sunset over calm ocean" tốt hơn "nice landscape"
Thêm từ khóa chất lượng: masterpiece, best quality, highly detailed
Dùng trọng số để nhấn mạnh: (golden hour:1.2) làm khái niệm đó mạnh hơn

Không nên:

Viết đoạn văn dài — mô hình phản hồi tốt hơn với từ khóa ngắn gọn
Quên negative prompt — chúng rất cần thiết để tránh các artifact phổ biến

Ví dụ: Phong cách Anime

Positive:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

Negative:

low quality, blurry, deformed hands, extra fingers

Ví dụ: Chân dung chân thực

Positive:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

Negative:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

Cách hoạt động bên trong

Text-to-image là quá trình reverse diffusion:

Bắt đầu với nhiễu ngẫu nhiên thuần túy trong latent space
Mô hình dự đoán nhiễu nào cần loại bỏ ở mỗi bước
Prompt văn bản (được mã hóa thành vector) điều hướng quá trình khử nhiễu
Sau khi hoàn thành tất cả các bước, VAE giải mã kết quả thành pixel

Latent space là biểu diễn toán học nén — nhỏ hơn nhiều so với hình ảnh thực tế. Đây là lý do mô hình diffusion có thể chạy trên phần cứng người dùng thông thường. Hãy nghĩ nó như làm việc với bản phác thảo (latent) trước khi vẽ tác phẩm hoàn chỉnh (pixel).

Về SD1.5

Stable Diffusion 1.5 là một trong những mô hình tạo ảnh mã nguồn mở được sử dụng rộng rãi nhất:

Dung lượng: ~4 GB — chạy được trên GPU có 6 GB+ VRAM
Độ phân giải tối ưu: 512×512
Hệ sinh thái: Thư viện khổng lồ các LoRA, ControlNet và bản fine-tune cộng đồng
Hạn chế: Có thể gặp khó khăn với bàn tay, ánh sáng phức tạp và độ phân giải trên 512px

Mặc dù đã có các mô hình mới hơn như SDXL và Flux, SD1.5 vẫn là điểm khởi đầu tuyệt vời để học ComfyUI nhờ tốc độ và khả năng tương thích phần cứng.

Lỗi thường gặp và cách khắc phục

Ảnh đầu ra bị mờ hoặc chất lượng thấp

Tăng steps — thử 25–30 thay vì mặc định 20
Tăng cfg — thử 7–9 để prompt được tuân thủ chặt hơn
Thêm từ khóa chất lượng — masterpiece, best quality, highly detailed, 4k trong positive prompt
Kiểm tra độ phân giải — SD1.5 hoạt động tốt nhất ở 512×512. Tăng cao hơn mà không upscale thường làm giảm chất lượng

Bàn tay và ngón tay bị biến dạng

Đây là hạn chế đã biết của SD1.5. Cách khắc phục:

Thêm deformed hands, extra fingers, bad anatomy vào negative prompt
Sử dụng LoRA sửa tay (ví dụ: "detail tweaker" hoặc "hand fix" LoRA từ Civitai)
Tạo ảnh ở 512×512 và upscale sau đó

Kết quả bỏ qua prompt

cfg quá thấp — tăng lên 7–12 để prompt được tuân thủ mạnh hơn
Quá nhiều khái niệm — đơn giản hóa prompt. Ít từ khóa cụ thể hơn hoạt động tốt hơn mô tả dài
Sai mô hình — một số checkpoint được fine-tune cho phong cách cụ thể. Mô hình anime sẽ không tạo ảnh chân thực tốt

"Load Checkpoint" hiển thị null hoặc trống

Xác minh file .safetensors nằm trong ComfyUI/models/checkpoints/
Làm mới ComfyUI (F5) hoặc khởi động lại sau khi thêm model mới
Kiểm tra file không bị hỏng (tải xuống không hoàn chỉnh)

Tạo ảnh rất chậm

VRAM không đủ — thử khởi chạy với flag --lowvram
Quá nhiều steps — 20 steps là đủ cho các lần thử nhanh; dùng 30+ chỉ cho bản render cuối cùng
Độ phân giải lớn — tạo ảnh ở 512×512 và upscale thay vì tạo ở 1024×1024

Bước tiếp theo

Bây giờ bạn đã có thể tạo ảnh từ văn bản, hãy khám phá các workflow sau:

Image to Image — Dùng ảnh tham chiếu để hướng dẫn quá trình tạo ảnh
LoRA Guide — Tinh chỉnh kết quả với bộ điều chỉnh model nhẹ
Upscale Guide — Tăng độ phân giải bằng AI upscaling

Sẵn sàng giải quyết vấn đề ComfyUI?