ComfyUI 텍스트-이미지 생성: 완전 가이드 & 문제 해결

ComfyUI에서 텍스트 프롬프트로 AI 이미지를 생성하는 방법 — 프롬프트 팁, 파라미터 조정, 흐릿한 출력·손 변형 등 자주 발생하는 문제 해결법까지.

Text to Image란?

Text to Image는 가장 기본적인 AI 아트 워크플로우입니다 — 원하는 이미지를 텍스트로 설명하면 AI 모델이 그에 맞는 이미지를 생성합니다. ComfyUI에서는 노드 그래프로 구성되며, 각 노드가 생성 파이프라인의 한 단계를 담당합니다.

이 프로세스에는 세 가지 핵심 요소가 관여합니다:

생성 모델 — 이미지를 만드는 신경망 (예: Stable Diffusion 1.5)
Latent space — 이미지가 점진적으로 형성되는 압축된 수학적 공간
프롬프트 — 포지티브(원하는 요소)와 네거티브(피하고 싶은 요소)로 나뉜 텍스트 설명

사전 준비

시작하기 전에 다음을 확인하세요:

ComfyUI가 설치되어 실행 중인지 확인 (빠른 시작)
ComfyUI/models/checkpoints 폴더에 최소 하나의 checkpoint 모델이 있는지 확인

이 튜토리얼에서는 SD1.5 모델을 사용합니다. v1-5-pruned-emaonly-fp16.safetensors를 HuggingFace에서 다운로드할 수 있습니다.

ComfyUI Desktop을 설치한 경우 파일을 수동으로 관리할 필요 없이 인터페이스에서 직접 모델을 다운로드할 수 있습니다.

워크플로우 구성

기본 Text to Image 워크플로우는 6종류의 노드를 사용합니다 (CLIP Text Encode는 포지티브 프롬프트용과 네거티브 프롬프트용으로 2개). 각 노드의 역할은 다음과 같습니다:

Load Checkpoint

AI 모델을 로드합니다. checkpoint는 일반적으로 세 가지 컴포넌트를 번들로 포함합니다:

컴포넌트	역할
MODEL (UNet)	확산 과정에서 노이즈를 예측하고 제거
CLIP	텍스트 프롬프트를 모델이 이해할 수 있는 수치 벡터로 변환
VAE	latent space(모델 작업 공간)와 pixel space(눈에 보이는 이미지) 사이를 변환

Empty Latent Image

캔버스 크기를 설정합니다. 이 노드는 랜덤 노이즈로 채워진 빈 latent space를 생성합니다 — 생성의 시작점입니다. 여기서 설정한 너비와 높이가 최종 이미지 크기를 결정합니다.

SD1.5의 경우, 최상의 결과를 위해 512×512를 유지하세요. 모델이 이 해상도에서 학습되었습니다.

CLIP Text Encode (x2)

포지티브 프롬프트(원하는 것)용과 네거티브 프롬프트(피하고 싶은 것)용 2개가 필요합니다. CLIP 인코더가 텍스트를 시맨틱 벡터로 변환하여 디노이징 프로세스를 안내합니다.

KSampler

워크플로우의 핵심입니다. 노이즈가 있는 latent, 모델, 프롬프트 조건을 받아 여러 단계에 걸쳐 이미지를 반복적으로 디노이징합니다.

주요 파라미터:

파라미터	제어 내용
seed	랜덤화 — 같은 seed + 같은 설정 = 같은 이미지
steps	디노이징 반복 횟수. 많을수록 = 더 세밀한 디테일, 느린 생성
cfg	모델이 프롬프트를 얼마나 엄격하게 따르는지. 너무 낮음 = 프롬프트 무시. 너무 높음 = 아티팩트
denoise	노이즈 강도. Text to Image의 경우 1.0 유지 (노이즈에서 완전 생성)

VAE Decode

디노이징된 latent를 볼 수 있는 이미지로 변환합니다.

Save Image

결과를 표시하고 ComfyUI/output 폴더에 저장합니다.

효과적인 프롬프트 작성법

좋은 프롬프트는 출력 품질에 큰 차이를 만듭니다. SD1.5를 위한 실용적인 팁:

해야 할 것:

최상의 결과를 위해 영어로 작성
문장이 아닌 쉼표로 구분된 구문 사용
구체적으로 작성: "nice landscape"보다 "golden sunset over calm ocean"이 더 효과적
품질 향상 키워드 추가: masterpiece, best quality, highly detailed
강조에는 가중치 사용: (golden hour:1.2)로 해당 개념을 강화

피해야 할 것:

긴 문단 작성 — 모델은 간결한 키워드에 더 잘 반응
네거티브 프롬프트 생략 — 일반적인 아티팩트를 피하는 데 필수적

예시: 애니메이션 스타일

포지티브:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

네거티브:

low quality, blurry, deformed hands, extra fingers

예시: 포토리얼리스틱 인물 사진

포지티브:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

네거티브:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

작동 원리

Text to Image는 역확산(reverse diffusion) 프로세스입니다:

latent space에서 순수한 랜덤 노이즈로 시작
모델이 각 단계에서 제거할 노이즈를 예측
텍스트 프롬프트(벡터로 인코딩됨)가 디노이징 방향을 조절
모든 단계 완료 후 VAE가 결과를 픽셀로 디코딩

Latent space는 압축된 수학적 표현으로 실제 이미지보다 훨씬 작습니다. 이것이 확산 모델이 일반 하드웨어에서 실행될 수 있는 이유입니다. 스케치(latent)로 작업한 뒤 최종 작품(픽셀)을 완성하는 것과 같습니다.

SD1.5에 대하여

Stable Diffusion 1.5는 가장 널리 사용되는 오픈소스 이미지 생성 모델 중 하나입니다:

크기: 약 4 GB — 6 GB 이상 VRAM GPU에서 실행 가능
최적 해상도: 512×512
생태계: LoRA, ControlNet, 커뮤니티 파인튜닝의 방대한 라이브러리
트레이드오프: 손, 복잡한 조명, 512px 이상의 해상도에서 어려움을 겪을 수 있음

SDXL이나 Flux 같은 최신 모델이 있지만, SD1.5는 속도와 하드웨어 접근성 면에서 ComfyUI를 배우기 위한 훌륭한 시작점입니다.

자주 발생하는 문제와 해결법

출력이 흐릿하거나 품질이 낮음

steps 증가 — 기본값 20 대신 25~30 시도
cfg 올리기 — 프롬프트 준수를 강화하려면 7~9 시도
품질 키워드 추가 — 포지티브 프롬프트에 masterpiece, best quality, highly detailed, 4k 추가
해상도 확인 — SD1.5는 512×512에서 가장 잘 작동. 업스케일 없이 높은 해상도로 가면 품질이 저하되는 경우가 많음

손과 손가락이 변형됨

SD1.5의 알려진 한계입니다. 대처법:

네거티브 프롬프트에 deformed hands, extra fingers, bad anatomy 추가
손 교정 LoRA 사용 (예: Civitai의 "detail tweaker" 또는 "hand fix" LoRA)
512×512로 생성 후 업스케일 적용

프롬프트가 무시됨

cfg가 너무 낮음 — 프롬프트 따르기를 강화하려면 7~12로 증가
개념이 너무 많음 — 프롬프트를 단순화. 긴 설명보다 적고 구체적인 키워드가 더 효과적
잘못된 모델 — 일부 checkpoint는 특정 스타일에 맞게 파인튜닝됨. 애니메이션 모델로는 포토리얼리즘을 잘 생성할 수 없음

"Load Checkpoint"에 null 또는 비어 있음이 표시됨

.safetensors 파일이 ComfyUI/models/checkpoints/에 있는지 확인
새 모델 추가 후 ComfyUI 새로고침(F5) 또는 재시작
파일이 손상되지 않았는지 확인 (불완전한 다운로드)

생성 속도가 매우 느림

VRAM 부족 — --lowvram 플래그를 붙여 실행 시도
steps가 너무 많음 — 빠른 반복에는 20 steps로 충분, 30 이상은 최종 렌더링에만 사용
해상도가 너무 큼 — 1024×1024로 생성하는 대신 512×512로 생성 후 업스케일

다음 단계

텍스트에서 이미지를 생성할 수 있게 되었다면, 다음 워크플로우를 탐색해 보세요:

Image to Image — 참조 이미지를 사용하여 생성 안내
LoRA 가이드 — 경량 모델 어댑터로 출력 파인튜닝
업스케일 가이드 — AI 업스케일링으로 해상도 향상

이 문제가 실제 ComfyUI 환경에 영향을 주고 있다면, 먼저 Wonderful Launcher 로 현재 머신을 점검하고 문서를 보며 수리 방향을 정하세요.

Wonderful Launcher 다운로드

Did this fix your issue?

Your answer helps prioritize verified ComfyUI repairs.

Text to Image란?

이 프로세스에는 세 가지 핵심 요소가 관여합니다:

생성 모델 — 이미지를 만드는 신경망 (예: Stable Diffusion 1.5)
Latent space — 이미지가 점진적으로 형성되는 압축된 수학적 공간
프롬프트 — 포지티브(원하는 요소)와 네거티브(피하고 싶은 요소)로 나뉜 텍스트 설명

사전 준비

시작하기 전에 다음을 확인하세요:

ComfyUI가 설치되어 실행 중인지 확인 (빠른 시작)
ComfyUI/models/checkpoints 폴더에 최소 하나의 checkpoint 모델이 있는지 확인

이 튜토리얼에서는 SD1.5 모델을 사용합니다. v1-5-pruned-emaonly-fp16.safetensors를 HuggingFace에서 다운로드할 수 있습니다.

ComfyUI Desktop을 설치한 경우 파일을 수동으로 관리할 필요 없이 인터페이스에서 직접 모델을 다운로드할 수 있습니다.

워크플로우 구성

Load Checkpoint

AI 모델을 로드합니다. checkpoint는 일반적으로 세 가지 컴포넌트를 번들로 포함합니다:

컴포넌트	역할
MODEL (UNet)	확산 과정에서 노이즈를 예측하고 제거
CLIP	텍스트 프롬프트를 모델이 이해할 수 있는 수치 벡터로 변환
VAE	latent space(모델 작업 공간)와 pixel space(눈에 보이는 이미지) 사이를 변환

파라미터	제어 내용
seed	랜덤화 — 같은 seed + 같은 설정 = 같은 이미지
steps	디노이징 반복 횟수. 많을수록 = 더 세밀한 디테일, 느린 생성
cfg	모델이 프롬프트를 얼마나 엄격하게 따르는지. 너무 낮음 = 프롬프트 무시. 너무 높음 = 아티팩트
denoise	노이즈 강도. Text to Image의 경우 1.0 유지 (노이즈에서 완전 생성)

최상의 결과를 위해 영어로 작성
문장이 아닌 쉼표로 구분된 구문 사용
구체적으로 작성: "nice landscape"보다 "golden sunset over calm ocean"이 더 효과적
품질 향상 키워드 추가: masterpiece, best quality, highly detailed
강조에는 가중치 사용: (golden hour:1.2)로 해당 개념을 강화

피해야 할 것:

긴 문단 작성 — 모델은 간결한 키워드에 더 잘 반응
네거티브 프롬프트 생략 — 일반적인 아티팩트를 피하는 데 필수적

예시: 애니메이션 스타일

포지티브:

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

네거티브:

low quality, blurry, deformed hands, extra fingers

예시: 포토리얼리스틱 인물 사진

포지티브:

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

네거티브:

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

작동 원리

Text to Image는 역확산(reverse diffusion) 프로세스입니다:

latent space에서 순수한 랜덤 노이즈로 시작
모델이 각 단계에서 제거할 노이즈를 예측
텍스트 프롬프트(벡터로 인코딩됨)가 디노이징 방향을 조절
모든 단계 완료 후 VAE가 결과를 픽셀로 디코딩

SD1.5에 대하여

Stable Diffusion 1.5는 가장 널리 사용되는 오픈소스 이미지 생성 모델 중 하나입니다:

크기: 약 4 GB — 6 GB 이상 VRAM GPU에서 실행 가능
최적 해상도: 512×512
생태계: LoRA, ControlNet, 커뮤니티 파인튜닝의 방대한 라이브러리
트레이드오프: 손, 복잡한 조명, 512px 이상의 해상도에서 어려움을 겪을 수 있음

SDXL이나 Flux 같은 최신 모델이 있지만, SD1.5는 속도와 하드웨어 접근성 면에서 ComfyUI를 배우기 위한 훌륭한 시작점입니다.

자주 발생하는 문제와 해결법

출력이 흐릿하거나 품질이 낮음

steps 증가 — 기본값 20 대신 25~30 시도
cfg 올리기 — 프롬프트 준수를 강화하려면 7~9 시도
품질 키워드 추가 — 포지티브 프롬프트에 masterpiece, best quality, highly detailed, 4k 추가
해상도 확인 — SD1.5는 512×512에서 가장 잘 작동. 업스케일 없이 높은 해상도로 가면 품질이 저하되는 경우가 많음

손과 손가락이 변형됨

SD1.5의 알려진 한계입니다. 대처법:

네거티브 프롬프트에 deformed hands, extra fingers, bad anatomy 추가
손 교정 LoRA 사용 (예: Civitai의 "detail tweaker" 또는 "hand fix" LoRA)
512×512로 생성 후 업스케일 적용

프롬프트가 무시됨

cfg가 너무 낮음 — 프롬프트 따르기를 강화하려면 7~12로 증가
개념이 너무 많음 — 프롬프트를 단순화. 긴 설명보다 적고 구체적인 키워드가 더 효과적
잘못된 모델 — 일부 checkpoint는 특정 스타일에 맞게 파인튜닝됨. 애니메이션 모델로는 포토리얼리즘을 잘 생성할 수 없음

"Load Checkpoint"에 null 또는 비어 있음이 표시됨

.safetensors 파일이 ComfyUI/models/checkpoints/에 있는지 확인
새 모델 추가 후 ComfyUI 새로고침(F5) 또는 재시작
파일이 손상되지 않았는지 확인 (불완전한 다운로드)

생성 속도가 매우 느림

VRAM 부족 — --lowvram 플래그를 붙여 실행 시도
steps가 너무 많음 — 빠른 반복에는 20 steps로 충분, 30 이상은 최종 렌더링에만 사용
해상도가 너무 큼 — 1024×1024로 생성하는 대신 512×512로 생성 후 업스케일

다음 단계

텍스트에서 이미지를 생성할 수 있게 되었다면, 다음 워크플로우를 탐색해 보세요:

Image to Image — 참조 이미지를 사용하여 생성 안내
LoRA 가이드 — 경량 모델 어댑터로 출력 파인튜닝
업스케일 가이드 — AI 업스케일링으로 해상도 향상

이 문제가 실제 ComfyUI 환경에 영향을 주고 있다면, 먼저 Wonderful Launcher 로 현재 머신을 점검하고 문서를 보며 수리 방향을 정하세요.

Wonderful Launcher 다운로드

Did this fix your issue?

Your answer helps prioritize verified ComfyUI repairs.

ComfyUI 텍스트-이미지 생성: 완전 가이드 & 문제 해결

목차

ComfyUI 텍스트-이미지 생성: 완전 가이드 & 문제 해결

목차