ComfyUI テキストから画像生成：完全ガイド＆トラブルシューティング

ComfyUI でテキストから画像を生成する方法を徹底解説 — プロンプトのコツ、パラメータ調整、出力がぼやける・手が崩れるなどのよくある問題の対処法。

テキストから画像生成（Text to Image）とは？

Text to Image は最も基本的な AI アートワークフロー — テキストで欲しい画像を説明すると、AI モデルがそれに合った画像を生成します。ComfyUI では、ノードグラフとして構築され、各ノードが生成パイプラインの1ステップを担当します。

このプロセスには3つの要素が関わります：

生成モデル — 画像を作成するニューラルネットワーク（例：Stable Diffusion 1.5）
Latent space — 画像が徐々に形成される圧縮された数学的空間
プロンプト — ポジティブ（欲しい要素）とネガティブ（避けたい要素）に分かれたテキスト記述

前提条件

開始前に以下を確認してください：

ComfyUI がインストールされ、動作していること（クイックスタート）
ComfyUI/models/checkpoints フォルダに少なくとも1つの checkpoint モデルがあること

このチュートリアルでは SD1.5 モデルを使用します。v1-5-pruned-emaonly-fp16.safetensors を HuggingFace からダウンロードできます。

ComfyUI Desktop をインストールしている場合、ファイルを手動で管理せずにインターフェースから直接モデルをダウンロードできます。

ワークフローの構築

デフォルトの Text to Image ワークフローは6種類のノードを使用します（CLIP Text Encode はポジティブプロンプト用とネガティブプロンプト用の2つ）。各ノードの役割は以下の通りです：

Load Checkpoint

AI モデルを読み込みます。checkpoint は通常3つのコンポーネントをバンドルしています：

コンポーネント	役割
MODEL (UNet)	拡散プロセス中にノイズを予測・除去する
CLIP	テキストプロンプトをモデルが理解できる数値ベクトルに変換する
VAE	latent space（モデルの作業空間）と pixel space（表示される画像）の間を変換する

Empty Latent Image

キャンバスサイズを設定します。このノードはランダムノイズで埋められた空の latent space を作成します — 生成の出発点です。ここで設定した幅と高さが最終的な画像サイズを決定します。

SD1.5 の場合、最良の結果を得るには 512×512 にしてください。モデルはこの解像度でトレーニングされています。

CLIP Text Encode (x2)

ポジティブプロンプト（欲しいもの）用とネガティブプロンプト（避けたいもの）用の2つが必要です。CLIP エンコーダーがテキストをセマンティックベクトルに変換し、デノイジングプロセスをガイドします。

KSampler

ワークフローの心臓部です。ノイズのある latent、モデル、プロンプト条件を受け取り、複数のステップにわたって画像を反復的にデノイズします。

主要パラメータ：

パラメータ	制御内容
seed	ランダム化 — 同じ seed ＋同じ設定＝同じ画像
steps	デノイジングの反復回数。多い＝より細かいディテール、遅い生成
cfg	モデルがプロンプトにどれだけ忠実に従うか。低すぎる＝プロンプト無視。高すぎる＝アーティファクト
denoise	ノイズ強度。Text to Image の場合は 1.0 のまま（ノイズからの完全生成）

VAE Decode

デノイズされた latent を表示可能な画像に変換します。

Save Image

結果を表示し、ComfyUI/output フォルダに保存します。

効果的なプロンプトの書き方

良いプロンプトは出力品質に大きな差を生みます。SD1.5 向けの実践的なコツ：

すべきこと：

最良の結果を得るために英語で記述する
文章ではなくカンマ区切りのフレーズを使う
具体的に書く：「nice landscape」より「golden sunset over calm ocean」
品質向上キーワードを追加：masterpiece, best quality, highly detailed
強調には重みを使用：(golden hour:1.2) でそのコンセプトを強化

避けるべきこと：

長い段落を書く — モデルは簡潔なキーワードに対してより良い反応を示す
ネガティブプロンプトを忘れる — 一般的なアーティファクトを避けるために不可欠

例：アニメスタイル

ポジティブ：

anime style, 1girl, long pink hair, cherry blossom background,
soft lighting, intricate details, masterpiece, best quality

ネガティブ：

low quality, blurry, deformed hands, extra fingers

例：フォトリアリスティックポートレート

ポジティブ：

(ultra realistic portrait:1.3), elegant woman,
soft cinematic lighting, (golden hour:1.2),
shallow depth of field, (skin texture:1.3),
warm color grading

ネガティブ：

deformed, cartoon, anime, plastic skin, overexposed,
blurry, extra fingers

仕組みの詳細

Text to Image は**逆拡散（reverse diffusion）**プロセスです：

latent space 内の完全なランダムノイズから開始
モデルが各ステップで除去すべきノイズを予測
テキストプロンプト（ベクトルにエンコード済み）がデノイジングの方向を制御
全ステップ完了後、VAE が結果をピクセルにデコード

Latent space は圧縮された数学的表現で、実際の画像よりもはるかに小さいサイズです。これが拡散モデルが一般的なハードウェアで動作できる理由です。スケッチ（latent）で作業してから最終作品（ピクセル）を描くようなものです。

SD1.5 について

Stable Diffusion 1.5 は最も広く使われているオープンソース画像生成モデルの1つです：

サイズ： 約4 GB — 6 GB 以上の VRAM を持つ GPU で動作
最適解像度： 512×512
エコシステム： LoRA、ControlNet、コミュニティによるファインチューンの膨大なライブラリ
トレードオフ： 手、複雑なライティング、512px を超える解像度で苦戦することがある

SDXL や Flux などの新しいモデルがあるにもかかわらず、SD1.5 はその速度とハードウェアアクセシビリティの点で ComfyUI を学ぶための優れた出発点です。

よくある問題と対処法

出力がぼやける・低品質

steps を増やす — デフォルトの 20 の代わりに 25〜30 を試す
cfg を上げる — プロンプトへの忠実度を高めるために 7〜9 を試す
品質キーワードを追加 — ポジティブプロンプトに masterpiece, best quality, highly detailed, 4k を追加
解像度を確認 — SD1.5 は 512×512 で最良の結果。アップスケールなしで高解像度にすると品質が低下することが多い

手や指が変形する

これは SD1.5 の既知の制限です。対策：

ネガティブプロンプトに deformed hands, extra fingers, bad anatomy を追加
手を修正する LoRA を使用（例：Civitai の「detail tweaker」や「hand fix」LoRA）
512×512 で生成し、その後アップスケールする

プロンプトが無視される

cfg が低すぎる — プロンプト追従を強化するために 7〜12 に増加
コンセプトが多すぎる — プロンプトをシンプルに。長い説明よりも少なく具体的なキーワードが効果的
モデルが不適切 — 一部の checkpoint は特定のスタイル向けにファインチューンされている。アニメモデルではフォトリアリズムはうまく生成できない

「Load Checkpoint」が null または空と表示される

.safetensors ファイルが ComfyUI/models/checkpoints/ にあることを確認
新しいモデルを追加した後、ComfyUI をリフレッシュ（F5）または再起動
ファイルが破損していないか確認（ダウンロードの不完全）

生成が非常に遅い

VRAM 不足 — --lowvram フラグを付けて起動を試す
steps が多すぎる — 20 steps は素早い反復には十分。30 以上は最終レンダリングのみに使用
解像度が大きい — 1024×1024 で生成する代わりに 512×512 で生成してアップスケール

次のステップ

テキストから画像を生成できるようになったら、次のワークフローを試してみましょう：

Image to Image — 参照画像を使って生成をガイド
LoRA ガイド — 軽量モデルアダプターで出力をファインチューン
アップスケールガイド — AI アップスケーリングで解像度を向上

ComfyUI テキストから画像生成：完全ガイド＆トラブルシューティング

ComfyUIの問題を解決する準備はできましたか？