AUTOMATIC1111


AUTOMATIC1111: 超リアルな人物画像を生成するための完全ガイド

このガイドでは、Stable Diffusion の Web UI である AUTOMATIC1111 を使用して、超リアルな人物画像を生成するための詳細な設定と操作手順を解説します。


Stability Matrix から AUTOMATIC1111 を起動する

Stability Matrix を通じて AUTOMATIC1111 をインストールした場合、以下の手順で起動します。

  1. Stability Matrix を起動: StabilityMatrix.exe をダブルクリックします。
  2. AUTOMATIC1111 を選択: Stability Matrix の画面で AUTOMATIC1111 を選択します。
  3. 「Launch」ボタンをクリック: 起動が開始され、コマンドプロンプトが表示されます。
  4. Web UI にアクセス: 起動プロセスが完了すると、自動的にブラウザが開きます。開かない場合は、コマンドプロンプトに表示される URL(例: http:127.0.0.1:7860)にアクセスします。

注意: コマンドプロンプトの画面を閉じると、Web UI も停止します。


超リアルな人物画像を生成するための調整

高品質なリアル画像を生成するには、以下の設定と調整が不可欠です。

1. モデルの選択

Web UI 左上の「Stable Diffusion checkpoint」から、リアリスティックな画像生成に特化したモデルを選択します。

  • SD 1.5/2.1ベースの推奨モデル:
    • Realistic Vision v2.0: 全般的な写真スタイル。
    • Chillout Mix / Beautiful Realistic Asians: アジア系の人物写真スタイルに特化。
  • SDXLベースの推奨モデル:
    • Juggernaut v9, NightVision XL v8/7.9.1: 高いフォトリアリズムを実現。

モデルの追加: ダウンロードした .safetensors ファイルなどを Stability Matrixdata\models\Stable Diffusion フォルダに配置し、Web UI の更新ボタンを押すことで利用できます。


2. txt2img (Text-to-Image) における設定

テキストプロンプトから画像を生成する基本的なモードです。

2.1. プロンプト(Positive Prompt)

生成したい画像を具体的に指示します。リアルな画像を追求するために、細部の記述と品質向上キーワードを追加します。

  • 品質向上キーワード: (masterpiece), (best quality), ultra quality, sharp focus, tack sharp, 8K, UHD, extremely detailed
  • リアリティ強調: RAW photo, photorealistic, realistic
  • 写真関連の専門用語(SDXLで特に有効): ISO 800, dslr, 1/250s, F/2.8, 35mm photo, cinematic photo, shot on kodak
  • 顔のディテール: highly detailed glossy eyes, high detailed skin, skin pores, detailed face

2.2. ネガティブプロンプト(Negative Prompt)

生成したくない要素を指定します。

  • 品質の欠陥: worst quality, low quality, normal quality, lowres, blurry, cropped, poorly drawn
  • 画風の抑制: monochrome, flat color, flat shading
  • 人体構造の破綻: bad anatomy, extra limbs, missing fingers, deformed face, disfigured, malformed hands
  • EasyNegative / EasyNegative V2: embeddings フォルダに配置し、ネガティブプロンプト欄に記述することで、効率的にネガティブ要素を排除します。

2.3. CFG Scale (Classifier-Free Guidance Scale)

プロンプトへの忠実度を調整します。

  • 推奨値: リアル系画像では 7~10 が安定しています。SDXLでは 5~8 が推奨されます。

2.4. Steps (Sampling Steps)

画像生成のステップ数です。

  • 推奨値: 20~50(特に40程度)。ステップ数を増やすほどディテールが向上します。

2.5. 解像度 (Resolution)

  • SD 1.5: 512×512 で生成し、後でアップスケーリングします。
  • SDXL: 1024×1024 が最適です。

2.6. LoRA, TI, VAE の活用

  • LoRA: 特定のスタイルやポーズを追加します。stable-diffusion-webui/models/Lora/ フォルダに配置し、プロンプト欄に <lora:ファイル名:強度> で記述します。
  • TI (Embeddings): embeddings フォルダに配置し、ネガティブプロンプトの先頭に記述して使用します。
  • VAE: 画像の色味や鮮明度を調整します。stable-diffusion-webui/models/VAE/ フォルダに配置し、設定タブで選択します。リアル系には vae-ft-mse-840000-ema-pruned が推奨されます。

3. img2img (Image-to-Image) による修正と高解像度化

img2img は、既存画像の修正や高解像度化に使用します。

3.1. ADetailer による顔・手の修正

ADetailer は、顔や手の崩れを自動で検出し、高精度に修正する拡張機能です。

  • インストール: 「Extensions」タブから ADetailer をインストールし、UI を再起動します。
  • 使用方法: 画面下部の ADetailer セクションで「Enable ADetailer」にチェックを入れ、適切なモデル(adetailer_face_yolo8n.pt など)を選択します。

3.2. Hires.fix (高解像度化)

低解像度で生成した画像を高品質に拡大する機能です。

  • Denoising Strength: 元画像をどの程度再生成するかを決定します。リアル系では 0.4〜0.6 が推奨されます。顔の崩れを防ぐには、低めの値(0.4〜0.5)が有効です。
  • アップスケーラー: 品質と速度のバランスが良い「R-ESRGAN 4x+」などが推奨されます。

3.3. ControlNet による構図制御

複雑なポーズや構図を正確に制御するために使用します。

  • インストール: 「Extensions」タブから ControlNet をインストールし、モデルデータを stable-diffusion-webui/models/ControlNet/ フォルダに配置します。
  • 使用方法: ControlNet タブで画像を読み込み、プリプロセッサ(例: dw_openpose_full)とモデルを選択して、ポーズを抽出・調整します。

4. 運用のヒント

  • VRAMの最適化: webui-user.bat ファイルに --xformers--medvram-sdxl オプションを追加することで、メモリ使用量を削減できます。
  • 設定の記録: 生成された画像の情報をPNG Infoなどで記録し、成功したパターンを蓄積することで、効率的に理想の画像に近づけることができます。

これらの詳細な設定と試行錯誤を通じて、AUTOMATIC1111 で超リアルな人物画像を生成する能力を向上させることができるでしょう。