Stable Diffusion 是目前最强大的开源 AI 画图模型,完全免费、可本地运行、没有任何内容审查。和 Midjourney 不同,Stable Diffusion 的上限极高——通过 LoRA 模型、ControlNet 精确控制等高级功能,能实现 Midjourney 做不到的精细效果。这篇教程带你从零开始,30 分钟跑起来第一张图。
硬件要求
| 配置 | 最低要求 | 推荐配置 |
|---|---|---|
| 显卡(NVIDIA) | GTX 1060 / 4GB 显存 | RTX 3060 / 12GB 显存 |
| 内存 | 8GB | 16GB+ |
| 硬盘 | 20GB 空间 | 50GB+(存模型用) |
| Mac(M系列) | M1 / 8GB 统一内存 | M2/M3 / 16GB+ |
没有独立显卡?用 CPU 也能跑,只是速度很慢(一张图需要几分钟)。或者用在线平台(Google Colab)免费使用云端 GPU。
安装方式选择
方案一:AUTOMATIC1111 WebUI(最流行)
老牌经典界面,插件生态最丰富,教程最多。
# Windows(需要先安装 Python 3.10 和 Git)
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
# 双击 webui-user.bat 启动
# 首次启动会自动下载基础模型,约 4GB,耐心等待
# 启动后访问 http://127.0.0.1:7860
方案二:ComfyUI(进阶用户首选)
节点式工作流界面,灵活度最高,是专业用户的标准选择。
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py
# 访问 http://127.0.0.1:8188
方案三:Forge(新推荐,速度更快)
基于 AUTOMATIC1111 的优化版本,同样界面但显存占用更低、速度更快,新手推荐。
方案四:在线体验(无需安装)
不想本地安装,可以直接在这些平台体验:
- Hugging Face Spaces:免费,有排队
- Mage.space:部分免费
- Google Colab:免费 GPU,需要一定配置技巧
下载模型:去哪找?
Stable Diffusion 的核心是”模型”——不同模型有不同风格。主要来源:
- Civitai.com:最大的 SD 模型社区,上千种风格模型,有效果预览图
- Hugging Face:官方和开发者发布模型的平台
模型类型:
- Checkpoint(主模型):决定整体风格,放在
models/Stable-diffusion/文件夹 - LoRA:风格微调,叠加在主模型上,放在
models/Lora/ - VAE:改善色彩和细节,放在
models/VAE/
2026 年推荐入门模型
- Realistic Vision V6:写实人像,国内用户最常用
- DreamShaper XL:通用高质量,适合各类风格
- Anything V5:动漫/二次元风格经典模型
- SDXL Turbo:速度极快,几秒生成一张
生成第一张图
基本参数说明
- Prompt(正向提示词):描述你想要的内容
- Negative Prompt(负向提示词):描述你不想要的内容
- Steps(采样步数):推荐 20-30,越高越细致但越慢
- CFG Scale:提示词约束强度,推荐 7,越高越严格遵循提示词
- Sampler:采样算法,推荐 DPM++ 2M Karras 或 Euler a
- 尺寸:SD1.5 推荐 512×768,SDXL 推荐 1024×1024
入门 Prompt 模板
# 写实人像(配 Realistic Vision 模型)
正向:
(best quality, 8k, RAW photo:1.2),
a beautiful woman, 25 years old,
casual outfit, coffee shop background,
natural lighting, bokeh,
professional photography
负向:
(worst quality, low quality:1.4),
deformed, ugly, bad anatomy,
extra limbs, watermark, text,
blurry, out of focus
# 风景/场景
正向:
masterpiece, best quality,
epic mountain landscape at sunset,
golden hour, dramatic clouds,
cinematic composition, ultra detailed,
8k resolution
负向:
worst quality, low quality, blurry,
people, text, watermark
进阶功能:ControlNet(精确控制构图)
ControlNet 是 SD 最强大的进阶功能,让你精确控制生成图片的构图、姿势、线条:
- Canny:提取线稿,保留构图轮廓生成新图
- OpenPose:控制人物姿势(上传姿势参考图,人物会摆同样姿势)
- Depth:提取深度信息,保留空间层次感
- Tile:高清放大时保持细节一致
典型用途:上传一张草图,用 Canny 模式让 AI 按这个构图生成高质量图片。
进阶功能:LoRA(风格微调)
LoRA 是小型的风格附加模型,叠加在主模型上使用:
# 在提示词里调用 LoRA
a beautiful scene, ,
realistic style, cinematic lighting
# 0.8 是 LoRA 权重,0.5-1.0 之间调整
常见 LoRA 用途:特定画风(吉卜力风、赛博朋克风)、特定人物、特定服装、特定相机效果(胶片质感、老照片等)。
图生图(img2img)
上传参考图,让 AI 基于它的构图和风格生成新图:
- Denoising Strength(重绘幅度):越低越像原图,越高变化越大。推荐 0.5-0.7
- 典型用途:把线稿转成彩色图、把草图精细化、改变图片风格
常见问题
Q:生成的手指/脸部变形怎么办?
在负向提示词加上:bad hands, extra fingers, mutated hands, poorly drawn hands, deformed face, ugly face
Q:图片模糊怎么提升清晰度?
使用「Hires.fix」功能:勾选 Hires.fix,放大倍数设 1.5-2x,降噪强度设 0.4-0.6,用 R-ESRGAN 4x+ 放大算法。
Q:显存不够怎么办?
在启动参数加 --medvram(中等显存优化)或 --lowvram(低显存模式),速度会慢但能跑起来。
SD vs Midjourney:该选哪个?
- 选 Midjourney:追求最高艺术质感、不想折腾技术细节、愿意花 $10/月
- 选 Stable Diffusion:完全免费、要精细控制、对内容没有限制、有一定技术基础
- 两个都用:Midjourney 出概念图,SD 做精细调整和批量生产
延伸阅读
👉 查看完整AI工具导航:所有AI工具教程一站汇总
