老达博客 AI 工具 Stable Diffusion 入门教程(2026):安装、模型下载、ControlNet、LoRA 完整攻略

Stable Diffusion 入门教程(2026):安装、模型下载、ControlNet、LoRA 完整攻略

Stable Diffusion 是目前最强大的开源 AI 画图模型,完全免费、可本地运行、没有任何内容审查。和 Midjourney 不同,Stable Diffusion 的上限极高——通过 LoRA 模型、ControlNet 精确控制等高级功能,能实现 Midjourney 做不到的精细效果。这篇教程带你从零开始,30 分钟跑起来第一张图。

硬件要求

配置最低要求推荐配置
显卡(NVIDIA)GTX 1060 / 4GB 显存RTX 3060 / 12GB 显存
内存8GB16GB+
硬盘20GB 空间50GB+(存模型用)
Mac(M系列)M1 / 8GB 统一内存M2/M3 / 16GB+

没有独立显卡?用 CPU 也能跑,只是速度很慢(一张图需要几分钟)。或者用在线平台(Google Colab)免费使用云端 GPU。

安装方式选择

方案一:AUTOMATIC1111 WebUI(最流行)

老牌经典界面,插件生态最丰富,教程最多。

# Windows(需要先安装 Python 3.10 和 Git)
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
# 双击 webui-user.bat 启动
# 首次启动会自动下载基础模型,约 4GB,耐心等待
# 启动后访问 http://127.0.0.1:7860

方案二:ComfyUI(进阶用户首选)

节点式工作流界面,灵活度最高,是专业用户的标准选择。

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py
# 访问 http://127.0.0.1:8188

方案三:Forge(新推荐,速度更快)

基于 AUTOMATIC1111 的优化版本,同样界面但显存占用更低、速度更快,新手推荐。

方案四:在线体验(无需安装)

不想本地安装,可以直接在这些平台体验:

  • Hugging Face Spaces:免费,有排队
  • Mage.space:部分免费
  • Google Colab:免费 GPU,需要一定配置技巧

下载模型:去哪找?

Stable Diffusion 的核心是”模型”——不同模型有不同风格。主要来源:

  • Civitai.com:最大的 SD 模型社区,上千种风格模型,有效果预览图
  • Hugging Face:官方和开发者发布模型的平台

模型类型:

  • Checkpoint(主模型):决定整体风格,放在 models/Stable-diffusion/ 文件夹
  • LoRA:风格微调,叠加在主模型上,放在 models/Lora/
  • VAE:改善色彩和细节,放在 models/VAE/

2026 年推荐入门模型

  • Realistic Vision V6:写实人像,国内用户最常用
  • DreamShaper XL:通用高质量,适合各类风格
  • Anything V5:动漫/二次元风格经典模型
  • SDXL Turbo:速度极快,几秒生成一张

生成第一张图

基本参数说明

  • Prompt(正向提示词):描述你想要的内容
  • Negative Prompt(负向提示词):描述你不想要的内容
  • Steps(采样步数):推荐 20-30,越高越细致但越慢
  • CFG Scale:提示词约束强度,推荐 7,越高越严格遵循提示词
  • Sampler:采样算法,推荐 DPM++ 2M Karras 或 Euler a
  • 尺寸:SD1.5 推荐 512×768,SDXL 推荐 1024×1024

入门 Prompt 模板

# 写实人像(配 Realistic Vision 模型)
正向:
(best quality, 8k, RAW photo:1.2), 
a beautiful woman, 25 years old, 
casual outfit, coffee shop background, 
natural lighting, bokeh, 
professional photography

负向:
(worst quality, low quality:1.4), 
deformed, ugly, bad anatomy, 
extra limbs, watermark, text,
blurry, out of focus
# 风景/场景
正向:
masterpiece, best quality,
epic mountain landscape at sunset,
golden hour, dramatic clouds,
cinematic composition, ultra detailed,
8k resolution

负向:
worst quality, low quality, blurry,
people, text, watermark

进阶功能:ControlNet(精确控制构图)

ControlNet 是 SD 最强大的进阶功能,让你精确控制生成图片的构图、姿势、线条:

  • Canny:提取线稿,保留构图轮廓生成新图
  • OpenPose:控制人物姿势(上传姿势参考图,人物会摆同样姿势)
  • Depth:提取深度信息,保留空间层次感
  • Tile:高清放大时保持细节一致

典型用途:上传一张草图,用 Canny 模式让 AI 按这个构图生成高质量图片。

进阶功能:LoRA(风格微调)

LoRA 是小型的风格附加模型,叠加在主模型上使用:

# 在提示词里调用 LoRA
a beautiful scene, , 
realistic style, cinematic lighting

# 0.8 是 LoRA 权重,0.5-1.0 之间调整

常见 LoRA 用途:特定画风(吉卜力风、赛博朋克风)、特定人物、特定服装、特定相机效果(胶片质感、老照片等)。

图生图(img2img)

上传参考图,让 AI 基于它的构图和风格生成新图:

  • Denoising Strength(重绘幅度):越低越像原图,越高变化越大。推荐 0.5-0.7
  • 典型用途:把线稿转成彩色图、把草图精细化、改变图片风格

常见问题

Q:生成的手指/脸部变形怎么办?

在负向提示词加上:bad hands, extra fingers, mutated hands, poorly drawn hands, deformed face, ugly face

Q:图片模糊怎么提升清晰度?

使用「Hires.fix」功能:勾选 Hires.fix,放大倍数设 1.5-2x,降噪强度设 0.4-0.6,用 R-ESRGAN 4x+ 放大算法。

Q:显存不够怎么办?

在启动参数加 --medvram(中等显存优化)或 --lowvram(低显存模式),速度会慢但能跑起来。

SD vs Midjourney:该选哪个?

  • 选 Midjourney:追求最高艺术质感、不想折腾技术细节、愿意花 $10/月
  • 选 Stable Diffusion:完全免费、要精细控制、对内容没有限制、有一定技术基础
  • 两个都用:Midjourney 出概念图,SD 做精细调整和批量生产

延伸阅读

👉 查看完整AI工具导航:所有AI工具教程一站汇总

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部