Stable Diffusion开源事件
事件概述
2022年8月22日,德国初创公司Stability AI联合慕尼黑大学视觉与学习实验室发布了开源文生图模型Stable Diffusion,任何人都可以免费下载、使用和修改该模型,它的出现彻底改变了AI生成内容(AIGC)产业的格局,极大地降低了AI生成技术的使用门槛,推动了整个AIGC生态的爆发式发展。
发布背景
在Stable Diffusion之前,虽然已经有DALL-E 2、MidJourney等文生图产品,但它们都是闭源的,用户只能通过API或网页接口使用,无法本地部署,也无法自定义修改,使用成本较高,且有诸多限制。
Stable Diffusion的研发得到了Stability AI的资助,基于Latent Diffusion架构,训练使用了LAION-5B数据集(包含58.5亿个图像-文本对),总训练成本约60万美元。
核心特性
Stable Diffusion相比之前的文生图模型具有革命性的优势:
- 完全开源:模型权重完全公开,任何人都可以免费下载使用,用于个人或商业用途。
- 轻量化:相比DALL-E 2等需要在超算上运行的模型,Stable Diffusion可以在消费级显卡(至少4GB显存)上运行,普通用户在自己的电脑上就可以部署使用。
- 生成质量高:生成的图像质量接近闭源的DALL-E 2和MidJourney,能够生成各种风格的高质量图像。
- 高度可定制:用户可以根据自己的需求微调和修改模型,训练自己的专属模型,开发各种定制化的应用。
- 功能丰富:支持文生图、图生图、图像修复、图像超分辨率、深度图生成等多种功能。
开源的重大影响
- 降低AIGC技术门槛:Stable Diffusion的开源让普通用户和小公司也能使用最先进的文生图技术,而不需要依赖大公司的API,极大地推动了AIGC技术的普及。
- 催生繁荣的开源生态:围绕Stable Diffusion形成了非常繁荣的开源生态,包括:
- 各种WebUI工具(如Automatic1111/stable-diffusion-webui),让普通用户也能轻松使用。
- 大量开源的定制模型和LoRA,满足不同场景的生成需求。
- 各种插件和扩展功能,不断提升生成能力。
- 推动AIGC产业爆发:Stable Diffusion的开源直接催生了一大批AIGC初创公司,推动了AIGC技术在各个行业的应用落地,整个AIGC产业进入爆发式增长阶段。
- 促进技术创新:开源模式使得全球的开发者都可以参与到模型的改进和创新中来,技术迭代速度大大加快,文生图技术的发展速度远超预期。
后续发展
Stable Diffusion开源后,社区非常活跃,不断有新的版本和改进出现:
- 2022年11月:Stable Diffusion 2.0版本发布,生成质量大幅提升,支持更高分辨率的图像生成。
- 2023年8月:Stable Diffusion XL(SDXL)1.0版本发布,生成质量有了质的提升,接近MidJourney的水平。
- 2024年:Stable Diffusion 3发布,采用Transformer架构,性能进一步提升。
- 生态繁荣:全球开发者开发了各种衍生模型、工具和应用,基于Stable Diffusion的生态已经成为AIGC领域最大的生态系统。
社会影响
- 创作民主化:Stable Diffusion让每个人都能使用AI进行创作,不需要专业的美术技能就可以生成高质量的图像内容,大大降低了创作门槛,实现了”创作民主化”。
- 版权争议:Stable Diffusion使用了大量互联网上的版权图片进行训练,引发了关于训练数据版权的争议,多个艺术家和版权机构对Stability AI提起了诉讼。
- 监管讨论:AI生成内容的滥用风险引发了广泛的监管讨论,很多国家开始研究制定相关的法律法规,规范AI生成内容的使用。
- 产业变革:对设计、广告、游戏、影视等创意产业产生了深远影响,改变了这些行业的生产方式和工作流程。
历史意义
Stable Diffusion的开源是AIGC发展史上的里程碑事件,它的意义堪比Android在移动操作系统领域的影响,它打破了大公司对AIGC技术的垄断,让这项技术惠及了更广泛的人群,推动了整个AIGC产业的民主化和繁荣发展。如果说ChatGPT让普通用户体验到了AI的强大能力,那么Stable Diffusion的开源则让整个开发者生态活跃起来,催生了无数创新应用。