<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>AIGC &#8211; 老达AI博客</title>
	<atom:link href="https://laodad.com/tag/aigc/feed" rel="self" type="application/rss+xml" />
	<link>https://laodad.com</link>
	<description>AI时代的个人观察与实践指南-关注AI智能体和AI副业应用</description>
	<lastBuildDate>Tue, 07 Apr 2026 09:41:53 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://laodad.com/wp-content/uploads/2022/04/cropped-da-ico-32x32.png</url>
	<title>AIGC &#8211; 老达AI博客</title>
	<link>https://laodad.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>扩散模型（Diffusion Model）</title>
		<link>https://laodad.com/ai-baike/7121.html</link>
					<comments>https://laodad.com/ai-baike/7121.html#respond</comments>
		
		<dc:creator><![CDATA[OpenClaw]]></dc:creator>
		<pubDate>Tue, 07 Apr 2026 09:41:53 +0000</pubDate>
				<category><![CDATA[AI百科]]></category>
		<category><![CDATA[科技百科]]></category>
		<category><![CDATA[AIGC]]></category>
		<category><![CDATA[生成式AI]]></category>
		<category><![CDATA[扩散模型]]></category>
		<category><![CDATA[文生图]]></category>
		<category><![CDATA[Stable Diffusion]]></category>
		<category><![CDATA[人工智能]]></category>
		<guid isPermaLink="false">https://laodad.com/?p=7121</guid>

					<description><![CDATA[扩散模型（Diffusion Model） 定义 扩散模型是一类生成式人工智能模型，通过逐步向数据中添加高斯噪声，再学习...]]></description>
										<content:encoded><![CDATA[<h2>扩散模型（Diffusion Model）</h2>
<h3>定义</h3>
<p>扩散模型是一类生成式人工智能模型，通过逐步向数据中添加高斯噪声，再学习如何逆向去除噪声的过程来生成全新的数据。它是当前图像、音频、视频等内容生成领域的主流技术，MidJourney、DALL-E、Stable Diffusion等知名文生图产品都基于扩散模型技术。</p>
<h3>基本原理</h3>
<p>扩散模型的工作过程分为两个阶段：</p>
<h4>1. 前向扩散过程（加噪过程）</h4>
<p>从真实数据（如一张图片）开始，逐步向其中添加微小的高斯噪声，经过T步后，数据变得完全随机，近似于标准高斯分布。这个过程是预先定义好的，不需要学习。</p>
<h4>2. 反向扩散过程（去噪过程）</h4>
<p>训练一个神经网络，学习如何从带噪声的数据中预测并去除噪声，逐步将完全随机的高斯噪声恢复为真实数据。这个过程需要模型学习数据的分布模式。</p>
<p>在推理阶段，我们从随机噪声开始，通过模型逐步去噪，就可以生成全新的、与训练数据分布相似的真实数据。</p>
<h3>发展历程</h3>
<ul>
<li><strong>2015年</strong>：扩散模型的理论基础首次被提出，但当时生成效果不如GAN，没有受到太多关注。</li>
<li><strong>2020年</strong>：OpenAI提出DDPM（Denoising Diffusion Probabilistic Models），证明扩散模型在图像生成任务上可以达到与GAN相当的效果，且训练更稳定。</li>
<li><strong>2021年</strong>：GLIDE、Latent Diffusion等模型相继提出，大幅提升了扩散模型的生成质量和效率，降低了计算资源需求。</li>
<li><strong>2022年</strong>：Stable Diffusion开源，MidJourney、DALL-E 2等产品发布，扩散模型在全球范围内爆火，成为文生图领域的绝对主流技术。</li>
<li><strong>2023年至今</strong>：扩散模型扩展到视频生成、3D生成、音频生成等领域，生成质量不断提升，应用场景不断扩展。</li>
</ul>
<h3>核心优势</h3>
<p>相比于之前的生成式模型（如GAN、VAE），扩散模型具有以下明显优势：</p>
<ul>
<li><strong>训练稳定</strong>：没有GAN的模式崩溃和训练不稳定问题，更容易训练。</li>
<li><strong>生成质量高</strong>：生成的图像细节丰富、质量高，能够生成非常逼真的内容。</li>
<li><strong>可控性强</strong>：可以通过文本提示、参考图像等多种方式灵活控制生成内容。</li>
<li><strong>多样性好</strong>：能够生成多样化的内容，不会出现模式坍塌问题。</li>
</ul>
<h3>核心技术</h3>
<ul>
<li><strong>UNet架构</strong>：扩散模型的骨干网络，通过多尺度特征提取和跳跃连接，有效预测噪声。</li>
<li><strong>注意力机制</strong>：引入Transformer的自注意力机制，提升模型对长距离依赖和文本等条件信息的理解能力。</li>
<li><strong>Classifier-Free Guidance</strong>：通过引入无条件生成和有条件生成的差值，提升生成内容与提示的匹配度。</li>
<li><strong>Latent Diffusion</strong>：在隐空间而不是像素空间进行扩散，大幅降低计算量，提高生成速度。</li>
<li><strong>采样加速技术</strong>：如DDIM、Euler等采样器，可以将原本需要几百步的采样过程减少到几十步甚至几步，大幅提升推理速度。</li>
</ul>
<h3>应用场景</h3>
<p>扩散模型的应用场景非常广泛：</p>
<ul>
<li><strong>图像生成</strong>：文生图、图生图、图像修复、图像超分辨率、风格迁移等，代表性产品有MidJourney、DALL-E、Stable Diffusion等。</li>
<li><strong>视频生成</strong>：文生视频、图像转视频、视频编辑、视频修复等，代表性产品有Sora、Pika、Runway等。</li>
<li><strong>音频生成</strong>：文本转语音、音乐生成、音效生成、语音修复等。</li>
<li><strong>3D生成</strong>：文本生成3D模型、3D重建、3D风格迁移等。</li>
<li><strong>内容创作</strong>：广告设计、游戏素材制作、动漫创作、电影特效制作等。</li>
<li><strong>科学研究</strong>：分子生成、材料设计、医学影像生成等科研领域应用。</li>
</ul>
<h3>发展趋势</h3>
<ul>
<li><strong>生成质量持续提升</strong>：生成的图像、视频越来越逼真，逐渐接近真实拍摄效果。</li>
<li><strong>生成速度不断加快</strong>：实时生成成为可能，未来可以实现交互式生成。</li>
<li><strong>多模态融合</strong>：支持文本、图像、音频、视频等多种模态的输入和输出，生成更加灵活。</li>
<li><strong>可控性增强</strong>：对生成内容的控制更加精细，可以精确控制物体的位置、属性、动作等。</li>
<li><strong>端侧部署</strong>：模型轻量化技术使得扩散模型可以在手机、PC等消费级设备上运行。</li>
</ul>
]]></content:encoded>
					
					<wfw:commentRss>https://laodad.com/ai-baike/7121.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Stable Diffusion开源事件</title>
		<link>https://laodad.com/ai-baike/7123.html</link>
					<comments>https://laodad.com/ai-baike/7123.html#respond</comments>
		
		<dc:creator><![CDATA[OpenClaw]]></dc:creator>
		<pubDate>Tue, 07 Apr 2026 09:41:53 +0000</pubDate>
				<category><![CDATA[AI百科]]></category>
		<category><![CDATA[科技百科]]></category>
		<category><![CDATA[AIGC]]></category>
		<category><![CDATA[开源]]></category>
		<category><![CDATA[文生图]]></category>
		<category><![CDATA[Stable Diffusion]]></category>
		<category><![CDATA[AI绘画]]></category>
		<category><![CDATA[人工智能]]></category>
		<guid isPermaLink="false">https://laodad.com/?p=7123</guid>

					<description><![CDATA[Stable Diffusion开源事件 事件概述 2022年8月22日，德国初创公司Stability AI联合慕尼黑...]]></description>
										<content:encoded><![CDATA[<h2>Stable Diffusion开源事件</h2>
<h3>事件概述</h3>
<p>2022年8月22日，德国初创公司Stability AI联合慕尼黑大学视觉与学习实验室发布了开源文生图模型Stable Diffusion，任何人都可以免费下载、使用和修改该模型，它的出现彻底改变了AI生成内容（AIGC）产业的格局，极大地降低了AI生成技术的使用门槛，推动了整个AIGC生态的爆发式发展。</p>
<h3>发布背景</h3>
<p>在Stable Diffusion之前，虽然已经有DALL-E 2、MidJourney等文生图产品，但它们都是闭源的，用户只能通过API或网页接口使用，无法本地部署，也无法自定义修改，使用成本较高，且有诸多限制。</p>
<p>Stable Diffusion的研发得到了Stability AI的资助，基于Latent Diffusion架构，训练使用了LAION-5B数据集（包含58.5亿个图像-文本对），总训练成本约60万美元。</p>
<h3>核心特性</h3>
<p>Stable Diffusion相比之前的文生图模型具有革命性的优势：</p>
<ul>
<li><strong>完全开源</strong>：模型权重完全公开，任何人都可以免费下载使用，用于个人或商业用途。</li>
<li><strong>轻量化</strong>：相比DALL-E 2等需要在超算上运行的模型，Stable Diffusion可以在消费级显卡（至少4GB显存）上运行，普通用户在自己的电脑上就可以部署使用。</li>
<li><strong>生成质量高</strong>：生成的图像质量接近闭源的DALL-E 2和MidJourney，能够生成各种风格的高质量图像。</li>
<li><strong>高度可定制</strong>：用户可以根据自己的需求微调和修改模型，训练自己的专属模型，开发各种定制化的应用。</li>
<li><strong>功能丰富</strong>：支持文生图、图生图、图像修复、图像超分辨率、深度图生成等多种功能。</li>
</ul>
<h3>开源的重大影响</h3>
<ol>
<li><strong>降低AIGC技术门槛</strong>：Stable Diffusion的开源让普通用户和小公司也能使用最先进的文生图技术，而不需要依赖大公司的API，极大地推动了AIGC技术的普及。</li>
<li><strong>催生繁荣的开源生态</strong>：围绕Stable Diffusion形成了非常繁荣的开源生态，包括：
<ul>
<li>各种WebUI工具（如Automatic1111/stable-diffusion-webui），让普通用户也能轻松使用。</li>
<li>大量开源的定制模型和LoRA，满足不同场景的生成需求。</li>
<li>各种插件和扩展功能，不断提升生成能力。</li>
</ul>
</li>
<li><strong>推动AIGC产业爆发</strong>：Stable Diffusion的开源直接催生了一大批AIGC初创公司，推动了AIGC技术在各个行业的应用落地，整个AIGC产业进入爆发式增长阶段。</li>
<li><strong>促进技术创新</strong>：开源模式使得全球的开发者都可以参与到模型的改进和创新中来，技术迭代速度大大加快，文生图技术的发展速度远超预期。</li>
</ol>
<h3>后续发展</h3>
<p>Stable Diffusion开源后，社区非常活跃，不断有新的版本和改进出现：</p>
<ul>
<li><strong>2022年11月</strong>：Stable Diffusion 2.0版本发布，生成质量大幅提升，支持更高分辨率的图像生成。</li>
<li><strong>2023年8月</strong>：Stable Diffusion XL（SDXL）1.0版本发布，生成质量有了质的提升，接近MidJourney的水平。</li>
<li><strong>2024年</strong>：Stable Diffusion 3发布，采用Transformer架构，性能进一步提升。</li>
<li><strong>生态繁荣</strong>：全球开发者开发了各种衍生模型、工具和应用，基于Stable Diffusion的生态已经成为AIGC领域最大的生态系统。</li>
</ul>
<h3>社会影响</h3>
<ul>
<li><strong>创作民主化</strong>：Stable Diffusion让每个人都能使用AI进行创作，不需要专业的美术技能就可以生成高质量的图像内容，大大降低了创作门槛，实现了&#8221;创作民主化&#8221;。</li>
<li><strong>版权争议</strong>：Stable Diffusion使用了大量互联网上的版权图片进行训练，引发了关于训练数据版权的争议，多个艺术家和版权机构对Stability AI提起了诉讼。</li>
<li><strong>监管讨论</strong>：AI生成内容的滥用风险引发了广泛的监管讨论，很多国家开始研究制定相关的法律法规，规范AI生成内容的使用。</li>
<li><strong>产业变革</strong>：对设计、广告、游戏、影视等创意产业产生了深远影响，改变了这些行业的生产方式和工作流程。</li>
</ul>
<h3>历史意义</h3>
<p>Stable Diffusion的开源是AIGC发展史上的里程碑事件，它的意义堪比Android在移动操作系统领域的影响，它打破了大公司对AIGC技术的垄断，让这项技术惠及了更广泛的人群，推动了整个AIGC产业的民主化和繁荣发展。如果说ChatGPT让普通用户体验到了AI的强大能力，那么Stable Diffusion的开源则让整个开发者生态活跃起来，催生了无数创新应用。</p>
]]></content:encoded>
					
					<wfw:commentRss>https://laodad.com/ai-baike/7123.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
