diffusion - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月27日

Python实现基于扩散模型（Diffusion Model）的图像/文本高保真生成

Python实现基于扩散模型（Diffusion Model）的图像/文本高保真生成各位同学，大家好！今天我们来深入探讨一个近年来在生成模型领域大放异彩的技术——扩散模型（Diffusion Model）。我们将主要聚焦于如何使用Python来实现基于扩散模型的图像和文本高保真生成。一、扩散模型的理论基础扩散模型的核心思想是模拟一个“扩散”过程，逐渐将数据（比如图像或文本）转化为噪声，然后学习一个“逆扩散”过程，从噪声中恢复原始数据。这种方法与传统的生成对抗网络（GANs）相比，具有训练更稳定、生成质量更高的优点。前向扩散过程（Forward Diffusion Process）：前向过程是一个马尔可夫链，它逐渐向数据样本 x_0 中添加高斯噪声，直到完全变成随机噪声 x_T。我们用 q(x_t | x_{t-1}) 来表示这个过程，其中 t 表示扩散的步骤。 q(x_t | x_{t-1}) = N(x_t; √(1 – β_t) x_{t-1}, β_tI) x_t 是经过 t 步扩散后的数据样本。 β_t 是一个预定义的方差计划，控制每一步添加的噪声量，通常是一个随 …

继续阅读“Python实现基于扩散模型（Diffusion Model）的图像/文本高保真生成”

2025年11月26日

Python实现基于扩散模型（Diffusion Model）的生成式AI：采样与去噪过程

Python实现基于扩散模型（Diffusion Model）的生成式AI：采样与去噪过程大家好，今天我们来深入探讨扩散模型，并用Python代码实现其核心的采样和去噪过程。扩散模型作为近年来生成式AI领域的一颗新星，以其独特的理论基础和出色的生成效果，受到了广泛的关注。 1. 扩散模型的核心思想扩散模型的核心思想是将数据生成过程建模为一个马尔可夫链，该链包含两个过程：扩散过程（Forward Diffusion Process）和逆扩散过程（Reverse Diffusion Process）。扩散过程：从原始数据出发，逐步添加高斯噪声，直到数据完全变成噪声，失去原始数据的特征。这个过程通常是固定的，并且可以通过预定义的噪声时间表（noise schedule）来控制噪声添加的强度。逆扩散过程：从纯高斯噪声出发，逐步去除噪声，恢复出原始数据。这个过程是扩散模型的关键，它需要学习一个模型来预测每一步需要去除的噪声。简单来说，扩散模型就像将一张照片逐渐模糊化，直到完全看不清，然后学习如何一步步地将模糊的照片恢复清晰。 2. 数学原理：前向扩散过程前向扩散过程是一个马尔 …

继续阅读“Python实现基于扩散模型（Diffusion Model）的生成式AI：采样与去噪过程”

2025年11月23日

Diffusion-Transformer (DiT) 缩放定律：视频生成模型的计算量与生成质量的Scaling Law

Diffusion-Transformer (DiT) 缩放定律：视频生成模型的计算量与生成质量的Scaling Law 大家好，今天我们来深入探讨一下Diffusion-Transformer (DiT) 架构在视频生成领域中的缩放定律。缩放定律，简单来说，描述了模型的性能（例如生成视频的质量）如何随着计算资源的增加而变化。理解这些定律对于高效地训练和部署视频生成模型至关重要。我们将从Diffusion模型的基础概念开始，逐步深入到DiT架构，最终探讨其缩放定律以及如何在实践中应用这些定律。 1. Diffusion模型：从噪声到清晰 Diffusion模型是一类生成模型，其核心思想是将数据生成过程模拟为一个逐步去噪的过程。它分为两个主要阶段：前向扩散过程 (Forward Diffusion Process) 和反向扩散过程 (Reverse Diffusion Process)。 1.1 前向扩散过程: 在前向扩散过程中，我们逐渐向数据中添加高斯噪声，直到数据完全变成随机噪声。这个过程通常被建模为一个马尔可夫链： import torch import torch.nn.fun …

继续阅读“Diffusion-Transformer (DiT) 缩放定律：视频生成模型的计算量与生成质量的Scaling Law”

2025年11月23日

DiT（Diffusion Transformer）架构解析：Sora如何将视频Patch化并利用Transformer处理时空依赖

DiT（Diffusion Transformer）架构解析：Sora如何将视频Patch化并利用Transformer处理时空依赖大家好，今天我们来深入探讨一下DiT（Diffusion Transformer）架构，以及它在Sora模型中如何被应用于视频生成，特别是如何将视频patch化并利用Transformer来捕捉时空依赖关系。 1. Diffusion Models简介在深入DiT之前，我们需要简单回顾一下Diffusion Models。Diffusion Models 是一类生成模型，其核心思想是通过逐步添加噪声将数据转化为噪声，然后再学习一个逆向的过程，从噪声中恢复出原始数据。这个过程可以分为两个阶段：前向扩散过程 (Forward Diffusion Process)：逐渐向数据中添加高斯噪声，直到数据完全变成噪声，遵循马尔可夫过程。逆向扩散过程 (Reverse Diffusion Process)：从纯噪声开始，逐步去除噪声，最终生成新的数据样本。这个过程通过神经网络学习。 Diffusion Model 的训练目标是学习一个能够预测噪声的神经网络， …

继续阅读“DiT（Diffusion Transformer）架构解析：Sora如何将视频Patch化并利用Transformer处理时空依赖”

2025年11月22日

扩散大模型（Diffusion Forcing）：解决自回归模型在长期规划任务中误差累积的缺陷

扩散大模型（Diffusion Forcing）：解决自回归模型在长期规划任务中误差累积的缺陷大家好，今天我们来聊聊一个非常有意思的话题：如何利用扩散模型来解决自回归模型在长期规划任务中容易出现的误差累积问题。 1. 自回归模型的困境：误差累积与长期规划的挑战自回归模型（Autoregressive Models, AR）在序列生成任务中应用广泛，例如文本生成、语音合成和时间序列预测。其核心思想是利用过去的信息来预测未来的状态。数学上，我们可以将其表示为： x_t = f(x_{t-1}, x_{t-2}, …, x_{t-n}) + ε_t 其中，x_t 是时间步 t 的状态，f 是一个模型（通常是神经网络），n 是回顾窗口大小，ε_t 是一个噪声项。然而，当应用于长期规划任务时，自回归模型面临一个严峻的挑战：误差累积。由于每个时间步的预测都依赖于前一个时间步的预测结果，任何微小的误差都会随着时间的推移而累积放大。这导致在长期规划中，模型生成的轨迹偏离期望的结果，甚至完全失效。举个例子，假设我们要训练一个机器人利用自回归模型完成一个复杂的导航任务：从房间A走到房间B，中间 …

继续阅读“扩散大模型（Diffusion Forcing）：解决自回归模型在长期规划任务中误差累积的缺陷”

2025年11月22日

扩散模型作为策略（Diffusion Policy）：在机器人控制中替代传统Transformer策略

扩散模型作为策略（Diffusion Policy）：在机器人控制中替代传统Transformer策略各位同学，大家好！今天我们来探讨一个新兴且充满潜力的领域：如何利用扩散模型来替代传统的Transformer策略，应用于机器人控制。 1. 策略学习的挑战与Transformer的局限性传统的机器人控制方法通常依赖于精确的模型或手工设计的控制器。然而，现实世界的复杂性和不确定性使得建立精确的模型变得异常困难。强化学习(RL)提供了一种从经验中学习控制策略的强大范式，但其样本效率和泛化能力仍然是瓶颈。策略学习的目标是学习一个策略π(a|s)，该策略根据当前状态s输出最优的动作a。近年来，Transformer模型在序列建模领域取得了巨大成功，也逐渐被应用于策略学习。Transformer策略通过将状态序列作为输入，预测相应的动作序列。这种方法在某些任务上表现出色，例如模仿学习和轨迹规划。然而，Transformer策略也存在一些局限性：确定性输出： Transformer本质上是一个确定性模型，它输出的是一个单一的动作序列。这限制了其表达动作空间不确定性的能力，尤其是在高维、多 …

继续阅读“扩散模型作为策略（Diffusion Policy）：在机器人控制中替代传统Transformer策略”

2025年11月22日

Diffusion Models生成文本：Diffusion-LM与自回归模型生成质量的对比研究

Diffusion Models生成文本：Diffusion-LM与自回归模型生成质量的对比研究大家好！今天我们来聊聊一个近年来备受关注的文本生成技术：Diffusion Models。更具体地说，我们将深入探讨 Diffusion Models 如何应用于文本生成，并将其性能与传统的自回归模型进行比较，尤其关注 Diffusion-LM 这个具有代表性的模型。 1. 文本生成任务的演变与挑战文本生成任务，从最初的机器翻译、文本摘要，到如今的对话系统、故事创作，已经渗透到我们日常生活的方方面面。早期，循环神经网络（RNN）及其变种，如LSTM、GRU，是文本生成领域的主流。随后，Transformer架构凭借其强大的并行计算能力和对长距离依赖关系的建模能力，迅速取代了RNN，成为新的霸主。GPT、BERT、T5等预训练语言模型在大量文本数据上进行训练，并在下游任务上进行微调，极大地提升了文本生成的质量。然而，自回归模型虽然表现出色，但也存在一些固有的局限性：暴露偏差（Exposure Bias）: 在训练阶段，模型接收真实的文本序列作为输入，预测下一个词；而在推理阶段，模型生成 …

继续阅读“Diffusion Models生成文本：Diffusion-LM与自回归模型生成质量的对比研究”