Diffusers 库：利用扩散模型进行高级图像生成与编辑 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，欢迎来到今天的“瞎搞扩散模型”讲座！我是你们的导游，将带大家一起探索 Diffusers 这个神奇的工具箱，看看它如何把噪声变成艺术，把平庸变成惊艳。

开场白：扩散模型是啥玩意儿？

在开始之前，咱们先来聊聊扩散模型。别被“扩散”这个词吓到，其实它就像是把一张图片逐渐打马赛克，直到彻底变成一堆随机噪声。然后，再逆向操作，从这堆噪声中慢慢恢复出清晰的图像。

听起来是不是有点像“化腐朽为神奇”？没错，扩散模型就是这么个意思！它通过学习图像的噪声模式，掌握了从噪声中“炼”出图像的秘诀。

Diffusers：扩散模型的瑞士军刀

现在，隆重介绍我们今天的主角：Diffusers！它是由 Hugging Face 团队打造的，是一个基于 PyTorch 的扩散模型库。你可以把它想象成一个装满了各种扩散模型工具的百宝箱，里面有预训练的模型、各种调度器（Scheduler）、以及一堆方便你DIY扩散模型的组件。

Diffusers 的优点在于：

易用性： 提供了简单易懂的 API，让你几行代码就能生成图像。
灵活性： 提供了各种组件，让你能够自定义扩散流程。
社区支持： 背靠 Hugging Face，拥有庞大的社区支持，遇到问题可以随时求助。

总而言之，Diffusers 就是扩散模型界的瑞士军刀，有了它，你就可以尽情地探索图像生成的各种可能性。

安装 Diffusers：磨刀不误砍柴工

在开始之前，我们需要先安装 Diffusers。打开你的终端，输入以下命令：

pip install diffusers transformers accelerate

diffusers: Diffusers 库本身。
transformers: Hugging Face 的 Transformer 库，Diffusers 依赖它来加载预训练模型。
accelerate: 加速训练和推理的库，可以让你更高效地使用 GPU。

安装完成后，我们就可以开始我们的图像生成之旅了！

第一个扩散模型：Hello World！

让我们从一个最简单的例子开始，用 Diffusers 生成一张随机噪声图像。

from diffusers import DDPMScheduler, UNet2DModel
import torch
from PIL import Image
import numpy as np

# 1. 加载预训练的 UNet 模型和调度器
model = UNet2DModel(sample_size=64, in_channels=3, out_channels=3, block_out_channels=(32, 64, 128, 256))
scheduler = DDPMScheduler(num_train_timesteps=1000)

# 2. 创建一个随机噪声图像
torch.manual_seed(0) # 设置随机种子，保证结果可复现
noise = torch.randn((1, 3, 64, 64))

# 3. 设置调度器的步数
scheduler.set_timesteps(50) #使用50步的去噪过程

# 4. 循环去噪
for t in scheduler.timesteps:
    # a. 预测噪声残差
    with torch.no_grad():
        noisy_residual = model(noise, t).sample

    # b. 使用调度器更新噪声图像
    noise = scheduler.step(noisy_residual, t, noise).prev_sample

# 5. 将图像转换为 PIL 图像
image = (noise / 2 + 0.5).clamp(0, 1)
image = image.cpu().permute(0, 2, 3, 1).numpy()[0]
image = (image * 255).round().astype("uint8")
image = Image.fromarray(image)

# 6. 保存图像
image.save("random_image.png")

这段代码做了什么？

加载模型和调度器： UNet2DModel 是一个简单的 UNet 模型，用于预测噪声残差。DDPMScheduler 是一个调度器，用于控制去噪过程。
创建噪声图像： 我们创建了一个随机噪声图像，作为扩散过程的起点。
设置步数： 我们告诉调度器使用 50 步来完成去噪过程。
循环去噪： 在循环中，我们使用 UNet 模型预测噪声残差，然后使用调度器更新噪声图像。
转换图像： 我们将生成的图像转换为 PIL 图像，并保存到文件中。

运行这段代码，你将会得到一张看起来像电视信号不好时的雪花图像。恭喜你，你已经成功地生成了你的第一张扩散模型图像！

Text-to-Image：让文字变成图像

光生成噪声图像有什么意思？咱们要玩点更刺激的：Text-to-Image！也就是根据文字描述生成图像。

Diffusers 提供了 StableDiffusionPipeline 类，可以让你轻松地实现 Text-to-Image。

from diffusers import StableDiffusionPipeline
from PIL import Image

# 1. 加载 Stable Diffusion Pipeline
pipeline = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5") #使用更稳定的v1.5版本
pipeline.to("cuda") # 放到GPU上运行，速度更快

# 2. 设置提示词
prompt = "a photo of a cat wearing a hat" # 描述你想生成的图像

# 3. 生成图像
image = pipeline(prompt).images[0]

# 4. 保存图像
image.save("cat_with_hat.png")

这段代码做了什么？

加载 Pipeline： StableDiffusionPipeline 是一个封装了 Stable Diffusion 模型的 Pipeline。我们从 Hugging Face Hub 加载预训练的模型。
设置提示词： prompt 是一个字符串，描述你想生成的图像。
生成图像： 我们调用 pipeline 的 __call__ 方法，传入提示词，生成图像。
保存图像： 我们将生成的图像保存到文件中。

运行这段代码，你将会得到一张猫咪戴帽子的照片。是不是很神奇？

Image-to-Image：让图像“改头换面”

除了 Text-to-Image，Diffusers 还支持 Image-to-Image，也就是根据一张现有的图像，生成一张新的图像。

from diffusers import StableDiffusionImg2ImgPipeline
from PIL import Image
import requests

# 1. 加载 Image-to-Image Pipeline
pipeline = StableDiffusionImg2ImgPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
pipeline.to("cuda")

# 2. 加载初始图像
url = "https://raw.githubusercontent.com/CompVis/stable-diffusion/main/assets/stable-samples/img2img/sketch-mountains.jpg"
response = requests.get(url, stream=True)
init_image = Image.open(response.raw).convert("RGB").resize((512, 512))

# 3. 设置提示词
prompt = "A fantasy landscape, vibrant colors"

# 4. 生成图像
image = pipeline(prompt=prompt, image=init_image, strength=0.75, guidance_scale=7.5).images[0]

# 5. 保存图像
image.save("fantasy_landscape.png")

这段代码做了什么？

加载 Pipeline： StableDiffusionImg2ImgPipeline 是一个封装了 Image-to-Image 模型的 Pipeline。
加载初始图像： 我们从网上加载一张图像，作为 Image-to-Image 的起点。
设置提示词： prompt 描述了我们希望生成的图像的内容。
生成图像： 我们调用 pipeline 的 __call__ 方法，传入提示词和初始图像，生成图像。
- strength: 控制新图像与初始图像的相似程度。数值越大，变化越大。
- guidance_scale: 控制提示词对生成图像的影响程度。数值越大，图像越符合提示词。
保存图像： 我们将生成的图像保存到文件中。

运行这段代码，你将会得到一张基于初始图像的，充满奇幻色彩的风景画。

自定义扩散流程：DIY 你的专属模型

Diffusers 的强大之处在于它的灵活性。你可以使用 Diffusers 提供的各种组件，自定义你的扩散流程。

例如，你可以：

更换调度器： Diffusers 提供了多种调度器，例如 DDIMScheduler、PNDMScheduler 等。不同的调度器有不同的特性，可以影响生成图像的质量和速度。
修改 UNet 模型： 你可以修改 UNet 模型的结构，例如增加或减少层数，改变激活函数等。
训练自己的模型： 你可以使用自己的数据集，训练一个全新的扩散模型。

下面是一个自定义扩散流程的例子，我们使用 DDIMScheduler 替换 DDPMScheduler。

from diffusers import DDIMScheduler, UNet2DModel
import torch
from PIL import Image
import numpy as np

# 1. 加载预训练的 UNet 模型和 DDIM 调度器
model = UNet2DModel(sample_size=64, in_channels=3, out_channels=3, block_out_channels=(32, 64, 128, 256))
scheduler = DDIMScheduler(num_train_timesteps=1000)

# 2. 创建一个随机噪声图像
torch.manual_seed(0)
noise = torch.randn((1, 3, 64, 64))

# 3. 设置调度器的步数
scheduler.set_timesteps(50)

# 4. 循环去噪
for t in scheduler.timesteps:
    # a. 预测噪声残差
    with torch.no_grad():
        noisy_residual = model(noise, t).sample

    # b. 使用调度器更新噪声图像
    noise = scheduler.step(noisy_residual, t, noise).prev_sample

# 5. 将图像转换为 PIL 图像
image = (noise / 2 + 0.5).clamp(0, 1)
image = image.cpu().permute(0, 2, 3, 1).numpy()[0]
image = (image * 255).round().astype("uint8")
image = Image.fromarray(image)

# 6. 保存图像
image.save("random_image_ddim.png")

这段代码与之前的例子几乎相同，唯一的区别在于我们使用了 DDIMScheduler 替换了 DDPMScheduler。

高级技巧：更上一层楼

掌握了基本用法之后，我们再来看看一些高级技巧，让你能够更好地利用 Diffusers。

使用负面提示词： 负面提示词可以用来告诉模型避免生成某些内容。例如，如果你想生成一张高质量的照片，可以使用负面提示词 "blurry, low quality"。
```
prompt = "a photo of a cat wearing a hat"
negative_prompt = "blurry, low quality"
image = pipeline(prompt=prompt, negative_prompt=negative_prompt).images[0]
```

调整种子： 设置随机种子可以保证每次生成图像的结果一致。

generator = torch.Generator(device="cuda").manual_seed(1024)
image = pipeline(prompt=prompt, generator=generator).images[0]

使用 LoRA： LoRA (Low-Rank Adaptation) 是一种轻量级的微调方法，可以让你在预训练模型的基础上，快速地训练一个特定风格的模型。
```
pipeline.load_lora_weights("path/to/your/lora/weights")
image = pipeline(prompt=prompt).images[0]
```

使用 ControlNet： ControlNet 是一种控制图像生成的方法，可以让你根据一些条件（例如边缘图、深度图）来控制生成图像的结构。

from diffusers import ControlNetModel, StableDiffusionControlNetPipeline
from PIL import Image
import cv2
import numpy as np

# 加载 ControlNet 模型
controlnet = ControlNetModel.from_pretrained("lllyasviel/control_v11p_sd15_canny", torch_dtype=torch.float16)
pipeline = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)
pipeline.to("cuda")

# 加载图像，并提取边缘
image = Image.open("your_image.png")
image = np.array(image)
image = cv2.Canny(image, 100, 200)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
canny_image = Image.fromarray(image)

# 生成图像
prompt = "A cat sitting on a table"
image = pipeline(prompt, canny_image).images[0]
image.save("cat_on_table_with_canny.png")

Diffusers 的应用场景：无限可能

Diffusers 的应用场景非常广泛，只要你能想到，它就能做到。

艺术创作： 艺术家可以使用 Diffusers 生成各种风格的图像，例如油画、水彩画、素描等。
游戏开发： 游戏开发者可以使用 Diffusers 生成游戏素材，例如角色、场景、道具等。
广告设计： 广告设计师可以使用 Diffusers 生成广告图像，例如产品图、海报等。
科研： 研究人员可以使用 Diffusers 进行图像修复、图像超分辨率等研究。

常见问题解答：扫清障碍

在使用 Diffusers 的过程中，你可能会遇到一些问题。下面是一些常见问题的解答：

问题	解答
显存不足	1. 尝试使用更小的图像尺寸。 2. 尝试使用更少的步数。 3. 尝试使用梯度累积。 4. 尝试使用 `torch.cuda.empty_cache()` 清理显存。 5. 尝试使用 `xFormers` 加速。
生成的图像质量不高	1. 尝试使用更长的提示词。 2. 尝试使用负面提示词。 3. 尝试调整 `guidance_scale` 参数。 4. 尝试使用更高质量的预训练模型。 5. 尝试使用 LoRA 或 ControlNet。
运行速度慢	1. 使用 GPU 加速。 2. 尝试使用更少的步数。 3. 尝试使用 `xFormers` 加速。
如何训练自己的模型	1. 准备自己的数据集。 2. 选择合适的 UNet 模型和调度器。 3. 使用 `accelerate` 库进行分布式训练。
如何使用 LoRA	1. 从 Hugging Face Hub 下载 LoRA 权重。 2. 使用 `pipeline.load_lora_weights()` 方法加载 LoRA 权重。

总结：扩散模型的未来

扩散模型是近年来图像生成领域的一项重大突破。它具有生成高质量图像、易于控制等优点。Diffusers 作为一个强大的扩散模型库，为我们提供了探索图像生成领域的无限可能。

希望今天的讲座能够帮助大家入门扩散模型，并能够利用 Diffusers 创造出更多令人惊艳的作品。

最后，感谢大家的观看！我们下次再见！

发表回复 取消回复

发表回复取消回复