PyTorch Tensor的内存管理与存储优化：Strides、Storage与视图（View）的底层关系

大家好，今天我们要深入探讨PyTorch Tensor的内存管理机制，重点理解Strides、Storage和View之间的底层关系。理解这些概念对于编写高效的PyTorch代码至关重要，特别是在处理大型数据集和复杂模型时。

1. Storage：Tensor数据的物理存储

首先，我们来了解Storage。在PyTorch中，Storage是Tensor存储数据的实际物理区域。可以把它想象成一个连续的内存块，其中存储着Tensor的所有元素。Storage可以存储各种数据类型，例如float32、int64等。

import torch

# 创建一个Tensor
tensor = torch.tensor([1, 2, 3, 4, 5])

# 获取Tensor的Storage
storage = tensor.storage()

print(storage) # 输出： 1
print(storage.size()) # 输出： 5
print(storage.data_ptr()) # 输出： 140708137350912 (内存地址，每次运行结果不同)

# 修改Storage中的值会影响Tensor
storage[0] = 10
print(tensor) # 输出： tensor([10,  2,  3,  4,  5])

在这个例子中，tensor的storage包含了整数1到5。storage.size()返回存储的元素个数，storage.data_ptr()返回Storage的起始内存地址。重要的是，直接修改Storage中的值会影响到Tensor，这说明Tensor只是Storage的一个视图。

2. Strides：访问Tensor元素的步长

Strides定义了在Storage中访问Tensor元素时，每个维度上需要跳过的内存地址数。它是一个元组，长度等于Tensor的维度数。Strides是实现Tensor高效访问的关键，特别是在处理多维数组时。

# 创建一个2x3的Tensor
tensor = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(tensor)
# 输出:
# tensor([[1, 2, 3],
#         [4, 5, 6]])

# 获取Tensor的Strides
strides = tensor.stride()
print(strides) # 输出： (3, 1)

在这个例子中，tensor是一个2×3的矩阵。tensor.stride()返回(3, 1)。这意味着：

第一个维度(行)： 从一行到下一行，需要在Storage中跳过3个元素（因为每一行有3个元素）。
第二个维度(列)： 从一个元素到同一行中的下一个元素，需要在Storage中跳过1个元素。

让我们更深入地理解这个概念。假设tensor的Storage如下（简化表示）：

[1, 2, 3, 4, 5, 6]

要访问元素tensor[1, 2]（值为6），PyTorch会执行以下操作：

起始索引：0 (Storage的起始位置)
行偏移：1 * strides[0] = 1 * 3 = 3
列偏移：2 * strides[1] = 2 * 1 = 2
总偏移：3 + 2 = 5
因此，tensor[1, 2]对应的Storage索引是5，其值为Storage[5] = 6。

3. Size：Tensor的形状

Size定义了Tensor每个维度的长度。它是一个元组，长度等于Tensor的维度数。

# 创建一个2x3的Tensor
tensor = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 获取Tensor的Size
size = tensor.size()
print(size) # 输出： torch.Size([2, 3])

print(tensor.shape) # 输出： torch.Size([2, 3])

4. View：Tensor的逻辑视图

View允许我们以不同的形状和Strides来查看同一个Storage，而无需复制数据。这是PyTorch中内存效率的关键特性。View只是对现有Storage的一种解释，它不创建新的数据副本。

# 创建一个Tensor
tensor = torch.tensor([1, 2, 3, 4, 5, 6])

# 将Tensor reshape为2x3的矩阵
view = tensor.view(2, 3)
print(view)
# 输出:
# tensor([[1, 2, 3],
#         [4, 5, 6]])

# 修改View中的值会影响原始Tensor
view[0, 0] = 10
print(tensor) # 输出： tensor([10,  2,  3,  4,  5,  6])

在这个例子中，view是tensor的一个View。修改view中的值会影响到原始的tensor，因为它们共享同一个Storage。

5. Storage、Strides、Size与View的关系：

可以用下面的表格来总结它们之间的关系：

概念	描述
Storage	存储Tensor数据的实际物理区域，是一个连续的内存块。
Strides	定义访问Tensor元素时，每个维度上需要在`Storage`中跳过的内存地址数。
Size	定义Tensor每个维度的长度。
View	对现有`Storage`的一种解释，允许以不同的形状和`Strides`来查看同一个`Storage`，而无需复制数据。

Tensor可以被认为是Storage、Strides和Size的组合。View是一种特殊的Tensor，它共享底层Storage，但具有不同的Size和Strides。

6. is_contiguous()：判断Tensor是否连续

一个Tensor如果其数据在内存中是连续存储的，那么它就是contiguous的。换句话说，如果Tensor的元素在Storage中是按照行优先（C风格）的顺序排列的，那么它就是contiguous的。is_contiguous()方法可以用来检查一个Tensor是否是contiguous的。

tensor = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(tensor.is_contiguous()) # 输出： True

# 对Tensor进行转置
transposed_tensor = tensor.transpose(0, 1)
print(transposed_tensor.is_contiguous()) # 输出： False

# 使用contiguous()方法创建一个contiguous的副本
contiguous_tensor = transposed_tensor.contiguous()
print(contiguous_tensor.is_contiguous()) # 输出： True

在这个例子中，原始的tensor是contiguous的。但是，对其进行转置后，transposed_tensor不再是contiguous的，因为其元素在Storage中不再是连续存储的。使用contiguous()方法可以创建一个contiguous的副本。

为什么contiguous很重要？

许多PyTorch操作（如view()）要求输入Tensor是contiguous的。如果Tensor不是contiguous的，这些操作可能会失败或产生意外的结果。此外，contiguous的Tensor通常可以提供更好的性能，因为可以更有效地访问其数据。

7. 避免不必要的拷贝：

理解View的机制可以帮助我们避免不必要的内存拷贝。例如，如果我们想要对一个Tensor进行Reshape操作，应该尽量使用view()方法，而不是reshape()方法。reshape()方法可能会返回一个View，也可能会返回一个拷贝，这取决于输入Tensor是否是contiguous的。而view()方法如果无法返回一个View，会抛出错误，这可以帮助我们避免意外的内存拷贝。

tensor = torch.randn(2, 3)
print(tensor.is_contiguous()) # 输出 True

# 优先使用view，如果可以的话
try:
    reshaped_tensor = tensor.view(3, 2)
    print("View 成功")
except RuntimeError as e:
    print(f"View 失败: {e}")

# reshape可能会拷贝数据
reshaped_tensor = tensor.reshape(3, 2)

# 如果确定需要拷贝，可以使用clone()
copied_tensor = tensor.clone().reshape(3, 2)

8. 深入理解Strides与内存访问

理解Strides对性能至关重要。当Strides不连续时，访问元素可能导致缓存未命中，从而降低性能。例如，对一个矩阵进行转置操作通常会改变其Strides，使其变得不连续。

tensor = torch.randn(100, 100)
transposed_tensor = tensor.transpose(0, 1)

# 连续访问 vs. 不连续访问 (仅作演示，实际测试需考虑其他因素)
import time

start_time = time.time()
for i in range(100):
    for j in range(100):
        _ = tensor[i, j]
end_time = time.time()
print(f"连续访问时间: {end_time - start_time}")

start_time = time.time()
for i in range(100):
    for j in range(100):
        _ = transposed_tensor[i, j]
end_time = time.time()
print(f"非连续访问时间: {end_time - start_time}")

虽然这个例子非常简单，实际情况会受到编译器优化和其他因素的影响，但它展示了不连续访问可能带来的性能影响。在处理大型数据集时，优化内存访问模式可以显著提高性能。

9. 实际应用案例：图像处理

在图像处理中，图像通常表示为多维数组（例如，彩色图像是height x width x channels）。理解Strides可以帮助我们高效地进行图像处理操作，例如裁剪、缩放和旋转。

# 模拟一张彩色图像 (height x width x channels)
image = torch.randn(256, 256, 3)

# 裁剪图像
cropped_image = image[50:150, 50:150, :]

# cropped_image是image的一个View
print(cropped_image.size()) # 输出： torch.Size([100, 100, 3])
print(cropped_image.stride()) # 输出： (768, 3, 1)  (256*3, 3, 1)

# 另一种裁剪方式，可能导致拷贝
cropped_image_clone = image[50:150, 50:150, :].clone()

# 转换图像通道顺序 (例如，从RGB到BGR)
# 这种操作通常会改变Strides，需要谨慎处理
bgr_image = image[:, :, [2, 1, 0]]

在这个例子中，cropped_image是原始image的一个View，因此它没有创建新的数据副本。而bgr_image虽然改变了通道顺序，但仍然共享底层Storage。需要注意的是，某些图像处理库可能要求图像数据是contiguous的，因此在将PyTorch Tensor传递给这些库之前，可能需要使用contiguous()方法。

10. 使用torch.as_strided创建自定义View

torch.as_strided 是一个更底层的API，允许你直接指定 Storage，Size 和 Strides 来创建一个新的Tensor。这提供了极大的灵活性，但也需要更小心地使用，因为错误的参数可能导致内存访问错误或者未定义的行为。

# 创建一个Tensor
original_tensor = torch.arange(1, 10) # tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])

# 创建一个自定义View，选择每隔一个元素
size = (5,)  # 新Tensor的大小
stride = (2,) # 新Tensor的步长

custom_view = torch.as_strided(original_tensor, size, stride)
print(custom_view) # tensor([1, 3, 5, 7, 9])

# 尝试创建一个共享部分内存的重叠View (需要谨慎!)
size = (3,)
stride = (1,)
storage_offset = 7 # 从storage的第8个元素开始
custom_overlap_view = torch.as_strided(original_tensor.storage(), size, stride, storage_offset=storage_offset)
print(custom_overlap_view) # tensor([8, 9, 0]) # 注意：最后一个元素可能是未定义的！

# 修改原始Tensor会影响到as_strided创建的View
original_tensor[7] = 100
print(custom_overlap_view) # tensor([  8,   9, 100])

torch.as_strided 需要传入 Storage 对象，这使得它比 view 更底层。 storage_offset 允许你指定从 Storage 的哪个位置开始创建新的Tensor。使用 as_strided 需要非常小心，确保 Size 和 Strides 的组合不会导致越界访问 Storage。否则，会产生未定义的行为。在第二个例子中，我们创建了一个重叠的View，修改原始Tensor也会影响到这个View。

11. 一些使用建议

尽可能使用view()进行Reshape操作。 view() 通常比 reshape() 更高效，因为它避免了不必要的数据拷贝。
如果需要对Tensor进行转置、裁剪等操作，尽量在contiguous的Tensor上进行。 如果Tensor不是contiguous的，可以使用contiguous()方法创建一个contiguous的副本。
理解Strides的概念，可以帮助我们更好地理解Tensor的内存布局，并编写更高效的代码。
使用torch.as_strided时要非常小心，确保参数正确，避免内存访问错误。 只有当你需要创建非常特殊的View，并且对内存布局有深入了解时，才应该使用它。
对于需要高性能的场景，可以使用PyTorch的Profiler来分析代码的性能瓶颈，并针对性地进行优化。 PyTorch Profiler可以帮助我们了解Tensor的内存分配情况，以及哪些操作导致了不必要的内存拷贝。

总结一下今天的内容

我们今天深入探讨了PyTorch Tensor的底层内存管理机制，包括Storage、Strides和View。理解这些概念对于编写高效的PyTorch代码至关重要。正确使用view()、contiguous()和torch.as_strided()可以帮助我们避免不必要的内存拷贝，提高代码的性能。

更多IT精英技术系列讲座，到智猿学院

PyTorch Tensor的内存管理与存储优化：Strides、Storage与视图（View）的底层关系

发表回复 取消回复

发表回复取消回复