大模型训练如何优化数据加载以提升 GPU 利用率 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

大模型训练数据加载优化：提升 GPU 利用率

大家好，今天我们来聊聊大模型训练中的一个关键环节：数据加载。数据加载速度直接影响 GPU 的利用率，一个高效的数据加载pipeline能够让GPU始终处于满负荷状态，从而缩短训练时间，降低成本。反之，如果数据加载成为瓶颈，即使拥有强大的 GPU 集群，训练效率也会大打折扣。

本次分享将深入探讨大模型训练中常见的数据加载瓶颈，并提供一系列优化策略，包括数据预处理、数据存储格式、数据加载框架、并行化以及缓存机制等。我们将结合具体的代码示例，帮助大家更好地理解和应用这些优化方法。

一、数据加载面临的挑战

在大模型训练中，数据量通常非常庞大，动辄 TB 甚至 PB 级别。这给数据加载带来了诸多挑战：

I/O 瓶颈： 从磁盘或网络存储读取数据速度远低于 GPU 的计算速度，导致 GPU 处于空闲等待状态。
CPU 瓶颈： 数据预处理（例如文本分词、图像增强等）通常由 CPU 执行，如果预处理速度跟不上 GPU 的需求，CPU 也会成为瓶颈。
数据格式： 不合适的数据格式会增加 I/O 开销和 CPU 解码时间。
数据倾斜： 不同样本的处理时间差异较大，导致 GPU 利用率波动。

为了解决这些问题，我们需要对数据加载pipeline进行精心的设计和优化。

二、数据预处理优化

数据预处理是数据加载pipeline的第一步，也是至关重要的一步。优化数据预处理可以显著降低 CPU 的负担，提高整体的训练效率。

向量化： 尽量使用向量化操作代替循环。例如，使用 NumPy 或 PyTorch 的向量化函数处理数据，可以充分利用 CPU 的并行计算能力。

import numpy as np

# 循环方式 (低效)
def process_data_loop(data):
    result = []
    for x in data:
        result.append(x * 2 + 1)
    return result

# 向量化方式 (高效)
def process_data_vectorized(data):
    return data * 2 + 1

data = np.random.rand(1000000)
# 对比两种方式的运行时间
import time
start_time = time.time()
process_data_loop(data)
end_time = time.time()
print("Loop time:", end_time - start_time) # Loop time: 0.35253047943115234

start_time = time.time()
process_data_vectorized(data)
end_time = time.time()
print("Vectorized time:", end_time - start_time) # Vectorized time: 0.002992868423461914

可以看出，向量化操作比循环操作快得多。

并行处理： 使用多进程或多线程并行执行数据预处理任务。 Python 的 multiprocessing 库可以方便地实现多进程并行。

import multiprocessing
import numpy as np

def process_data(data_chunk):
    # 模拟耗时的数据预处理操作
    result = np.sin(data_chunk)
    return result

def parallel_process_data(data, num_processes=4):
    chunk_size = len(data) // num_processes
    chunks = [data[i:i + chunk_size] for i in range(0, len(data), chunk_size)]

    with multiprocessing.Pool(processes=num_processes) as pool:
        results = pool.map(process_data, chunks)

    # 合并结果
    processed_data = np.concatenate(results)
    return processed_data

data = np.random.rand(1000000)
# 对比单进程和多进程的运行时间
import time
start_time = time.time()
process_data(data)
end_time = time.time()
print("Single process time:", end_time - start_time) # Single process time: 0.02495884895324707

start_time = time.time()
parallel_process_data(data)
end_time = time.time()
print("Parallel process time:", end_time - start_time) # Parallel process time: 0.01196742057800293

注意：多进程适用于 CPU 密集型任务，例如图像解码、文本分词等。对于 I/O 密集型任务，多线程可能更合适。

延迟加载： 只在需要时才加载和预处理数据。例如，可以使用生成器（generator）或迭代器（iterator）按需生成数据。

def data_generator(file_path):
    with open(file_path, 'r') as f:
        for line in f:
            # 模拟数据预处理
            data = line.strip().split(',')
            processed_data = [float(x) for x in data]
            yield processed_data

# 使用生成器加载数据
generator = data_generator('data.txt')  # data.txt为模拟数据文件
for i in range(10):  # 只加载前10个数据
    data = next(generator)
    print(data)

这种方式可以避免一次性加载大量数据到内存中，节省内存空间，并减少启动时间。

数据增强： 数据增强可以增加训练数据的多样性，提高模型的泛化能力。常用的数据增强方法包括图像旋转、缩放、裁剪、翻转、颜色变换等。 PyTorch 的 torchvision.transforms 模块提供了丰富的数据增强方法。

import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt

# 定义数据增强pipeline
transform = transforms.Compose([
    transforms.RandomResizedCrop(224),  # 随机裁剪
    transforms.RandomHorizontalFlip(),  # 随机水平翻转
    transforms.ToTensor(),              # 转换为Tensor
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 标准化
])

# 加载图像
image = Image.open('image.jpg') # image.jpg为模拟图片文件

# 应用数据增强
augmented_image = transform(image)

# 显示增强后的图像 (需要将Tensor转换为PIL Image)
augmented_image = augmented_image.permute(1, 2, 0).numpy() # 调整维度顺序
augmented_image = (augmented_image * np.array([0.229, 0.224, 0.225]) + np.array([0.485, 0.456, 0.406]))
augmented_image = np.clip(augmented_image, 0, 1)
plt.imshow(augmented_image)
plt.show()

需要注意的是，数据增强也会增加 CPU 的负担，因此需要根据实际情况进行权衡。

三、数据存储格式优化

选择合适的数据存储格式可以显著提高 I/O 效率，减少存储空间。

选择高效的存储格式： 避免使用文本格式存储数据，尽量选择二进制格式，例如 TFRecord、Parquet、Arrow 等。

TFRecord: TensorFlow 官方推荐的存储格式，适合存储序列化的 TensorFlow tf.Example 对象。支持压缩、分片等特性。

import tensorflow as tf

def create_tfrecord(data, output_path):
    with tf.io.TFRecordWriter(output_path) as writer:
        for item in data:
            # 创建 tf.Example 对象
            example = tf.train.Example(features=tf.train.Features(feature={
                'feature1': tf.train.Feature(float_list=tf.train.FloatList(value=item)),
            }))
            # 序列化为字符串
            serialized_example = example.SerializeToString()
            # 写入 TFRecord 文件
            writer.write(serialized_example)

# 模拟数据
data = [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0]]
# 创建 TFRecord 文件
create_tfrecord(data, 'data.tfrecord')

Parquet: 列式存储格式，适合存储结构化数据。支持高效的压缩和编码，可以显著减少存储空间和 I/O 开销。

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# 创建 Pandas DataFrame
data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']}
df = pd.DataFrame(data)

# 将 DataFrame 转换为 PyArrow Table
table = pa.Table.from_pandas(df)

# 写入 Parquet 文件
pq.write_table(table, 'data.parquet')

Arrow: 内存中的列式数据格式，支持零拷贝的数据共享。可以与 Pandas、NumPy 等库无缝集成。

import pyarrow as pa
import numpy as np

# 创建 PyArrow Array
array = pa.array([1, 2, 3, 4, 5])

# 创建 PyArrow Table
table = pa.Table.from_arrays([array], names=['col1'])

# 从 NumPy 数组创建 PyArrow Array
numpy_array = np.array([6, 7, 8, 9, 10])
arrow_array = pa.array(numpy_array)

数据压缩： 使用压缩算法可以减少存储空间和 I/O 开销。常用的压缩算法包括 Gzip、LZO、Snappy 等。

TFRecord 压缩： 在创建 TFRecord 文件时，可以指定压缩类型。

import tensorflow as tf

options = tf.io.TFRecordOptions(compression_type="GZIP")
with tf.io.TFRecordWriter('data.tfrecord.gz', options=options) as writer:
    # ... 写入数据
    pass

Parquet 压缩： 在写入 Parquet 文件时，可以指定压缩算法。

import pyarrow.parquet as pq

# 指定压缩算法
pq.write_table(table, 'data.parquet', compression='gzip')

数据分片： 将大型数据集分割成多个小文件，可以提高并行读取的效率。

TFRecord 分片： 可以使用 tf.data.Dataset.shard() 方法将 TFRecord 数据集分割成多个分片。

import tensorflow as tf

dataset = tf.data.TFRecordDataset('data.tfrecord')
# 将数据集分割成 4 个分片
num_shards = 4
shard_index = 0  # 当前分片索引
sharded_dataset = dataset.shard(num_shards, shard_index)

Parquet 分片： 可以使用循环将 DataFrame 分割成多个小 DataFrame，然后分别写入 Parquet 文件。

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

def write_parquet_shards(df, output_prefix, num_shards):
    shard_size = len(df) // num_shards
    for i in range(num_shards):
        start = i * shard_size
        end = (i + 1) * shard_size if i < num_shards - 1 else len(df)
        shard_df = df.iloc[start:end]
        table = pa.Table.from_pandas(shard_df)
        pq.write_table(table, f'{output_prefix}_{i}.parquet')

# 模拟 DataFrame
data = {'col1': range(100), 'col2': ['a'] * 100}
df = pd.DataFrame(data)

# 将 DataFrame 分割成 4 个分片
write_parquet_shards(df, 'data', 4)

四、数据加载框架优化

选择合适的数据加载框架可以简化数据加载流程，并提供高效的 I/O 和数据预处理能力。

TensorFlow Data API (tf.data): TensorFlow 官方推荐的数据加载 API，支持高效的数据预处理、数据转换、数据缓存和并行加载。

import tensorflow as tf

# 创建 TFRecord 数据集
dataset = tf.data.TFRecordDataset('data.tfrecord')

# 定义解析函数
def parse_example(serialized_example):
    feature_description = {
        'feature1': tf.io.FixedLenFeature([3], tf.float32),
    }
    example = tf.io.parse_single_example(serialized_example, feature_description)
    return example['feature1']

# 应用解析函数
dataset = dataset.map(parse_example)

# 设置 batch size
batch_size = 32
dataset = dataset.batch(batch_size)

# 预取数据
dataset = dataset.prefetch(tf.data.AUTOTUNE)

# 迭代数据集
for batch in dataset:
    print(batch)

tf.data API 提供了丰富的功能，例如：

map(): 对数据集中的每个元素应用一个函数。
batch(): 将数据集中的多个元素组合成一个 batch。
shuffle(): 随机打乱数据集。
prefetch(): 预取数据，提高 I/O 效率。
cache(): 将数据集缓存到内存或磁盘，避免重复加载。

PyTorch DataLoader: PyTorch 官方推荐的数据加载器，支持多进程数据加载、数据打乱、数据采样等功能。

import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

# 定义自定义数据集
class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return torch.tensor(self.data[idx], dtype=torch.float32)

# 模拟数据
data = np.random.rand(100, 10)

# 创建数据集
dataset = MyDataset(data)

# 创建 DataLoader
batch_size = 32
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, num_workers=4)

# 迭代 DataLoader
for batch in dataloader:
    print(batch.shape)

DataLoader 的关键参数包括：

dataset: 数据集对象。
batch_size: batch size。
shuffle: 是否打乱数据。
num_workers: 用于数据加载的进程数。增加 num_workers 可以提高数据加载速度，但也会增加 CPU 的负担。
pin_memory: 是否将数据加载到 CUDA pinned memory 中。如果使用 GPU 训练，建议设置为 True，可以提高数据传输速度。

五、并行化数据加载

并行化数据加载是提高 GPU 利用率的关键手段。通过使用多个进程或线程同时加载数据，可以充分利用 CPU 的多核能力，缩短数据加载时间。

多进程数据加载: 使用 multiprocessing 库或数据加载框架（例如 PyTorch DataLoader）的多进程功能。
- PyTorch DataLoader 多进程： 设置 DataLoader 的 num_workers 参数。
```
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, num_workers=4)
```
  需要注意的是，多进程数据加载可能会导致内存占用增加，需要根据实际情况进行调整。

GPU 加速数据预处理: 将部分数据预处理任务转移到 GPU 上执行，可以减轻 CPU 的负担。例如，可以使用 NVIDIA DALI 库进行 GPU 加速的图像处理。

import nvidia.dali.fn as fn
import nvidia.dali.types as types
from nvidia.dali import pipeline
import nvidia.dali.ops as ops

@pipeline_def
def create_dali_pipeline():
    images = fn.readers.file(file_root='images', shard_id=0, num_shards=1, name="Reader")
    decode = fn.decoders.image(device='mixed', output_type=types.RGB)
    resized = fn.resize(images, resize_x=224, resize_y=224)
    return resized

DALI 提供了丰富的 GPU 加速算子，例如图像解码、图像增强、数据类型转换等。

六、数据缓存

数据缓存可以将数据存储在内存或磁盘中，避免重复加载，提高数据加载速度。

内存缓存: 将数据加载到内存中，可以实现最快的访问速度。但是，内存空间有限，只能缓存部分数据。

tf.data.Dataset.cache(): 将 TensorFlow 数据集缓存到内存或磁盘。

dataset = dataset.cache('cache_file')  # 缓存到磁盘
# 或者
dataset = dataset.cache() #缓存到内存

LRU 缓存: 使用 LRU (Least Recently Used) 算法缓存数据，只保留最近使用的数据。可以使用 Python 的 functools.lru_cache 装饰器实现 LRU 缓存。

import functools

@functools.lru_cache(maxsize=128)
def load_data(file_path):
    # 模拟数据加载
    import time
    time.sleep(0.1)  # 模拟 I/O 延迟
    return f"Data from {file_path}"

# 测试缓存效果
print(load_data('file1.txt'))  # 第一次加载，耗时较长
print(load_data('file1.txt'))  # 第二次加载，直接从缓存读取，耗时很短
print(load_data('file2.txt'))  # 第一次加载，耗时较长

磁盘缓存: 将数据存储在磁盘上，可以缓存更多的数据，但访问速度比内存慢。
- tf.data.Dataset.cache('cache_file'): 将 TensorFlow 数据集缓存到磁盘。
- 使用数据库: 将数据存储在数据库中，例如 Redis、Memcached 等。数据库提供了高效的键值存储和查询功能。

七、数据倾斜处理

数据倾斜是指不同样本的处理时间差异较大，导致 GPU 利用率波动。

数据采样: 对处理时间较长的样本进行欠采样，对处理时间较短的样本进行过采样。

加权采样: 为每个样本分配一个权重，权重与处理时间成反比。在采样时，按照权重进行采样。

import random

def weighted_random_choice(choices, weights):
    total = sum(weights)
    r = random.uniform(0, total)
    upto = 0
    for i, w in enumerate(weights):
        if upto + w >= r:
            return choices[i]
        upto += w
    return choices[-1]

# 示例：样本和权重
samples = ['A', 'B', 'C']
weights = [0.1, 0.3, 0.6] # A 权重小，被采样的概率小，C权重高，被采样的概率大

# 进行加权采样
for _ in range(10):
    print(weighted_random_choice(samples, weights))

动态 Batching: 根据样本的处理时间动态调整 batch size。对于处理时间较长的样本，使用较小的 batch size；对于处理时间较短的样本，使用较大的 batch size。

动态 Batching 的实现比较复杂，需要根据具体的模型和数据进行调整。

八、其他优化技巧

使用 NVMe 固态硬盘: NVMe 固态硬盘比传统的机械硬盘具有更高的读写速度，可以显著提高 I/O 效率。
使用分布式文件系统: 使用分布式文件系统（例如 HDFS、Ceph 等）可以提高数据存储的可靠性和可扩展性。
优化网络带宽: 如果数据存储在远程服务器上，需要优化网络带宽，确保数据可以快速传输到 GPU 服务器。

总结一下，优化数据加载，提升 GPU 利用率

本次分享介绍了一系列优化数据加载的方法，包括数据预处理、数据存储格式、数据加载框架、并行化以及缓存机制等。这些优化方法可以有效地提高 GPU 利用率，缩短训练时间，降低成本。在实际应用中，需要根据具体的模型和数据选择合适的优化策略。