C++ `std::string_view` (C++17) 与 `std::span` (C++20) 的零拷贝特性 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们来聊聊C++里两个“零拷贝”的家伙：std::string_view和std::span。别看它们名字挺唬人，其实用起来相当简单，而且在性能优化方面能帮上大忙。

开场白：拷贝的代价

在深入这两个“零拷贝”神器之前，咱们先得明白拷贝操作有多费劲。想象一下，你要把一份500页的报告复印给办公室里的每个人。如果你用传统的方法，那就是一份一份地复印，累死个人不说，还浪费纸张和时间。这就是传统的拷贝，数据量越大，代价越高。

在C++里，当我们把一个std::string或者std::vector赋值给另一个变量时，默认情况下，编译器会创建一个新的对象，并将原始对象的内容完整地复制到新对象中。这意味着要分配新的内存，然后把数据从一个地方搬到另一个地方。对于大型字符串或者容器，这个过程可能会很耗时，占用大量的内存。

std::string_view: 字符串的“只读窗口”

std::string_view（C++17引入）就像一个字符串的“只读窗口”。它不拥有字符串的数据，只是引用现有的字符串。这意味着，当你创建一个string_view时，不会发生任何内存分配或数据拷贝。它只是记录了原始字符串的起始位置和长度。

工作原理：

string_view存储了指向字符串数据的指针和一个长度值。
当使用string_view时，你实际上是在操作原始字符串数据的一个视图。
修改string_view不会修改原始字符串（因为它只读）。

代码示例：

#include <iostream>
#include <string>
#include <string_view>

int main() {
    std::string message = "Hello, world!";
    std::string_view view = message; // 创建string_view，不拷贝数据

    std::cout << "Original string: " << message << std::endl;
    std::cout << "String view: " << view << std::endl;
    std::cout << "String view length: " << view.length() << std::endl;

    // view[0] = 'J'; // 错误！ string_view是只读的

    message[0] = 'J'; // 修改原始字符串
    std::cout << "Original string after modification: " << message << std::endl; // "Jello, world!"
    std::cout << "String view after modification: " << view << std::endl;    // "Jello, world!"  view也改变了，因为它指向原始数据

    return 0;
}

注意事项：

生命周期管理： string_view依赖于原始字符串的存在。如果原始字符串被销毁，string_view就会变成一个“悬挂指针”，访问它会导致未定义行为。所以，要确保string_view的生命周期短于或等于其引用的字符串。
只读性： string_view是只读的。你不能通过string_view来修改原始字符串的内容。
*与`const char的区别：**string_view比const char*更安全，因为它显式地记录了字符串的长度，避免了缓冲区溢出的风险。而且，string_view更容易与std::string`交互。

应用场景：

函数参数传递： 避免不必要的字符串拷贝，提高函数性能。
字符串解析： 在解析大型字符串时，使用string_view可以避免重复拷贝子字符串。
配置文件读取： 从文件中读取配置信息时，使用string_view可以高效地处理字符串数据。

举个栗子：函数参数传递

#include <iostream>
#include <string>
#include <string_view>

// 使用 string_view 作为参数，避免字符串拷贝
void printMessage(std::string_view message) {
    std::cout << "Message: " << message << std::endl;
}

int main() {
    std::string myMessage = "This is a long message.";
    printMessage(myMessage); // 传递 std::string
    printMessage("Hello, string_view!"); // 传递 C风格字符串字面量

    return 0;
}

在这个例子中，printMessage函数接受一个string_view作为参数。无论是传递std::string还是C风格字符串字面量，都不会发生字符串拷贝。这对于频繁调用的函数来说，可以显著提高性能。

std::span: 连续内存区域的“窗口”

std::span（C++20引入）类似于string_view，但它适用于任何连续的内存区域，而不仅仅是字符串。它可以看作是数组、std::vector或其他连续内存块的“视图”。同样，span也不拥有数据，只是引用现有的内存区域。

工作原理：

span存储了指向内存区域起始位置的指针和一个长度值。
可以使用span来访问和操作内存区域中的元素。
span可以是只读的，也可以是可写的（取决于其构造方式和模板参数）。

代码示例：

#include <iostream>
#include <vector>
#include <span>

int main() {
    std::vector<int> numbers = {1, 2, 3, 4, 5};
    std::span<int> span_numbers(numbers); // 创建 span，引用 vector 的数据

    std::cout << "Span size: " << span_numbers.size() << std::endl;
    std::cout << "First element: " << span_numbers[0] << std::endl;

    span_numbers[0] = 10; // 修改原始 vector 中的数据
    std::cout << "Original vector after modification: ";
    for (int num : numbers) {
        std::cout << num << " ";
    }
    std::cout << std::endl;

    // 创建一个只读的 span
    const std::vector<int> const_numbers = {6, 7, 8, 9, 10};
    std::span<const int> const_span(const_numbers);

    // const_span[0] = 11; // 错误！ 只读 span 不能修改数据

    return 0;
}

注意事项：

生命周期管理： 和string_view一样，span也依赖于原始内存区域的存在。要确保span的生命周期短于或等于其引用的内存区域。
可变性： span可以是可变的，也可以是只读的。可变span允许修改原始内存区域中的数据，而只读span则不允许。使用 std::span<const int> 可以创建只读的span.
类型安全： span是类型安全的。编译器会检查span的类型是否与原始内存区域的类型匹配。

应用场景：

处理数组： 方便地操作数组，无需传递数组的大小。
算法实现： 在算法中，使用span可以避免不必要的容器拷贝，提高算法效率。
库接口设计： 使用span作为函数参数，可以接受不同类型的连续内存区域作为输入，提高库的通用性。

举个栗子：使用 span 操作数组

#include <iostream>
#include <span>

// 使用 span 对数组中的元素求和
int sumArray(std::span<int> arr) {
    int sum = 0;
    for (int num : arr) {
        sum += num;
    }
    return sum;
}

int main() {
    int myArray[] = {1, 2, 3, 4, 5};
    std::span<int> mySpan(myArray); // 创建 span

    int sum = sumArray(mySpan);
    std::cout << "Sum of array elements: " << sum << std::endl;

    return 0;
}

在这个例子中，sumArray函数接受一个span作为参数，可以计算任何int类型数组的元素之和。无需传递数组的大小，span已经包含了这些信息。

string_view vs span：区别与联系

特性	`std::string_view`	`std::span`
适用范围	字符串	任何连续内存区域（数组、`std::vector`等）
包含头文件	`<string_view>`	`<span>`
引入版本	C++17	C++20
本质	字符串的只读视图	连续内存区域的视图
修改原始数据	不允许	允许（如果不是`std::span<const T>`）
主要用途	高效地处理字符串，避免字符串拷贝	高效地处理连续内存区域，避免容器拷贝
共同点	都是非拥有型视图，不拥有数据，依赖于原始数据的存在	都是非拥有型视图，不拥有数据，依赖于原始数据的存在
	零拷贝特性	零拷贝特性

总结：

std::string_view和std::span都是C++中非常有用的工具，它们提供了零拷贝的视图，可以有效地提高程序的性能，尤其是在处理大型字符串和容器时。

使用string_view来避免字符串拷贝，特别是在函数参数传递和字符串解析等场景中。
使用span来操作连续的内存区域，例如数组和std::vector，可以提高算法效率和库的通用性。
在使用这两个工具时，一定要注意生命周期管理，确保视图的生命周期短于或等于其引用的原始数据。

掌握了这两个“零拷贝”神器，你的C++代码就能像火箭一样，嗖嗖嗖地快起来！记住，好的代码不仅要能跑，还要跑得快！

希望今天的分享对你有所帮助！谢谢大家！

发表回复 取消回复

发表回复取消回复