C++实现内存映射文件（mmap）：实现超大规模数据文件的零拷贝访问与共享 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

C++内存映射文件 (mmap): 超大规模数据文件的零拷贝访问与共享

各位朋友，大家好！今天我们来探讨一个在处理超大规模数据时非常重要的技术：内存映射文件，也就是常说的 mmap。我们将深入了解 mmap 的原理、优势、C++ 中的实现方法，以及如何利用它实现超大规模数据的零拷贝访问与共享。

什么是内存映射文件？

传统的文件 I/O 操作通常需要将数据从磁盘拷贝到内核缓冲区，然后再从内核缓冲区拷贝到用户空间缓冲区。这个过程涉及多次数据拷贝，效率相对较低。

内存映射文件 (mmap) 是一种将磁盘文件的一部分或全部映射到进程地址空间的技术。简单来说，它将文件视为进程虚拟地址空间中的一块内存区域。进程可以直接读写这块内存区域，而无需显式调用 read 或 write 等系统调用。操作系统负责在幕后处理磁盘和内存之间的数据同步。

mmap 的原理

mmap 的核心在于利用了操作系统的虚拟内存管理机制。当进程访问映射区域时，如果所需数据不在物理内存中，会触发一个缺页中断 (page fault)。操作系统会从磁盘加载包含所需数据的页面到物理内存中，并将虚拟地址映射到物理地址。此后，进程就可以直接访问这块物理内存，而无需进行额外的数据拷贝。

mmap 的优势

零拷贝访问 (Zero-Copy Access): 这是 mmap 最显著的优势。由于数据直接映射到进程的地址空间，进程可以直接读写映射区域，无需额外的数据拷贝操作，显著提升了 I/O 性能。
高效的随机访问: mmap 允许对文件进行随机访问，就像访问内存一样。这对于需要频繁访问文件中不同位置的数据的应用程序非常有用。
简化代码: 使用 mmap 可以简化文件 I/O 的代码。程序员可以直接使用指针操作来读写文件内容，而无需显式调用 read 和 write 等函数。
进程间共享数据: 多个进程可以将同一个文件映射到各自的地址空间，从而实现进程间共享数据。当一个进程修改了映射区域的内容，其他进程也可以立即看到这些修改。
延迟加载: mmap 采用延迟加载策略。只有当进程实际访问映射区域时，才会从磁盘加载数据。这可以减少启动时间和内存占用。

mmap 的缺点

需要考虑同步问题: 当多个进程共享同一个映射文件时，需要使用锁或其他同步机制来避免数据竞争。
可能出现页面错误: 如果访问的页面不在内存中，会触发缺页中断，导致性能下降。
文件大小限制: 在某些系统上，mmap 可能受到文件大小的限制。
文件必须存在: 使用 mmap 必须是已经存在的文件，不能直接映射一个不存在的文件。

C++ 中使用 mmap

在 C++ 中，我们可以使用 POSIX API 来使用 mmap。主要涉及以下几个函数：

mmap(): 创建一个新的内存映射。
munmap(): 解除一个内存映射。
msync(): 将内存映射区域中的数据同步到磁盘。
ftruncate(): 改变文件的大小。
open(): 打开文件
close(): 关闭文件

以下是一个简单的 C++ 示例，演示如何使用 mmap 读取文件内容：

#include <iostream>
#include <fstream>
#include <sys/mman.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <string>

int main() {
    const char* filename = "large_data.txt";
    int fd = open(filename, O_RDONLY); // 只读方式打开文件
    if (fd == -1) {
        perror("open");
        return 1;
    }

    struct stat sb;
    if (fstat(fd, &sb) == -1) {
        perror("fstat");
        close(fd);
        return 1;
    }

    size_t file_size = sb.st_size;

    // 将整个文件映射到内存
    char* addr = (char*)mmap(nullptr, file_size, PROT_READ, MAP_SHARED, fd, 0);
    if (addr == MAP_FAILED) {
        perror("mmap");
        close(fd);
        return 1;
    }

    // 现在可以通过 addr 指针直接访问文件内容
    std::cout << "First 100 bytes: " << std::string(addr, std::min((size_t)100, file_size)) << std::endl;

    // 解除内存映射
    if (munmap(addr, file_size) == -1) {
        perror("munmap");
    }

    close(fd);
    return 0;
}

在这个例子中，我们首先打开文件 large_data.txt，然后使用 mmap 将整个文件映射到内存。PROT_READ 表示映射区域是只读的。MAP_SHARED 表示映射是共享的，这意味着对映射区域的修改会反映到磁盘文件中。最后，我们使用 munmap 解除内存映射。

C++ mmap 读写示例

#include <iostream>
#include <fstream>
#include <sys/mman.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <string>

int main() {
    const char* filename = "mmap_write_test.txt";
    size_t file_size = 4096; // Initial size, adjust as needed

    // Create the file and truncate it to the desired size
    int fd = open(filename, O_RDWR | O_CREAT | O_TRUNC, 0666);
    if (fd == -1) {
        perror("open");
        return 1;
    }

    if (ftruncate(fd, file_size) == -1) {
        perror("ftruncate");
        close(fd);
        return 1;
    }

    // Map the file into memory
    char* addr = (char*)mmap(nullptr, file_size, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
    if (addr == MAP_FAILED) {
        perror("mmap");
        close(fd);
        return 1;
    }

    // Write data to the mapped region
    std::string data_to_write = "Hello, mmap! This is a test write.";
    strncpy(addr, data_to_write.c_str(), file_size); // Use strncpy to avoid buffer overflow

    // Synchronize the changes to disk
    if (msync(addr, file_size, MS_SYNC) == -1) {
        perror("msync");
    }

    // Read back the data
    std::cout << "Data read from mmap: " << addr << std::endl;

    // Unmap the file
    if (munmap(addr, file_size) == -1) {
        perror("munmap");
    }

    close(fd);
    return 0;
}

参数解释：

函数	参数	含义
`mmap()`	`addr`	指定映射区的起始地址。通常设置为 `nullptr`，让系统自动选择一个合适的地址。
	`length`	指定映射区的长度，通常是文件的大小。
	`prot`	指定映射区的保护方式，例如 `PROT_READ` (只读), `PROT_WRITE` (可写), `PROT_EXEC` (可执行)。可以使用 `\|` 运算符组合多种保护方式，例如 `PROT_READ \| PROT_WRITE` 表示可读写。
	`flags`	指定映射区的标志，例如 `MAP_SHARED` (共享映射), `MAP_PRIVATE` (私有映射), `MAP_ANONYMOUS` (匿名映射)。`MAP_SHARED` 表示对映射区的修改会反映到磁盘文件中，`MAP_PRIVATE` 表示对映射区的修改不会反映到磁盘文件中。`MAP_ANONYMOUS` 用于创建匿名映射，通常用于进程间共享内存。
	`fd`	指定要映射的文件的文件描述符。
	`offset`	指定文件映射的起始偏移量。通常设置为 0，表示从文件的开头开始映射。
`munmap()`	`addr`	指向映射区域的指针，由 `mmap()` 返回。
	`length`	映射区域的长度，与 `mmap()` 中使用的长度相同。
`msync()`	`addr`	指向映射区域的指针，由 `mmap()` 返回。
	`length`	映射区域的长度，与 `mmap()` 中使用的长度相同。
	`flags`	指定同步操作的标志，例如 `MS_SYNC` (同步写入), `MS_ASYNC` (异步写入), `MS_INVALIDATE` (使缓存无效)。`MS_SYNC` 表示在函数返回之前将数据同步到磁盘，`MS_ASYNC` 表示异步写入数据，`MS_INVALIDATE` 表示使缓存无效，以便从磁盘重新加载数据。
`ftruncate`	`fd`	文件描述符，指定要修改大小的文件。
	`length`	文件的新大小（以字节为单位）。如果 length 小于当前文件大小，文件将被截断为 length 大小。如果 length 大于当前文件大小，文件将被扩展到 length 大小，扩展部分可能填充零或未定义的数据。

超大规模数据处理的实践

在处理超大规模数据时，mmap 的优势更加明显。例如，我们可以使用 mmap 来处理 TB 级别的日志文件。

分块处理: 将超大规模文件分成多个块，然后分别映射每个块。这样可以减少每次映射的内存占用，并提高处理速度。
多线程/多进程并行处理: 可以使用多线程或多进程来并行处理不同的数据块。这可以充分利用多核 CPU 的优势，提高处理效率。
只读映射: 如果只需要读取数据，可以使用只读映射 PROT_READ，以提高安全性。
延迟加载: 利用 mmap 的延迟加载特性，只在需要时才加载数据到内存。

示例：大规模日志文件的分析

假设我们有一个 TB 级别的日志文件，我们需要统计其中特定关键词出现的次数。以下是一个使用 mmap 和多线程的 C++ 示例：

#include <iostream>
#include <fstream>
#include <sys/mman.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <string>
#include <thread>
#include <vector>
#include <algorithm>
#include <mutex>

const size_t BLOCK_SIZE = 1024 * 1024 * 128; // 128MB per block, adjust based on available memory
std::mutex count_mutex;
long long total_count = 0;

void process_block(char* block_start, size_t block_size, const std::string& keyword) {
    long long local_count = 0;
    const char* block_end = block_start + block_size;
    const char* current_pos = block_start;

    while (current_pos < block_end) {
        const char* match = std::search(current_pos, block_end, keyword.begin(), keyword.end());
        if (match == block_end) {
            break;
        }
        local_count++;
        current_pos = match + keyword.length();
    }

    std::lock_guard<std::mutex> lock(count_mutex);
    total_count += local_count;
}

int main() {
    const char* filename = "large_log.txt";
    const std::string keyword = "error";

    int fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("open");
        return 1;
    }

    struct stat sb;
    if (fstat(fd, &sb) == -1) {
        perror("fstat");
        close(fd);
        return 1;
    }

    size_t file_size = sb.st_size;

    std::vector<std::thread> threads;
    size_t offset = 0;

    while (offset < file_size) {
        size_t block_size = std::min(BLOCK_SIZE, file_size - offset);

        char* addr = (char*)mmap(nullptr, block_size, PROT_READ, MAP_SHARED, fd, offset);
        if (addr == MAP_FAILED) {
            perror("mmap");
            close(fd);
            return 1;
        }

        threads.emplace_back(process_block, addr, block_size, keyword);

        offset += block_size;

        // Unmap immediately after creating the thread.  The thread has its own copy.
        if (munmap(addr, block_size) == -1) {
            perror("munmap");
            // It's best to continue and clean up resources.  However, you might want to exit here based on the use case.
        }
    }

    for (auto& thread : threads) {
        thread.join();
    }

    close(fd);

    std::cout << "Keyword '" << keyword << "' found " << total_count << " times." << std::endl;

    return 0;
}

在这个例子中，我们将日志文件分成多个 128MB 的块，然后为每个块创建一个线程来统计关键词出现的次数。使用互斥锁 count_mutex 来保护全局计数器 total_count，避免多线程并发访问导致的数据竞争。重要的是，在线程创建后立即 munmap，每个线程处理的是它自己的映射的内存块。

总结一下： mmap提升效率的关键

内存映射文件 (mmap) 是一种强大的技术，可以显著提高大规模数据处理的效率。通过将文件映射到进程的地址空间，mmap 实现了零拷贝访问，减少了数据拷贝的开销。结合多线程/多进程并行处理，可以充分利用硬件资源，实现更快的处理速度。

更多IT精英技术系列讲座，到智猿学院

C++内存映射文件 (mmap): 超大规模数据文件的零拷贝访问与共享

发表回复 取消回复

发表回复取消回复