Polars DataFrame：基于 Rust 的高性能数据处理库 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，欢迎来到今天的“Polars DataFrame：Rust 大神的秘密武器”讲座！我是你们今天的导游，将带大家一起探索这个基于 Rust 的高性能数据处理库。准备好起飞了吗？让我们开始吧！

开场白：数据，数据，到处都是数据！

在这个信息爆炸的时代，数据就像空气一样无处不在。无论是科学研究、商业分析还是日常生活，我们都离不开数据的支撑。然而，当数据量变得巨大时，处理起来就成了一个让人头疼的问题。传统的 Python 数据处理库，比如 Pandas，虽然用起来很方便，但在性能方面却常常让人感到力不从心。

这时候，一位英雄出现了，那就是 Polars！它就像一位身披 Rust 战甲的武士，以其卓越的性能和高效的内存管理，为我们带来了数据处理的新希望。

Polars 的闪光点：为什么选择它？

在众多数据处理库中，Polars 凭什么脱颖而出呢？让我们来看看它的几个闪光点：

基于 Rust： Rust 是一种系统编程语言，以其安全性、并发性和高性能而闻名。Polars 充分利用了 Rust 的这些优势，实现了惊人的性能。
内存效率： Polars 采用了 Apache Arrow 作为其内存模型，可以实现零拷贝的数据共享，大大提高了内存利用率。
并行处理： Polars 内置了对并行处理的支持，可以充分利用多核 CPU 的优势，加速数据处理过程。
表达式引擎： Polars 拥有强大的表达式引擎，可以让你以简洁明了的方式进行数据转换和计算。
延迟计算： Polars 采用了延迟计算的策略，只有在需要结果时才会真正执行计算，避免了不必要的资源消耗。
易于使用： 虽然 Polars 基于 Rust，但它提供了 Python API，让你可以在 Python 中轻松使用它的强大功能。

Polars 初体验：Hello, Polars!

废话不多说，让我们来写一段代码，感受一下 Polars 的魅力吧！首先，你需要安装 Polars：

pip install polars

安装完成后，就可以开始你的 Polars 之旅了。

import polars as pl

# 创建一个 DataFrame
data = {
    "姓名": ["张三", "李四", "王五", "赵六"],
    "年龄": [25, 30, 28, 32],
    "城市": ["北京", "上海", "广州", "深圳"],
    "工资": [8000, 12000, 10000, 15000],
}

df = pl.DataFrame(data)

# 打印 DataFrame
print(df)

这段代码创建了一个简单的 DataFrame，包含姓名、年龄、城市和工资等信息。运行这段代码，你将会看到如下输出：

shape: (4, 4)
┌──────┬─────┬──────┬──────┐
│ 姓名   ┆ 年龄  ┆ 城市   ┆ 工资   │
│ ---  ┆ --- ┆ ---  ┆ ---  │
│ str  ┆ i64 ┆ str  ┆ i64  │
╞══════╪═════╪══════╪══════╡
│ 张三   ┆ 25  ┆ 北京   ┆ 8000  │
│ 李四   ┆ 30  ┆ 上海   ┆ 12000 │
│ 王五   ┆ 28  ┆ 广州   ┆ 10000 │
│ 赵六   ┆ 32  ┆ 深圳   ┆ 15000 │
└──────┴─────┴──────┴──────┘

是不是很简单？Polars 的 DataFrame 看起来和 Pandas 的 DataFrame 很像，但内在却有着很大的不同。

Polars 的基本操作：增删改查

和所有数据处理库一样，Polars 也支持增删改查等基本操作。让我们来逐一了解一下。

增加列：

# 增加一列 "职称"
df = df.with_columns(pl.Series("职称", ["初级工程师", "中级工程师", "中级工程师", "高级工程师"]))
print(df)

删除列：

# 删除 "职称" 列
df = df.drop("职称")
print(df)

修改列：

# 将 "工资" 列的数值乘以 1.2
df = df.with_columns((pl.col("工资") * 1.2).alias("工资"))
print(df)

查询数据：

# 查询年龄大于 28 岁的人
filtered_df = df.filter(pl.col("年龄") > 28)
print(filtered_df)

Polars 的表达式引擎：化繁为简

Polars 的表达式引擎是它的一个亮点。你可以使用表达式来描述复杂的计算逻辑，而无需编写繁琐的循环代码。

# 计算每个人的税后工资（假设税率为 20%）
df = df.with_columns((pl.col("工资") * 0.8).alias("税后工资"))
print(df)

在这个例子中，pl.col("工资") * 0.8 就是一个表达式，它表示将 "工资" 列的数值乘以 0.8。alias("税后工资") 表示将计算结果保存到名为 "税后工资" 的新列中。

表达式可以进行各种各样的操作，比如算术运算、逻辑运算、字符串操作等等。你可以将多个表达式组合起来，构建更复杂的计算逻辑。

Polars 的数据聚合：分组统计

数据聚合是数据分析中常用的操作。Polars 提供了强大的数据聚合功能，可以让你轻松地进行分组统计。

# 按照城市分组，计算每个城市的平均工资
grouped_df = df.group_by("城市").agg(pl.mean("工资"))
print(grouped_df)

在这个例子中，group_by("城市") 表示按照 "城市" 列进行分组，agg(pl.mean("工资")) 表示计算每个城市的平均工资。

Polars 支持各种各样的聚合函数，比如 sum（求和）、min（最小值）、max（最大值）、count（计数）等等。你还可以自定义聚合函数，以满足特定的需求。

Polars 的性能优势：速度与激情

说了这么多，Polars 的性能到底有多强呢？让我们来做一个简单的测试，比较一下 Polars 和 Pandas 在处理大数据时的性能。

import pandas as pd
import time
import numpy as np

# 生成一个包含 1000 万行数据的 DataFrame
n_rows = 10_000_000
data = {
    "col1": np.random.rand(n_rows),
    "col2": np.random.randint(0, 100, n_rows),
    "col3": ["category_" + str(i % 100) for i in range(n_rows)],
}

# Pandas DataFrame
pandas_df = pd.DataFrame(data)

# Polars DataFrame
polars_df = pl.DataFrame(data)

# 测试 Pandas 的性能
start_time = time.time()
pandas_df["col4"] = pandas_df["col1"] * pandas_df["col2"]
end_time = time.time()
pandas_time = end_time - start_time

# 测试 Polars 的性能
start_time = time.time()
polars_df = polars_df.with_columns((pl.col("col1") * pl.col("col2")).alias("col4"))
end_time = time.time()
polars_time = end_time - start_time

print(f"Pandas time: {pandas_time:.4f} seconds")
print(f"Polars time: {polars_time:.4f} seconds")

运行这段代码，你将会看到 Polars 的速度明显快于 Pandas。在我的电脑上，Polars 的速度大约是 Pandas 的 5-10 倍。

Polars 的适用场景：哪里需要它？

Polars 适用于以下场景：

大数据处理： 当数据量变得巨大时，Polars 的高性能可以帮助你更快地完成数据处理任务。
性能敏感的应用： 如果你的应用对性能要求很高，Polars 可以提供更好的性能。
并行计算： 如果你的 CPU 有多个核心，Polars 可以充分利用这些核心，加速数据处理过程。
内存受限的环境： Polars 的内存效率可以让你在内存受限的环境中处理更大的数据。

Polars 的学习资源：从入门到精通

如果你想深入学习 Polars，可以参考以下资源：

Polars 官方文档： https://www.pola.rs/ （这是最好的学习资源）
Polars GitHub 仓库： https://github.com/pola-rs/polars （可以查看源代码和参与社区讨论）
Polars 教程和示例： 在网上搜索 "Polars tutorial" 或 "Polars example"，可以找到大量的学习资源。

Polars 的注意事项：小坑要避开

在使用 Polars 时，需要注意以下几点：

数据类型： Polars 对数据类型要求比较严格，需要确保数据类型正确。
内存管理： 虽然 Polars 的内存效率很高，但仍然需要注意内存管理，避免内存泄漏。
并行处理： 并行处理可能会带来一些并发问题，需要小心处理。
表达式引擎： 表达式引擎虽然强大，但也需要掌握其使用方法，才能发挥其威力。

Polars 与 Pandas：爱恨情仇

Polars 和 Pandas 都是 Python 中常用的数据处理库，它们之间有着千丝万缕的联系。

特性	Polars	Pandas
编程语言	Rust	Python
内存模型	Apache Arrow	基于 NumPy 的数组
并行处理	内置支持	有限支持（需要借助其他库）
延迟计算	支持	不支持
表达式引擎	强大	相对简单
性能	通常更快	相对较慢
易用性	稍复杂	更简单
社区生态	发展中	成熟

总的来说，Pandas 更加易于使用，社区生态也更加完善。但 Polars 在性能方面具有明显的优势，尤其是在处理大数据时。你可以根据自己的需求选择合适的库。

总结：拥抱 Polars，拥抱未来！

Polars 是一个充满潜力的数据处理库，它以其卓越的性能和高效的内存管理，为我们带来了数据处理的新选择。虽然它还不够完美，但它正在快速发展，未来可期。

如果你正在寻找一个高性能的数据处理库，或者你想体验一下 Rust 的魅力，那么 Polars 绝对值得你尝试。

好了，今天的讲座就到这里。希望大家能够喜欢 Polars，并在未来的数据处理工作中充分利用它的强大功能。感谢大家的观看！

最后的彩蛋：Polars 的 Rust API

如果你对 Rust 比较熟悉，可以直接使用 Polars 的 Rust API。这样可以获得更高的性能和更大的灵活性。

use polars::prelude::*;

fn main() -> Result<(), Box<dyn std::error::Error>> {
    // 创建一个 DataFrame
    let data = vec![
        Series::new("姓名", &["张三", "李四", "王五", "赵六"]),
        Series::new("年龄", &[25, 30, 28, 32]),
        Series::new("城市", &["北京", "上海", "广州", "深圳"]),
        Series::new("工资", &[8000, 12000, 10000, 15000]),
    ];

    let df = DataFrame::new(data)?;

    // 打印 DataFrame
    println!("{:?}", df);

    // 计算每个人的税后工资（假设税率为 20%）
    let df = df.lazy()
        .with_column((col("工资") * lit(0.8)).alias("税后工资"))
        .collect()?;

    println!("{:?}", df);

    Ok(())
}

这段 Rust 代码和之前的 Python 代码的功能是一样的，但性能会更高。如果你想挑战一下自己，可以尝试使用 Polars 的 Rust API。

发表回复 取消回复

发表回复取消回复