Vaex：处理数十亿行数据的零内存拷贝 DataFrame - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位亲爱的程序员朋友们，欢迎来到今天的“Vaex：处理数十亿行数据的零内存拷贝 DataFrame”讲座！今天咱们不搞那些虚头巴脑的理论，直接上干货，手把手带你玩转Vaex，让你也能轻松驾驭海量数据，成为数据分析界的弄潮儿。

啥是Vaex？为啥要用它？

想象一下，你手头有几十个GB，甚至几百个GB的数据，用Pandas打开？电脑直接卡死给你看！这时候，Vaex就如同救星般降临了。

Vaex是一个懒加载的 DataFrame，专门为处理大型表格数据而生。它的核心理念是“零内存拷贝”，这意味着它不会像 Pandas 那样把整个数据集加载到内存中，而是通过内存映射、延迟计算等技术，让你在有限的内存下也能高效地进行数据分析。

简单来说，Vaex就是：

快！真的快，比 Pandas 快很多。
省！省内存，妈妈再也不用担心我的电脑卡死了。
懒！懒加载，用到啥算啥，避免浪费。

Vaex 的核心原理：延迟计算与内存映射

Vaex之所以能如此高效，主要归功于两个核心技术：延迟计算和内存映射。

延迟计算（Lazy Evaluation）： Vaex不会立即执行你的计算操作，而是先记录下来，只有当你真正需要结果的时候，才会执行。这就像你点外卖，不是立刻开始做，而是等到骑手快到了才开始炒菜，保证送到你手里的都是热乎乎的。
内存映射（Memory Mapping）： Vaex会将数据文件映射到内存地址空间，而不是直接加载到内存中。这样，你就可以像访问内存一样访问磁盘上的数据，而不需要一次性读取整个文件。这就像图书馆的书架，你只需要知道书的位置，就可以随时取阅，而不需要把所有书都搬回家。

Vaex 安装与基本操作

废话不多说，直接上代码！

安装 Vaex：

pip install vaex

导入 Vaex：

import vaex

加载数据：

Vaex支持多种数据格式，包括CSV、HDF5、Arrow、Parquet等。这里以CSV为例：

df = vaex.read_csv('your_data.csv', sep=',', names=['col1', 'col2', 'col3', 'col4']) #请替换成你的csv文件名和列名

注意： 如果你的CSV文件很大，Vaex会自动将它转换为HDF5格式，以便更高效地处理。

查看数据：

print(df)  # 查看 DataFrame 的基本信息
print(df.head(5)) # 查看前5行数据
print(df.columns) # 查看所有列名
print(df.dtypes) # 查看各列的数据类型

基本数据操作：

选择列：

df['col1']  # 选择单列
df[['col1', 'col2']]  # 选择多列

过滤数据：

df[df['col1'] > 10]  # 选择 col1 大于 10 的行
df[(df['col1'] > 10) & (df['col2'] < 20)]  # 多条件过滤

新增列：

df['new_col'] = df['col1'] + df['col2']  # 新增一列，值为 col1 + col2
df['is_large'] = df['col1'] > 100 # 根据条件创建布尔列

删除列：

del df['col1']

统计计算：

print(df['col1'].mean())  # 计算 col1 的均值
print(df['col1'].sum())   # 计算 col1 的总和
print(df['col1'].min())   # 计算 col1 的最小值
print(df['col1'].max())   # 计算 col1 的最大值
print(df['col1'].std())   # 计算 col1 的标准差
print(df['col1'].value_counts()) # 统计 col1 中各值的出现次数

Vaex 的高级特性：表达式与虚拟列

Vaex最强大的地方在于它对表达式的支持。你可以使用表达式来创建虚拟列，而不需要实际存储这些列的数据。这大大节省了内存空间，并提高了计算效率。

创建虚拟列：

df['col1_squared'] = df['col1']**2  # 创建一个虚拟列，值为 col1 的平方
df['col1_plus_col2'] = df['col1'] + df['col2'] # 创建一个虚拟列，值为 col1 + col2
df['log_col1'] = np.log(df['col1']) # 结合numpy使用

注意： 这些虚拟列并不会实际存储在内存中，而是在需要的时候才进行计算。

使用表达式进行过滤：

df[df['col1']**2 > 100]  # 使用表达式进行过滤
df[(df['col1'] > 10) & (np.log(df['col2']) < 5)] # 结合numpy使用

表达式的优势：
- 节省内存： 不需要存储计算结果，只存储表达式。
- 高效计算： Vaex 会对表达式进行优化，并利用多核 CPU 进行并行计算。
- 灵活性： 可以使用各种数学函数、字符串函数、日期函数等。

Vaex 的可视化功能

Vaex还提供了一些简单的可视化功能，可以让你快速探索数据。

绘制直方图：

df.plot1d('col1')  # 绘制 col1 的直方图
df.plot1d('col1', selection=df['col2'] > 20)  # 绘制 col1 的直方图，只选择 col2 大于 20 的数据

绘制散点图：

df.plot('col1', 'col2')  # 绘制 col1 和 col2 的散点图
df.plot('col1', 'col2', selection=df['col3'] == 'A')  # 绘制 col1 和 col2 的散点图，只选择 col3 等于 'A' 的数据

Vaex 与 Pandas 的对比

为了更直观地了解Vaex的优势，我们来对比一下Vaex和Pandas在处理大型数据集时的性能。

特性	Pandas	Vaex
内存占用	将整个数据集加载到内存中	使用内存映射，不加载整个数据集到内存中
计算方式	立即计算	延迟计算
处理速度	较慢，尤其是在处理大型数据集时	较快，尤其是在处理大型数据集时
可视化	功能丰富，但对大型数据集性能较差	功能相对简单，但对大型数据集性能较好
数据类型	支持多种数据类型	主要针对数值型数据，对字符串类型支持较弱
并行计算	默认不支持并行计算，需要手动实现	自动利用多核 CPU 进行并行计算

应用场景：用 Vaex 分析纽约出租车数据集

为了让你更好地理解Vaex的实际应用，我们以纽约出租车数据集为例，演示如何使用Vaex进行数据分析。

下载数据集：

纽约出租车数据集可以在网上找到，体积比较大，建议下载一个小一些的样本数据。

加载数据：

df = vaex.read_csv('yellow_tripdata_2015-01.csv',convert=True) # 请替换成你的csv文件名

数据探索：

print(df.head(5))
print(df.columns)
print(df.dtypes)

数据清洗：

# 过滤掉错误的经纬度数据
df = df[(df.pickup_longitude > -74.3) & (df.pickup_longitude < -73.7)]
df = df[(df.pickup_latitude > 40.5) & (df.pickup_latitude < 40.9)]
df = df[(df.dropoff_longitude > -74.3) & (df.dropoff_longitude < -73.7)]
df = df[(df.dropoff_latitude > 40.5) & (df.dropoff_latitude < 40.9)]

# 过滤掉错误的乘车时间数据
df = df[df.trip_duration > 60] # 乘车时间大于60秒
df = df[df.trip_duration < 3600*24] # 乘车时间小于24小时

特征工程：

# 计算乘车距离
df['distance'] = vaex.expression.expression.haversine(df.pickup_longitude, df.pickup_latitude, df.dropoff_longitude, df.dropoff_latitude)
# 计算平均速度
df['speed'] = df['distance'] / df['trip_duration']

数据分析：

# 统计不同时间段的乘车次数
df['pickup_datetime'] = vaex.date_parser.parse(df['tpep_pickup_datetime'])
df['hour'] = df['pickup_datetime'].dt.hour
df.groupby(df['hour'], agg={'count': vaex.agg.count()})

# 绘制乘车距离的直方图
df.plot1d('distance')

# 绘制乘车速度与乘车时间的散点图
df.plot('trip_duration', 'speed')

总结与展望

通过今天的讲座，相信你已经对Vaex有了初步的了解。Vaex作为一款高性能的 DataFrame 库，在处理大型数据集时具有显著的优势。它可以帮助你更高效地进行数据分析、数据挖掘和机器学习等任务。

当然，Vaex 也有一些不足之处，比如对字符串类型的支持较弱，可视化功能相对简单等。但是，随着Vaex的不断发展，相信这些问题也会得到逐步解决。

未来，Vaex 有望在以下方面取得更大的突破：

更强大的字符串处理能力： 支持更丰富的字符串函数和操作。
更丰富的可视化功能： 提供更多样化的图表类型和交互式可视化工具。
更便捷的机器学习接口： 与 Scikit-learn、TensorFlow 等机器学习库更好地集成。

希望今天的讲座对你有所帮助。如果你对Vaex感兴趣，不妨亲自尝试一下，相信你会被它的强大功能所折服！

练习题：

下载一个较大的 CSV 数据集（例如，1GB 以上），使用 Pandas 和 Vaex 分别加载，并比较加载时间和内存占用。
使用 Vaex 对数据集进行一些基本的数据清洗和特征工程操作，并绘制一些简单的图表。
尝试使用 Vaex 的表达式功能，创建一些虚拟列，并使用这些虚拟列进行数据分析。

祝你学习愉快！

发表回复 取消回复

发表回复取消回复