Pandas `Categorical` 数据类型：内存优化与性能提升 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Pandas `Categorical` 数据类型：内存优化与性能提升 (别再让你的电脑哭泣了!)

各位观众老爷们，晚上好！我是你们的老朋友，数据老司机。今天咱们不飙车，聊点实在的——Pandas Categorical 数据类型。

你是不是经常遇到这样的情况：兴致勃勃地导入一个数据集，准备大展拳脚，结果…电脑开始疯狂咆哮，风扇呼呼作响，最后直接罢工？ 🤯 别慌！今天我就教你一招，用Categorical数据类型，让你的电脑瞬间冷静下来，数据分析速度嗖嗖起飞!

想象一下，你手里有一份包含全国人民性别信息的数据集，几百万甚至上千万条数据，但性别嘛，无非就“男”和“女”两种。你用object (也就是字符串) 类型存储，每个"男"和"女"都要占据相当的内存空间，简直是赤裸裸的浪费！这就好比你用豪华别墅来存放两件衣服，简直暴殄天物！

这时候，Categorical数据类型就如同一个精巧的衣柜，它将你的数据分类整理，只存储类别信息，然后用一个索引来指向这些类别。这样一来，同样的数据，占用的空间大大减少，查询速度也更快了！是不是感觉打开了新世界的大门？ 🚪

什么是 Pandas `Categorical` 数据类型？

简单来说，Categorical是一种Pandas数据类型，用于表示有限的、通常是重复的数据。它本质上是一种枚举类型，将数据值映射到预定义的类别（categories）。

核心概念:

Categories (类别): 所有可能的取值集合。例如，性别数据的类别是 ["男", "女"]。
Codes (代码): 每个数据值在类别列表中的索引。例如，"男" 可能被编码为 0，"女" 被编码为 1。

举个栗子 (Example):

假设我们有以下数据：

import pandas as pd

data = ['A', 'B', 'C', 'A', 'B', 'A']
df = pd.DataFrame({'letter': data})
print(df)

输出：

如果我们将其转换为 Categorical 类型：

df['letter'] = df['letter'].astype('category')
print(df['letter'])

输出：

0    A
1    B
2    C
3    A
4    B
5    A
Name: letter, dtype: category
Categories (3, object): ['A', 'B', 'C']

可以看到，letter 列现在是 category 类型，并且显示了类别信息： Categories (3, object): ['A', 'B', 'C']。 Pandas内部会用数字代码 (0, 1, 2) 来表示 ‘A’, ‘B’, ‘C’，从而节省内存。

`Categorical` 的优势：内存优化

这是 Categorical 最显著的优势。它通过将重复的字符串值替换为更小的整数代码，从而减少内存占用。

实战演示:

我们来对比一下使用 object 和 category 的内存占用情况。

import pandas as pd
import numpy as np

# 创建一个包含重复值的 DataFrame
data = ['apple', 'banana', 'orange'] * 1000000
df_object = pd.DataFrame({'fruit': data})
df_category = df_object.copy()
df_category['fruit'] = df_category['fruit'].astype('category')

# 查看内存占用
object_memory = df_object.memory_usage(deep=True).sum() / 1024**2
category_memory = df_category.memory_usage(deep=True).sum() / 1024**2

print(f"Object 类型内存占用: {object_memory:.2f} MB")
print(f"Category 类型内存占用: {category_memory:.2f} MB")

运行结果会让你大吃一惊！ Category 类型通常能节省 50% 甚至更多的内存空间。 🎉

表格总结:

数据类型	内存占用情况	适用场景
`object`	占用空间大	字符串长度变化较大，类别数量较多，不重复的数据。
`category`	占用空间小	字符串长度固定或变化不大，类别数量有限且重复度高的数据。

小贴士: 对于类别数量远远小于数据总量的列，使用 category 类型效果最佳。

`Categorical` 的优势：性能提升

除了内存优化，Categorical 类型还能显著提升性能，尤其是在以下场景：

分组 (Grouping): groupby() 操作在 Categorical 列上速度更快，因为 Pandas 可以直接使用类别代码进行分组，而不需要比较字符串。
排序 (Sorting): 排序操作也更快，因为比较整数代码比比较字符串更快。
统计 (Statistics): 计算唯一值 ( nunique() )、频率 ( value_counts() ) 等统计信息也更快。

实战演示:

我们来对比一下使用 object 和 category 在 groupby() 操作上的性能差异。

import pandas as pd
import numpy as np
import time

# 创建一个包含重复值的 DataFrame
data = ['apple', 'banana', 'orange'] * 1000000
df_object = pd.DataFrame({'fruit': data, 'value': np.random.rand(len(data))})
df_category = df_object.copy()
df_category['fruit'] = df_category['fruit'].astype('category')

# Object 类型的 groupby
start_time = time.time()
df_object.groupby('fruit')['value'].mean()
object_time = time.time() - start_time

# Category 类型的 groupby
start_time = time.time()
df_category.groupby('fruit')['value'].mean()
category_time = time.time() - start_time

print(f"Object 类型 groupby 耗时: {object_time:.4f} 秒")
print(f"Category 类型 groupby 耗时: {category_time:.4f} 秒")

通常情况下，Category 类型的 groupby() 操作会比 Object 类型快很多。 🚀

`Categorical` 的高级用法

Categorical 不仅仅是简单的类型转换，它还提供了一些高级功能，可以让你更灵活地处理数据。

指定类别 (Specifying Categories):

你可以手动指定类别列表，即使数据中不存在某些类别。这在处理缺失数据或确保数据一致性时非常有用。

data = ['A', 'B', 'C', 'A']
categories = ['A', 'B', 'C', 'D']  # 包含 'D' 但数据中没有
s = pd.Series(data, dtype=pd.CategoricalDtype(categories=categories))
print(s)

输出：

0    A
1    B
2    C
3    A
dtype: category
Categories (4, object): ['A', 'B', 'C', 'D']

排序 (Ordering):

默认情况下，Categorical 的排序是基于类别的字母顺序。你可以指定 ordered=True 来启用有序类别，并自定义排序规则。

data = ['low', 'medium', 'high', 'low']
categories = ['low', 'medium', 'high']
s = pd.Series(data, dtype=pd.CategoricalDtype(categories=categories, ordered=True))
print(s.sort_values())

输出：

0       low
3       low
1    medium
2      high
dtype: category
Categories (3, object): ['low' < 'medium' < 'high']

有了有序类别，你可以进行大小比较，例如 s > 'medium'。

重命名类别 (Renaming Categories):

可以使用 rename_categories() 方法来重命名类别。

data = ['A', 'B', 'C', 'A']
s = pd.Series(data, dtype='category')
s = s.cat.rename_categories({'A': 'Apple', 'B': 'Banana', 'C': 'Cherry'})
print(s)

输出：

0     Apple
1    Banana
2    Cherry
3     Apple
dtype: category
Categories (3, object): ['Apple', 'Banana', 'Cherry']

`Categorical` 的注意事项

虽然 Categorical 优点多多，但也有一些需要注意的地方：

内存占用并非总是更小: 如果类别数量接近数据总量，使用 Categorical 可能不会节省太多内存，甚至可能增加内存占用。
数据类型限制: Categorical 主要用于字符串和数字类型。对于其他复杂类型，效果可能不佳。
与某些函数不兼容: 某些 Pandas 函数可能不支持 Categorical 类型，需要先转换回 object 类型。

使用 `Categorical` 的最佳实践

分析数据: 在使用 Categorical 之前，先分析数据的类别数量和重复程度，判断是否适合使用 Categorical。
尽早转换: 在数据导入后，尽早将适合的列转换为 Categorical 类型，可以避免后续操作中的性能瓶颈。
谨慎处理缺失值: 缺失值 (NaN) 会被视为一个独立的类别。根据实际情况，可以选择填充缺失值或者将其排除在类别之外。
测试性能: 在大型数据集上，测试使用 Categorical 后的性能提升，确保达到预期效果。

总结

Categorical 数据类型是 Pandas 中一个强大的工具，可以显著优化内存占用和提升性能。它尤其适用于处理包含重复值和有限类别的列。只要掌握了它的核心概念和高级用法，你就能在数据分析的道路上更上一层楼！ 🚀

记住，数据分析的秘诀在于：找到瓶颈，对症下药！ 希望今天的分享能帮助你更好地驾驭 Pandas，让你的数据分析之旅更加轻松愉快！感谢各位的观看，我们下期再见！ 😉

Pandas Categorical 数据类型：内存优化与性能提升 (别再让你的电脑哭泣了!)

什么是 Pandas Categorical 数据类型？

Categorical 的优势：内存优化

Categorical 的优势：性能提升

Categorical 的高级用法

Categorical 的注意事项

使用 Categorical 的最佳实践

总结

发表回复 取消回复