Python高级技术之：如何利用`Pandas`的`multi-index`，处理复杂的多维数据。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷们，晚上好！欢迎来到“Python高级技术之Pandas Multi-Index奇妙夜”。今天咱们要聊聊Pandas里的一个高级玩意儿，叫“Multi-Index”，也就是多层索引。别被这个名字吓到，其实它就是个帮你处理复杂数据的神器。想象一下，如果你要分析一个销售数据，这个数据既按地区分，又按产品类别分，还按年份分，这时候，传统的单层索引就有点力不从心了。 Multi-Index就像一个数据魔方，能让你从各个维度去切片、分析数据，非常灵活。

一、什么是Multi-Index？

简单来说，Multi-Index就是在DataFrame或Series中使用多个索引级别。就像一本书的目录，第一层是章节，第二层是小节，第三层是段落。通过这种多层结构，你可以更清晰地组织和访问数据。

二、为什么要用Multi-Index？

处理复杂数据： 当你的数据有多个维度时，Multi-Index可以让你更容易地进行数据透视、分组和聚合。
提高数据可读性： Multi-Index可以更清晰地展示数据的层次结构，让数据更容易理解。
简化数据操作： Multi-Index提供了一些专门的方法，可以让你更方便地进行数据切片、选择和更新。

三、如何创建Multi-Index？

创建Multi-Index的方法有很多，我们逐一来看：

使用pd.MultiIndex.from_tuples()： 这是最直接的方法，你可以直接传入一个元组列表来创建Multi-Index。

import pandas as pd

# 假设我们有以下数据，表示不同地区不同产品的销量
data = {
    ('North', 'Electronics'): 100,
    ('North', 'Clothing'): 50,
    ('South', 'Electronics'): 80,
    ('South', 'Clothing'): 120,
    ('East', 'Electronics'): 90,
    ('East', 'Clothing'): 70,
    ('West', 'Electronics'): 110,
    ('West', 'Clothing'): 60
}

# 创建一个Series，并使用MultiIndex
index = pd.MultiIndex.from_tuples(data.keys(), names=['Region', 'Product'])
sales = pd.Series(data.values(), index=index)

print(sales)

这段代码会输出：

Region  Product
North   Electronics    100
        Clothing        50
South   Electronics     80
        Clothing       120
East    Electronics     90
        Clothing        70
West    Electronics    110
        Clothing        60
dtype: int64

你看，我们成功创建了一个带有两层索引的Series。 names参数可以给每个索引级别命名。

使用pd.MultiIndex.from_arrays()： 这种方法允许你分别传入数组来创建Multi-Index。

regions = ['North', 'North', 'South', 'South', 'East', 'East', 'West', 'West']
products = ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Electronics', 'Clothing', 'Electronics', 'Clothing']
sales_values = [100, 50, 80, 120, 90, 70, 110, 60]

index = pd.MultiIndex.from_arrays([regions, products], names=['Region', 'Product'])
sales = pd.Series(sales_values, index=index)

print(sales)

输出结果和上面一样。这种方法在你的数据已经分成多个数组时非常有用。

使用pd.MultiIndex.from_product()： 这种方法可以从多个可迭代对象的笛卡尔积中创建Multi-Index。简单来说，就是把所有可能的组合都列出来。

regions = ['North', 'South', 'East', 'West']
products = ['Electronics', 'Clothing']

index = pd.MultiIndex.from_product([regions, products], names=['Region', 'Product'])
sales = pd.Series(index=index) # 先创建一个空的Series，后面再填充数据

print(sales)

输出结果是：

Region  Product
North   Electronics    NaN
        Clothing       NaN
South   Electronics    NaN
        Clothing       NaN
East    Electronics    NaN
        Clothing       NaN
West    Electronics    NaN
        Clothing       NaN
dtype: object

注意这里我们创建了一个空的Series，因为from_product只负责创建索引，不负责填充数据。

在DataFrame中使用set_index()： 这是最常用的方法，你可以直接将DataFrame的多个列设置为索引。

data = {
    'Region': ['North', 'North', 'South', 'South', 'East', 'East', 'West', 'West'],
    'Product': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Electronics', 'Clothing', 'Electronics', 'Clothing'],
    'Sales': [100, 50, 80, 120, 90, 70, 110, 60]
}

df = pd.DataFrame(data)
df = df.set_index(['Region', 'Product'])

print(df)

输出结果是：

                 Sales
Region Product
North  Electronics    100
       Clothing        50
South  Electronics     80
       Clothing       120
East   Electronics     90
       Clothing        70
West   Electronics    110
       Clothing        60

这种方法是最灵活的，因为你可以先处理好数据，然后再设置索引。

四、如何访问Multi-Index数据？

有了Multi-Index，接下来就是如何访问数据了。这也是Multi-Index最强大的地方。

使用loc[]： 这是最常用的方法，你可以通过指定索引值来访问数据。

# 访问North地区的Electronics产品的销量
print(sales.loc[('North', 'Electronics')]) # Output: 100

# 访问所有地区的Electronics产品的销量
print(sales.loc[(slice(None), 'Electronics')]) #Output: Region  Product
#North   Electronics    100
#South   Electronics     80
#East    Electronics     90
#West    Electronics    110
#dtype: int64

#访问North地区的所有产品销量
print(sales.loc['North'])
#Product
#Electronics    100
#Clothing        50
#dtype: int64

注意slice(None)表示选择所有值。

使用xs()： 这种方法可以更方便地选择特定级别的所有数据。

# 访问所有地区的Electronics产品的销量
print(sales.xs('Electronics', level='Product'))

#访问North地区的所有产品销量
print(sales.xs('North', level='Region'))

level参数用于指定要选择的索引级别。

使用get_level_values()： 这种方法可以获取特定索引级别的所有值。
```
# 获取所有Region的值
print(sales.index.get_level_values('Region'))
```
这个方法在需要对索引进行一些特殊处理时非常有用。

五、 Multi-Index的常用操作

除了访问数据，Multi-Index还支持一些常用的操作，可以让你更方便地处理数据。

stack()和unstack()： 这两个方法用于将DataFrame的列转换为索引，或者将索引转换为列。它们是数据透视的利器。

data = {
    'Region': ['North', 'North', 'South', 'South'],
    'Product': ['Electronics', 'Clothing', 'Electronics', 'Clothing'],
    'Year': [2022, 2022, 2022, 2022],
    'Sales': [100, 50, 80, 120]
}

df = pd.DataFrame(data)
df = df.set_index(['Region', 'Product'])

# 将Product索引转换为列
unstacked_df = df.unstack(level='Product')
print(unstacked_df)

#将Product列转换为索引
stacked_df = unstacked_df.stack(level='Product')
print(stacked_df)

unstack()会将指定级别的索引“旋转”成列，而stack()则会将列“旋转”成索引。

swaplevel()： 这种方法用于交换两个索引级别的顺序。
```
new_index = sales.swaplevel('Region', 'Product')
print(new_index)
```
这个方法在需要调整索引顺序时非常有用。
sort_index()： 这种方法用于对Multi-Index进行排序。
```
sorted_sales = sales.sort_index()
print(sorted_sales)
```
排序后的数据更容易查找和分析。
groupby()： 分组操作，和单层索引一样，MultiIndex也可以使用groupby，进行分组聚合。
```
#按Region分组求和
grouped_sales = sales.groupby(level='Region').sum()
print(grouped_sales)
```

六、实战案例：分析销售数据

光说不练假把式，我们来看一个实战案例。假设我们有一份销售数据，包含地区、产品类别和年份三个维度。我们要分析不同地区、不同产品类别在不同年份的销售额。

import pandas as pd
import numpy as np

# 创建一些随机数据
np.random.seed(42)  # 设置随机种子，保证每次运行结果一致

regions = ['North', 'South', 'East', 'West']
products = ['Electronics', 'Clothing', 'Furniture']
years = [2021, 2022, 2023]

# 创建一个MultiIndex
index = pd.MultiIndex.from_product([regions, products, years], names=['Region', 'Product', 'Year'])

# 创建一个DataFrame
sales = pd.DataFrame({'Sales': np.random.randint(50, 200, len(index))}, index=index)

print(sales)

首先，我们生成了一份包含随机销售额的DataFrame，并使用from_product创建了一个三层索引。接下来，我们可以进行各种分析：

按地区统计总销售额：

region_sales = sales.groupby(level='Region').sum()
print(region_sales)

按产品类别统计总销售额：

product_sales = sales.groupby(level='Product').sum()
print(product_sales)

按年份统计总销售额：

year_sales = sales.groupby(level='Year').sum()
print(year_sales)

统计每个地区，每种产品在不同年份的销售额，并将结果进行透视：
```
pivot_sales = sales.unstack(level='Year')
print(pivot_sales)
```
这个操作可以将年份作为列，更直观地展示不同地区、不同产品的销售额变化。

七、 Multi-Index的注意事项

性能： Multi-Index虽然强大，但也会带来一些性能上的开销。如果你的数据量非常大，建议先对数据进行过滤，再使用Multi-Index。
内存占用： Multi-Index会占用更多的内存，因为需要存储多个索引级别。
复杂性： Multi-Index会让代码变得更复杂，需要仔细设计索引结构。

八、总结

Multi-Index是Pandas中一个非常有用的工具，可以让你更方便地处理复杂的多维数据。掌握Multi-Index，可以让你在数据分析的道路上更上一层楼。虽然它有一些缺点，但只要合理使用，就能发挥出强大的威力。记住，熟能生巧，多练习，多实践，你也能成为Multi-Index的高手！

九、一些额外的思考

Multi-Index和关系型数据库： Multi-Index可以看作是关系型数据库中复合主键的一种体现。理解关系型数据库的概念，可以帮助你更好地理解Multi-Index。
Multi-Index和数据建模： Multi-Index可以帮助你更好地理解数据的结构，从而更好地进行数据建模。
Multi-Index和其他Pandas特性： Multi-Index可以和其他Pandas特性（如pivot_table、crosstab）结合使用，实现更复杂的数据分析。

好了，今天的“Python高级技术之Pandas Multi-Index奇妙夜”就到这里了。感谢各位观众老爷的观看，希望大家有所收获！咱们下期再见！

表格总结：Multi-Index的创建方法

方法	说明	示例
`pd.MultiIndex.from_tuples()`	从元组列表创建Multi-Index	`index = pd.MultiIndex.from_tuples([('North', 'Electronics'), ('South', 'Clothing')], names=['Region', 'Product'])`
`pd.MultiIndex.from_arrays()`	从数组列表创建Multi-Index	`index = pd.MultiIndex.from_arrays([['North', 'South'], ['Electronics', 'Clothing']], names=['Region', 'Product'])`
`pd.MultiIndex.from_product()`	从可迭代对象的笛卡尔积创建Multi-Index	`index = pd.MultiIndex.from_product([['North', 'South'], ['Electronics', 'Clothing']], names=['Region', 'Product'])`
`DataFrame.set_index()`	将DataFrame的多个列设置为索引	`df = pd.DataFrame({'Region': ['North', 'South'], 'Product': ['Electronics', 'Clothing'], 'Sales': [100, 120]}); df = df.set_index(['Region', 'Product'])`

表格总结：Multi-Index的常用操作

操作	说明	示例
`loc[]`	通过指定索引值访问数据	`sales.loc[('North', 'Electronics')]`
`xs()`	选择特定级别的所有数据	`sales.xs('Electronics', level='Product')`
`get_level_values()`	获取特定索引级别的所有值	`sales.index.get_level_values('Region')`
`stack()`	将DataFrame的列转换为索引	`df.unstack(level='Product')`
`unstack()`	将索引转换为列	`df.stack(level='Product')`
`swaplevel()`	交换两个索引级别的顺序	`sales.swaplevel('Region', 'Product')`
`sort_index()`	对Multi-Index进行排序	`sales.sort_index()`
`groupby()`	分组操作，和单层索引一样，MultiIndex也可以使用groupby，进行分组聚合。	`sales.groupby(level='Region').sum()`

希望这些表格能帮助你更好地理解和使用Multi-Index。祝大家学习愉快！

发表回复 取消回复

发表回复取消回复