多级索引（MultiIndex）的创建与操作 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

多级索引：Pandas 数据江湖的百变面孔，你真的驯服了吗？

各位江湖少侠，老夫掐指一算，各位最近在 Pandas 数据江湖中闯荡，是不是经常被一种名叫“多级索引”（MultiIndex）的武功秘籍搞得头晕眼花？🤔

别担心，这玩意儿就像《天龙八部》里的易筋经，练好了能让你功力大增，数据处理效率翻倍；练不好…就只能抓耳挠腮，望洋兴叹了！ 😫

今天，老夫就来给各位好好讲解一下这门“多级索引”的绝世武功，保证各位听完之后，能轻松驾驭它，在数据江湖中纵横驰骋！

一、什么是多级索引？（先别急着翻白眼，听我细细道来）

在开始之前，咱们先来回顾一下 Pandas 里最基础的索引（Index）。它就像书本的目录，能让我们快速找到想要的内容。而多级索引，顾名思义，就是拥有多层目录的书本！📖

想象一下，你有一份全国各地水果销售的数据，普通的索引可能只有“水果名称”。但如果你想更精细地分析数据，比如按“省份”和“水果名称”两个维度进行统计，那普通的索引就Hold不住了。这时候，多级索引就派上用场了！它可以让你拥有“省份/水果名称”这样的复合索引，轻松实现复杂的数据筛选和分析。

说白了，多级索引就是让你的数据拥有了更精细的组织结构，能从不同的维度去切入，分析数据间的内在联系。

举个栗子：

假设我们有一个关于学生成绩的数据集，包含学生姓名、班级、科目和分数。如果我们想快速查找某个班级某个学生的某科成绩，用普通索引就比较麻烦。但如果使用多级索引，将班级和学生姓名设置为索引，就能轻松实现。

没有多级索引：

姓名	班级	科目	分数
张三	一班	语文	80
李四	一班	数学	90
王五	二班	语文	75
赵六	二班	数学	85

有多级索引：

班级	姓名	科目	分数
一班	张三	语文	80
	李四	数学	90
二班	王五	语文	75
	赵六	数学	85

你看，有了多级索引，数据结构是不是更清晰了？😎

二、多级索引的创建：从无到有，打造你的专属索引

创建多级索引的方法有很多，老夫精简成以下几种，方便各位少侠掌握：

1. 从列表或数组创建：

这是最基础的方法，就像用砖头一块块砌房子。你需要提供一个包含多个列表或数组的列表，每个列表代表索引的一层。

import pandas as pd

# 创建多级索引的列表
levels = [['一级', '一级', '二级', '二级'], ['A', 'B', 'A', 'B']]
labels = [[0, 0, 1, 1], [0, 1, 0, 1]] # levels中每个元素对应的索引位置

# 使用MultiIndex.from_arrays() 创建
multi_index = pd.MultiIndex.from_arrays(levels, names=['层级1', '层级2'])
print(multi_index)

输出：

MultiIndex([('一级', 'A'),
            ('一级', 'B'),
            ('二级', 'A'),
            ('二级', 'B')],
           names=['层级1', '层级2'])

代码解释：

levels：定义了每一层索引的取值。
names：给每一层索引命名，方便后续操作。

2. 从元组列表创建：

这种方法更简洁，直接将每一层索引的组合写成元组，然后组成一个列表。

import pandas as pd

# 创建元组列表
tuples = [('一级', 'A'), ('一级', 'B'), ('二级', 'A'), ('二级', 'B')]

# 使用MultiIndex.from_tuples()创建
multi_index = pd.MultiIndex.from_tuples(tuples, names=['层级1', '层级2'])
print(multi_index)

输出：

MultiIndex([('一级', 'A'),
            ('一级', 'B'),
            ('二级', 'A'),
            ('二级', 'B')],
           names=['层级1', '层级2'])

3. 从笛卡尔积创建：

如果你想让每一层索引的所有取值都进行组合，就像数学里的笛卡尔积，可以使用 MultiIndex.from_product() 方法。

import pandas as pd

# 创建索引值列表
level_1 = ['一级', '二级']
level_2 = ['A', 'B']

# 使用MultiIndex.from_product()创建
multi_index = pd.MultiIndex.from_product([level_1, level_2], names=['层级1', '层级2'])
print(multi_index)

输出：

MultiIndex([('一级', 'A'),
            ('一级', 'B'),
            ('二级', 'A'),
            ('二级', 'B')],
           names=['层级1', '层级2'])

4. 在创建 DataFrame 或 Series 时指定：

这是最常用的方法，直接在创建 DataFrame 或 Series 时，通过 index 参数指定多级索引。

import pandas as pd

# 创建数据
data = {'值': [1, 2, 3, 4]}

# 创建多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])

# 创建 DataFrame
df = pd.DataFrame(data, index=index)
print(df)

输出：

        值
层级1 层级2   
一级    A    1
      B    2
二级    A    3
      B    4

小结：

这几种方法各有千秋，你可以根据实际情况选择最适合你的。就像选择武器一样，顺手的才是最好的！ ⚔️

三、多级索引的操作：驾驭自如，玩转你的数据

有了多级索引，接下来就是如何操作它了。这部分才是真正的精华所在，老夫将逐一讲解：

1. 索引的选取：

单层索引选取：

就像普通索引一样，直接使用索引标签进行选取。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 选取 '一级' 对应的数据
print(df.loc['一级'])

输出：

多层索引选取：

使用元组来指定每一层索引的标签。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 选取 '一级' 和 'A' 对应的数据
print(df.loc[('一级', 'A')])

输出：

值    1
Name: (一级, A), dtype: int64

或者，可以使用 slice(None) 来选取某一层的全部数据。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 选取 '一级' 对应的所有数据
print(df.loc[('一级', slice(None)), :]) #  ":"代表所有列

输出：

        值
层级1 层级2   
一级    A    1
      B    2

2. 索引的切片：

多级索引的切片略有不同，需要使用 pd.IndexSlice 对象。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级', '三级'], ['A', 'B', 'C']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': range(9)}, index=index)

# 使用 pd.IndexSlice 进行切片
idx = pd.IndexSlice
print(df.loc[idx['一级':'二级', 'A':'B'], :])

输出：

           值
层级1 层级2   
一级    A    0
      B    1
二级    A    3
      B    4

代码解释：

idx = pd.IndexSlice：创建 pd.IndexSlice 对象。
df.loc[idx['一级':'二级', 'A':'B'], :]：选取 ‘层级1’ 中 ‘一级’ 到 ‘二级’，’层级2’ 中 ‘A’ 到 ‘B’ 的数据。

3. 索引的排序：

多级索引的排序非常重要，因为它可以提高后续操作的效率。可以使用 sort_index() 方法进行排序。

import pandas as pd

# 创建DataFrame，使用多级索引（故意不排序）
index = pd.MultiIndex.from_product([['二级', '一级'], ['B', 'A']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 排序索引
df = df.sort_index()
print(df)

输出：

        值
层级1 层级2   
一级    A    2
      B    1
二级    A    4
      B    3

4. 索引的层级交换：

有时候，你可能需要交换多级索引的层级顺序，可以使用 swaplevel() 方法。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 交换 '层级1' 和 '层级2' 的顺序
df = df.swaplevel('层级1', '层级2')
print(df)

输出：

        值
层级2 层级1   
A    一级    1
B    一级    2
A    二级    3
B    二级    4

5. 索引的堆叠与取消堆叠：

stack() 和 unstack() 方法可以将 DataFrame 的列转换为索引，或者将索引转换为列，这在数据透视表中非常有用。

stack()： 将列旋转为最内层的索引。

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'一级': ['A', 'A', 'B', 'B'], '二级': ['X', 'Y', 'X', 'Y'], '值': [1, 2, 3, 4]})

# 将 '一级' 和 '二级' 设置为索引
df = df.set_index(['一级', '二级'])

# 使用 stack() 将索引转换为列
stacked_df = df.stack()
print(stacked_df)

输出：

一级  二级       
A   X     值    1
    Y     值    2
B   X     值    3
    Y     值    4
dtype: int64

unstack()： 将最内层的索引旋转为列。

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'一级': ['A', 'A', 'B', 'B'], '二级': ['X', 'Y', 'X', 'Y'], '值': [1, 2, 3, 4]})

# 将 '一级' 和 '二级' 设置为索引
df = df.set_index(['一级', '二级'])

# 使用 stack() 将索引转换为列
stacked_df = df.stack()

# 使用 unstack() 将索引转换回列
unstacked_df = stacked_df.unstack()
print(unstacked_df)

输出：

    值
二级   X  Y
一级      
A    1  2
B    3  4

6. 索引的重置：

reset_index() 方法可以将索引转换为列，这在某些情况下非常有用。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 重置索引
df = df.reset_index()
print(df)

输出：

  层级1 层级2  值
0   一级   A   1
1   一级   B   2
2   二级   A   3
3   二级   B   4

7. 索引的名称修改：

可以使用 rename_axis() 方法修改索引的名称。

import pandas as pd

# 创建DataFrame，使用多级索引
index = pd.MultiIndex.from_product([['一级', '二级'], ['A', 'B']], names=['层级1', '层级2'])
df = pd.DataFrame({'值': [1, 2, 3, 4]}, index=index)

# 修改索引名称
df = df.rename_axis(['Level 1', 'Level 2'])
print(df)

输出：

        值
Level 1 Level 2   
一级      A    1
        B    2
二级      A    3
        B    4

总结：

多级索引的操作看似复杂，但只要掌握了核心方法，就能灵活运用。记住，实践才是检验真理的唯一标准！ 💪

四、多级索引的应用场景：数据分析的利器

多级索引并非花拳绣腿，它在实际的数据分析中有着广泛的应用。

1. 分层数据的聚合分析：

例如，分析不同地区不同产品的销售额，可以使用多级索引将地区和产品设置为索引，然后进行聚合分析。

import pandas as pd

# 创建示例数据
data = {'地区': ['北京', '北京', '上海', '上海'],
        '产品': ['A', 'B', 'A', 'B'],
        '销售额': [100, 200, 150, 250]}
df = pd.DataFrame(data)

# 将 '地区' 和 '产品' 设置为多级索引
df = df.set_index(['地区', '产品'])

# 计算每个地区的总销售额
print(df.groupby(level='地区').sum())

# 计算每个产品的总销售额
print(df.groupby(level='产品').sum())

2. 数据透视表的构建：

pivot_table() 函数可以根据指定的索引和列，将数据进行重塑，生成数据透视表。多级索引可以提供更灵活的透视维度。

import pandas as pd

# 创建示例数据
data = {'地区': ['北京', '北京', '上海', '上海'],
        '产品': ['A', 'B', 'A', 'B'],
        '年份': [2022, 2022, 2023, 2023],
        '销售额': [100, 200, 150, 250]}
df = pd.DataFrame(data)

# 创建数据透视表，以 '地区' 和 '产品' 为索引，'年份' 为列
pivot_table = pd.pivot_table(df, values='销售额', index=['地区', '产品'], columns='年份')
print(pivot_table)

3. 处理面板数据：

面板数据是指包含时间序列和截面数据的三维数据。多级索引可以方便地表示面板数据，例如，以股票代码和日期为索引，存储股票的价格数据。

4. 简化复杂的数据筛选：

相比于使用多个条件进行筛选，多级索引可以更简洁地实现复杂的数据筛选。

总之，多级索引是 Pandas 中一个强大的工具，可以帮助你更有效地组织、分析和处理数据。

五、多级索引的注意事项：避坑指南

虽然多级索引功能强大，但也有一些需要注意的地方，避免踩坑：

索引的顺序： 多级索引的顺序会影响数据的排序和选取，需要仔细考虑。
索引的唯一性： 多级索引可以包含重复的标签，但在某些情况下，需要保证索引的唯一性。
性能问题： 对于大型数据集，多级索引可能会影响性能，需要进行优化。
代码可读性： 复杂的多级索引操作可能会降低代码的可读性，需要添加注释进行解释。

六、总结：征服多级索引，成为数据英雄！

各位少侠，经过老夫的讲解，相信你们对 Pandas 的多级索引已经有了更深入的了解。记住，掌握这门武功秘籍，需要不断练习，才能真正做到驾驭自如。

多级索引就像一把锋利的宝剑，能帮助你披荆斩棘，在数据江湖中闯出一片天地。不要害怕它的复杂性，勇敢地去探索和实践，相信你一定能征服它，成为数据英雄！ 🏆

老夫就讲到这里，祝各位武运昌隆！ 💪

多级索引：Pandas 数据江湖的百变面孔，你真的驯服了吗？

一、 什么是多级索引？（先别急着翻白眼，听我细细道来）

二、 多级索引的创建：从无到有，打造你的专属索引

三、 多级索引的操作：驾驭自如，玩转你的数据

四、 多级索引的应用场景：数据分析的利器

五、 多级索引的注意事项：避坑指南

六、 总结：征服多级索引，成为数据英雄！

发表回复 取消回复

一、什么是多级索引？（先别急着翻白眼，听我细细道来）

二、多级索引的创建：从无到有，打造你的专属索引

三、多级索引的操作：驾驭自如，玩转你的数据

四、多级索引的应用场景：数据分析的利器

五、多级索引的注意事项：避坑指南

六、总结：征服多级索引，成为数据英雄！

发表回复取消回复