深入理解`Pandas`的`索引`机制：`MultiIndex`、`loc`和`iloc`的`性能`差异。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Pandas 索引机制深度解析：MultiIndex、loc 和 iloc 的性能差异

各位朋友，大家好！今天我们来深入探讨 Pandas 中至关重要的索引机制，特别是 MultiIndex、loc 和 iloc，以及它们在性能上的差异。掌握这些知识对于高效处理 Pandas 数据至关重要。

1. Pandas 索引的基础概念

在 Pandas 中，索引 (Index) 是用于访问 DataFrame 或 Series 中数据的标签。它可以是简单的数字、字符串，也可以是更复杂的 MultiIndex。索引的主要作用是：

数据对齐： Pandas 能够根据索引自动对齐数据，这在合并、连接数据时非常有用。
数据选择： 索引允许我们使用标签或位置来选择特定的数据子集。
数据重塑： 索引可以用于重塑数据的结构，例如通过 pivot 或 stack 操作。

2. MultiIndex：分层索引的强大力量

MultiIndex 是一种分层索引，也称为层次化索引。它允许我们使用多个级别（levels）来组织数据，从而更有效地表示和处理复杂的数据结构。

2.1 创建 MultiIndex

MultiIndex 可以通过多种方式创建：

from_tuples： 从元组列表创建。

import pandas as pd

index = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2)],
                                names=['letter', 'number'])
df = pd.DataFrame({'data': range(4)}, index=index)
print(df)

输出：

            data
letter number      
A      1         0
       2         1
B      1         2
       2         3

from_arrays： 从数组列表创建。

arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]]
index = pd.MultiIndex.from_arrays(arrays, names=['letter', 'number'])
df = pd.DataFrame({'data': range(4)}, index=index)
print(df)

输出同上。

from_product： 从多个可迭代对象的笛卡尔积创建。

letters = ['A', 'B']
numbers = [1, 2]
index = pd.MultiIndex.from_product([letters, numbers], names=['letter', 'number'])
df = pd.DataFrame({'data': range(4)}, index=index)
print(df)

输出同上。

DataFrame.set_index： 从 DataFrame 的列创建。

df = pd.DataFrame({'letter': ['A', 'A', 'B', 'B'],
                   'number': [1, 2, 1, 2],
                   'data': range(4)})
df = df.set_index(['letter', 'number'])
print(df)

输出同上。

2.2 MultiIndex 的优势

结构化数据表示： MultiIndex 能够更清晰地表示具有层次结构的数据，例如时间序列数据（年、月、日）、地理数据（国家、省份、城市）等。
灵活的数据选择： MultiIndex 提供了灵活的数据选择方法，可以根据单个层级或多个层级的组合进行选择。
高效的数据操作： 某些 Pandas 操作，例如 groupby 和 unstack，可以更高效地处理具有 MultiIndex 的数据。

3. loc 和 iloc：索引的两种方式

loc 和 iloc 是 Pandas 中用于数据选择的两种主要方法，它们基于不同的索引方式：

loc： 基于标签 (label) 进行索引。使用 loc 时，我们需要提供索引的标签值来选择数据。
iloc： 基于位置 (integer position) 进行索引。使用 iloc 时，我们需要提供整数位置来选择数据，类似于 Python 列表的索引方式。

3.1 使用 loc 进行索引

# 单层索引
df = pd.DataFrame({'data': range(5)}, index=['A', 'B', 'C', 'D', 'E'])
print(df.loc['B'])

# MultiIndex
index = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2)],
                                names=['letter', 'number'])
df = pd.DataFrame({'data': range(4)}, index=index)
print(df.loc[('A', 1)]) # 选择特定标签的数据
print(df.loc['A']) # 选择第一层级标签为'A'的所有数据
print(df.loc[('A', 1):('B', 1)]) #切片操作

3.2 使用 iloc 进行索引

# 单层索引
df = pd.DataFrame({'data': range(5)}, index=['A', 'B', 'C', 'D', 'E'])
print(df.iloc[1]) # 选择第二行数据

# MultiIndex
index = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2)],
                                names=['letter', 'number'])
df = pd.DataFrame({'data': range(4)}, index=index)
print(df.iloc[1]) # 选择第二行数据

3.3 loc 和 iloc 的区别总结

特性	`loc`	`iloc`
索引方式	基于标签 (label)	基于位置 (integer position)
数据类型	可以是字符串、数字、切片、布尔数组等	只能是整数、切片、布尔数组等
包含末端	切片包含末端 (endpoint included)	切片不包含末端 (endpoint excluded)
适用场景	当你知道索引的标签值时	当你知道索引的位置时

4. 性能差异分析

loc 和 iloc 在性能上存在差异，这种差异在处理大数据集时尤为明显。

4.1 索引类型的影响

整数索引： 如果索引是整数类型，loc 和 iloc 的性能可能相似，因为 loc 也会尝试将整数解释为标签。但是，如果存在歧义（例如，既有整数索引，又有字符串索引），则可能会导致意外的结果。
非整数索引： 如果索引是非整数类型（例如字符串），loc 的性能通常优于 iloc，因为 loc 可以直接使用哈希表查找标签。iloc 需要将标签转换为位置，这会增加额外的开销。
MultiIndex： 对于 MultiIndex，loc 的性能优势更加明显，因为它能够利用 MultiIndex 的层次结构进行高效查找。

4.2 数据大小的影响

随着数据量的增加，loc 和 iloc 的性能差异会更加明显。对于大型数据集，loc 的优势通常更加突出。

4.3 性能测试

下面我们通过一个简单的性能测试来比较 loc 和 iloc 的性能。

import pandas as pd
import numpy as np
import time

# 创建一个大型 DataFrame
rows = 100000
cols = 10
data = np.random.rand(rows, cols)
df = pd.DataFrame(data, index=range(rows))

# 使用 loc 进行索引
start_time = time.time()
df.loc[50000]
loc_time = time.time() - start_time

# 使用 iloc 进行索引
start_time = time.time()
df.iloc[50000]
iloc_time = time.time() - start_time

print(f"loc time: {loc_time:.6f} seconds")
print(f"iloc time: {iloc_time:.6f} seconds")

# 使用字符串索引的 DataFrame
df_str = pd.DataFrame(data, index=[str(i) for i in range(rows)])

# 使用 loc 进行索引
start_time = time.time()
df_str.loc['50000']
loc_str_time = time.time() - start_time

# 使用 iloc 进行索引
start_time = time.time()
df_str.iloc[50000]
iloc_str_time = time.time() - start_time

print(f"loc (string index) time: {loc_str_time:.6f} seconds")
print(f"iloc (string index) time: {iloc_str_time:.6f} seconds")

# 使用 MultiIndex
index = pd.MultiIndex.from_product([range(100), range(1000)], names=['level1', 'level2'])
df_multi = pd.DataFrame(np.random.rand(100000, 1), index=index)

# 使用 loc 进行索引
start_time = time.time()
df_multi.loc[(50, 500)]
loc_multi_time = time.time() - start_time

# 使用 iloc 进行索引
start_time = time.time()
df_multi.iloc[50500]
iloc_multi_time = time.time() - start_time

print(f"loc (MultiIndex) time: {loc_multi_time:.6f} seconds")
print(f"iloc (MultiIndex) time: {iloc_multi_time:.6f} seconds")

4.4 性能优化的建议

尽可能使用 loc： 在已知标签值的情况下，尽可能使用 loc 进行数据选择，尤其是在处理大型数据集和非整数索引时。
避免混合索引： 尽量避免在 DataFrame 中混合使用整数索引和非整数索引，这可能会导致 loc 的行为不确定。
使用 MultiIndex 进行优化： 如果数据具有层次结构，使用 MultiIndex 可以提高数据选择和操作的效率。
向量化操作： 尽量使用 Pandas 的向量化操作，而不是循环遍历数据，这可以显著提高性能。例如，使用df['new_column'] = df['column1'] + df['column2']而不是用循环来计算新列的值。
避免链式索引： 避免使用链式索引，例如 df['column1'][df['column2'] > 0]。链式索引会导致 Pandas 创建临时对象，从而降低性能。应该使用 df.loc[df['column2'] > 0, 'column1'] 代替。

5. 其他相关方法：.at 和 .iat

类似于 loc 和 iloc，Pandas 还提供了 .at 和 .iat 方法用于访问单个元素：

.at：基于标签访问单个元素。
.iat：基于位置访问单个元素。

.at 和 .iat 通常比 loc 和 iloc 更快，因为它们专门用于访问单个元素，避免了额外的开销。但是，它们不能用于切片或选择多个元素。

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['x', 'y', 'z'])
print(df.at['x', 'A'])  # 输出 1
print(df.iat[0, 0])  # 输出 1

6. Index.get_loc 方法

Index.get_loc 是一个强大的方法，用于获取指定标签在索引中的整数位置。这在需要将标签转换为位置时非常有用，特别是在自定义函数中。

index = pd.Index(['apple', 'banana', 'cherry'])
print(index.get_loc('banana'))  # 输出 1

multi_index = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1)], names=['letter', 'number'])
print(multi_index.get_loc(('A', 2))) # 输出 1

7. 使用 isin 进行过滤

isin 方法允许我们根据索引值是否在一个给定的列表中来过滤数据。这对于选择具有特定索引值的行非常有效。

df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]}, index=['A', 'B', 'C'])
filtered_df = df[df.index.isin(['A', 'C'])]
print(filtered_df)

8. 总结：选择合适的索引方法，提升数据处理效率

今天我们深入探讨了 Pandas 的索引机制，包括 MultiIndex 的创建和使用，以及 loc 和 iloc 的性能差异。在实际应用中，我们需要根据具体情况选择合适的索引方法，以实现高效的数据处理。记住，loc 通常在已知标签的情况下更有效，尤其是在处理大型数据集时。

Pandas 索引机制深度解析：MultiIndex、loc 和 iloc 的性能差异

发表回复 取消回复

发表回复取消回复