Pandas 数据处理：DataFrame 高效操作与数据清洗 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Alright, buckle up buttercups! 🤠 今天咱们要聊聊Pandas里的DataFrame，这玩意儿就像Excel的超级赛亚人版，能让你在数据处理的宇宙里横着走！准备好了吗？Let’s dive in!

第一章：DataFrame驾到！认识这位数据界的大佬

首先，咱们得先认识一下这位数据界的重量级选手——DataFrame。想象一下，你面前有一张表格，上面有行有列，每一列代表不同的属性（比如姓名、年龄、工资），每一行代表一个记录（比如一个员工的信息）。这就是DataFrame！

它长啥样？

DataFrame本质上是一个二维的、大小可变的、潜在异构的数据结构。说白了，就是行和列可以有不同的数据类型，比如数字、字符串、日期等等。这种灵活性让它能够处理各种复杂的数据。
为啥要用它？
- 效率！效率！还是效率！ 对于大型数据集，Pandas的DataFrame操作通常比手写循环快几个数量级。这可不是吹牛，是真的！
- 功能强大！ DataFrame提供了各种数据清洗、转换、分析的功能，就像一个瑞士军刀，总能找到你需要的工具。
- 易于使用！ 虽然功能强大，但Pandas的设计理念是让数据处理变得简单直观。你不需要写复杂的算法，只需调用几个函数就能完成很多任务。
创建DataFrame的N种姿势
- 从字典创建： 这是最常用的方法之一。你可以把数据组织成字典，然后传给DataFrame构造函数。
```
import pandas as pd

data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [30, 25, 35],
        '工资': [8000, 6000, 10000]}
df = pd.DataFrame(data)
print(df)
```
  输出：
```
  姓名  年龄     工资
0  张三  30   8000
1  李四  25   6000
2  王五  35  10000
```
  就像变魔术一样，字典摇身一变成了整齐的表格！✨
- 从列表创建： 如果你喜欢列表，也可以用列表来创建DataFrame。
```
data = [['张三', 30, 8000],
        ['李四', 25, 6000],
        ['王五', 35, 10000]]
df = pd.DataFrame(data, columns=['姓名', '年龄', '工资'])
print(df)
```
  注意，这里需要指定列名 columns。
- 从CSV文件读取： 这是处理外部数据的常用方法。
```
df = pd.read_csv('your_data.csv') # 替换成你的CSV文件路径
print(df.head()) # 查看前几行数据
```
  read_csv 函数会自动帮你解析CSV文件，并生成DataFrame。记得把 your_data.csv 换成你自己的文件路径哦！
- 从Excel文件读取： 类似CSV，Pandas也能读取Excel文件。
```
df = pd.read_excel('your_data.xlsx') # 替换成你的Excel文件路径
print(df.head())
```
  read_excel 函数可以将Excel文件读入为DataFrame。

第二章：DataFrame高效操作：让数据飞起来！

现在我们已经有了DataFrame，接下来要学习如何高效地操作它。这才是真正的重头戏！

索引和选择：像玩乐高一样灵活
- 按列选择： 选择一列就像从表格里抽出一根柱子。
```
names = df['姓名'] # 选择 '姓名' 列
print(names)
```
  这会返回一个Series对象，可以把它看作是DataFrame的一列。
- 按行选择：
  - .loc： 基于标签（label）进行选择。想象一下，每行都有一个名字（索引），你可以用这个名字来找到它。
```
df.loc[0] # 选择索引为 0 的行
```
  - .iloc： 基于整数位置（integer position）进行选择。就像数组的索引一样，从0开始计数。
```
df.iloc[0] # 选择第一行
```
    一定要记住 .loc 用的是标签，.iloc 用的是位置！别搞混了，不然你会看到一堆错误信息，就像看到了魔鬼一样。👹
- 花式索引： 把行和列的选择结合起来，就像玩乐高一样。
```
df.loc[0, '姓名'] # 选择索引为 0 的行的 '姓名' 列
df.iloc[0, 0] # 选择第一行第一列
```
  灵活运用 .loc 和 .iloc，你可以像切蛋糕一样随意切割DataFrame。 🍰
- 布尔索引： 这是筛选数据的神器！你可以用一个布尔条件来选择满足条件的行。
```
# 选择年龄大于 30 的员工
older_employees = df[df['年龄'] > 30]
print(older_employees)
```
```
# 选择工资大于 8000 且年龄小于 35 的员工
rich_young_employees = df[(df['工资'] > 8000) & (df['年龄'] < 35)]
print(rich_young_employees)
```
  注意：多个条件要用 & (and) 或 | (or) 连接，并且每个条件要用括号括起来。不然Python会告诉你它很困惑，就像你没吃早餐一样。 😴
修改DataFrame：改头换面，焕然一新
- 修改列名： 如果你的列名太长或者不规范，可以用 rename 函数来修改。
```
df = df.rename(columns={'姓名': 'Name', '年龄': 'Age', '工资': 'Salary'})
print(df.head())
```
  也可以直接修改 df.columns 属性：
```
df.columns = ['Name', 'Age', 'Salary']
print(df.head())
```
- 增加列： 增加一列就像给表格添加一根新的柱子。
```
df['职称'] = ['工程师', '设计师', '经理'] # 增加 '职称' 列
print(df.head())
```
  也可以基于现有列计算新列：
```
df['年薪'] = df['Salary'] * 12 # 增加 '年薪' 列
print(df.head())
```
- 修改单元格： 你可以使用 .loc 或 .iloc 来修改特定的单元格。
```
df.loc[0, 'Salary'] = 9000 # 修改第一行 'Salary' 列的值
print(df.head())
```
- 删除列： 如果某一列对你来说是累赘，可以用 drop 函数来删除。
```
df = df.drop('职称', axis=1) # 删除 '职称' 列
print(df.head())
```
  axis=1 表示删除列，axis=0 表示删除行。记住这个参数，不然你会删错东西，就像剪头发剪错了，会后悔的！ 💇‍♀️
- 删除行： 如果某一行数据不符合要求，可以用 drop 函数来删除。
```
df = df.drop(0, axis=0) # 删除索引为 0 的行
print(df.head())
```
排序：让数据井然有序
- 按列排序： sort_values 函数可以让你按某一列的值进行排序。
```
df = df.sort_values(by='Age') # 按 'Age' 列升序排序
print(df)
```
```
df = df.sort_values(by='Salary', ascending=False) # 按 'Salary' 列降序排序
print(df)
```
  ascending=False 表示降序排序。记住这个参数，不然你的数据会升天！ 🚀
- 按索引排序： sort_index 函数可以让你按索引进行排序。
```
df = df.sort_index() # 按索引升序排序
print(df)
```
分组：将数据分门别类
- groupby 函数： 这是分组操作的核心。你可以按照某一列或多列的值将DataFrame分成多个组。
```
# 按照 'Age' 列分组，并计算每组的平均工资
grouped = df.groupby('Age')['Salary'].mean()
print(grouped)
```
  groupby 函数返回一个 GroupBy 对象，你可以用它来执行各种聚合操作，比如 mean (平均值), sum (总和), count (计数), min (最小值), max (最大值) 等等。
- 聚合函数： 对分组后的数据进行统计分析。
```
# 按照 'Age' 列分组，并计算每组的工资总和和人数
grouped = df.groupby('Age').agg({'Salary': 'sum', 'Name': 'count'})
print(grouped)
```
  agg 函数可以让你同时应用多个聚合函数。你可以像点菜一样，选择你需要的统计指标。 🍔🍟
合并：让数据融为一体
- concat 函数： 将多个DataFrame沿着指定的轴（行或列）连接起来。
```
df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
df2 = pd.DataFrame({'Name': ['Charlie', 'David'], 'Age': [35, 40]})
df = pd.concat([df1, df2], axis=0) # 沿着行连接
print(df)
```
  axis=0 表示沿着行连接，axis=1 表示沿着列连接。
- merge 函数： 基于共同的列将两个DataFrame连接起来，类似于SQL中的JOIN操作。
```
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'], 'City': ['New York', 'London', 'Paris']})
df2 = pd.DataFrame({'Name': ['Alice', 'Bob', 'David'], 'Salary': [8000, 6000, 10000]})
df = pd.merge(df1, df2, on='Name') # 基于 'Name' 列连接
print(df)
```
  on 参数指定连接的列。你可以指定多个连接列，也可以选择不同的连接方式（inner, outer, left, right）。就像搭积木一样，把不同的数据块拼在一起。 🧱

第三章：数据清洗：让数据焕发光彩

数据清洗是数据分析的重要环节。就像洗衣服一样，你需要把脏数据洗干净，才能得到干净的数据。 🧺

处理缺失值：填补空缺

isnull 和 notnull 函数： 用于检测缺失值。

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', None], 'Age': [25, 30, None, 40]})
print(df.isnull()) # 检测缺失值
print(df.notnull()) # 检测非缺失值

isnull 返回一个布尔DataFrame，True表示缺失值，False表示非缺失值。 notnull 则相反。

dropna 函数： 删除包含缺失值的行或列。

df = df.dropna() # 删除包含缺失值的行
print(df)

df = df.dropna(axis=1) # 删除包含缺失值的列
print(df)

fillna 函数： 用指定的值填充缺失值。
```
df = df.fillna(0) # 用 0 填充缺失值
print(df)
```
```
df = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()}) # 用不同的值填充不同的列
print(df)
```
你可以用平均值、中位数、众数等来填充缺失值。就像给房子装修一样，把破损的地方修补好。 🔨

处理重复值：去除冗余
- duplicated 函数： 用于检测重复值。
```
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Alice'], 'Age': [25, 30, 25]})
print(df.duplicated()) # 检测重复值
```
  duplicated 返回一个布尔Series，True表示重复值，False表示非重复值。
- drop_duplicates 函数： 删除重复值。
```
df = df.drop_duplicates() # 删除重复值
print(df)
```
  你可以指定 subset 参数来指定检测重复值的列。就像清理衣柜一样，把不穿的衣服扔掉。 🗑️
处理异常值：揪出捣蛋分子
- 箱线图： 一种常用的异常值检测方法。箱线图可以直观地显示数据的分布情况，并标出异常值。
```
import matplotlib.pyplot as plt
df['Age'].plot(kind='box')
plt.show()
```
- Z-score： 另一种常用的异常值检测方法。 Z-score表示数据点与平均值的距离，距离越远，越可能是异常值。
```
from scipy import stats
df['Z-score'] = stats.zscore(df['Age'])
print(df)
```
  你可以设置一个阈值，将Z-score超过阈值的数据点视为异常值。就像警察抓小偷一样，把捣乱分子揪出来。 👮‍♀️
- 处理异常值的方法：
  - 删除： 如果异常值数量不多，可以直接删除。
  - 替换： 可以用平均值、中位数等来替换异常值。
  - 转换： 可以用对数变换等方法来减小异常值的影响。
数据类型转换：让数据各司其职
- astype 函数： 用于转换数据类型。
```
df['Age'] = df['Age'].astype(int) # 将 'Age' 列转换为整数类型
print(df.dtypes)
```
  你可以将字符串类型转换为数字类型，也可以将数字类型转换为字符串类型。就像给员工安排岗位一样，让每个人都做自己擅长的事情。 💼

第四章：进阶技巧：让你的数据处理更上一层楼

使用apply 函数： apply 函数可以让你对DataFrame的行或列应用自定义函数。这是一种非常灵活的工具，可以完成各种复杂的数据处理任务。
```
def add_prefix(name):
    return 'Mr. ' + name

df['Name'] = df['Name'].apply(add_prefix) # 对 'Name' 列应用 add_prefix 函数
print(df.head())
```
使用map 函数： map 函数可以让你将DataFrame的一列的值映射到另一组值。这是一种非常方便的工具，可以用来进行数据编码和转换。
```
gender_map = {'Male': 0, 'Female': 1}
df['Gender'] = df['Gender'].map(gender_map) # 将 'Gender' 列的值映射到 0 和 1
print(df.head())
```
使用pivot_table 函数： pivot_table 函数可以让你创建透视表，对数据进行多维度的聚合分析。这是一种非常强大的工具，可以用来发现数据之间的关系。
```
pivot = pd.pivot_table(df, values='Salary', index='Age', columns='Gender', aggfunc='mean')
print(pivot)
```
pivot_table 函数可以让你按照不同的维度对数据进行分组，并计算各种统计指标。就像用魔镜一样，从不同的角度观察数据。 🔮

结语：数据处理，其乐无穷！

恭喜你，已经掌握了Pandas DataFrame的基本操作和数据清洗技巧！ 🎉 记住，数据处理是一个不断学习和实践的过程。只有不断地探索和尝试，才能成为真正的数据大师！ 💪

希望这篇文章对你有所帮助！如果有什么问题，欢迎随时提问。祝你在数据处理的道路上越走越远！ 🚀

发表回复 取消回复

发表回复取消回复