Pandas 错误处理与日志记录的最佳实践 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位听众，欢迎来到今天的“Pandas 错误处理与日志记录最佳实践”脱口秀！我是你们的段子手兼技术专家，今天咱们不搞学术报告，就聊点实在的，用最接地气的方式，把 Pandas 里那些让人头疼的错误，以及如何优雅地记录它们，给安排得明明白白！

开场白：数据世界里的“事故现场”

话说，咱们搞数据分析的，每天都跟 Pandas 打交道，那感觉就像老夫老妻，既熟悉又偶尔想挠墙。Pandas 确实是个好东西，处理数据那叫一个丝滑，但江湖上流传着一句话：“数据虐我千百遍，我待数据如初恋”。为啥呢？因为它时不时给你整点幺蛾子，抛出各种奇葩的错误，让你瞬间怀疑人生。🤯

想象一下，你辛辛苦苦写了几十行代码，满怀期待地运行，结果屏幕上刷出一堆红字，什么 KeyError，什么 TypeError，什么 ValueError，简直就像一场“事故现场”！更惨的是，等你抓耳挠腮半天，好不容易找到问题，下次又犯同样的错误，简直想把电脑砸了！

所以，今天咱们就来聊聊，如何避免这些“事故”，以及万一发生了，如何快速找到“事故原因”，并优雅地“记录在案”。

第一幕：错误类型大盘点：知己知彼，百战不殆

要处理错误，首先得知道错误长啥样。Pandas 里的错误种类繁多，但常见的就那么几种，咱们先来个“错误类型大盘点”，做到心中有数。

错误类型	错误描述	常见场景	解决方案
`KeyError`	字典里找不到对应的键，或者 DataFrame 里找不到对应的列名。	访问 DataFrame 中不存在的列：`df['不存在的列']`；使用不存在的键访问 Series：`s['不存在的键']`。	检查列名或键名是否正确；使用 `in` 关键字或 `get()` 方法进行安全访问：`if '列名' in df.columns: ...`；`df.get('列名', 默认值)`。
`TypeError`	数据类型不匹配，比如把字符串赋值给整数列，或者把列表传递给需要标量的函数。	对 DataFrame 的列进行错误的类型转换：`df['列名'].astype(int)`，但列中包含非数字字符；传递错误类型给函数：`pd.to_datetime(123)`。	检查数据类型是否正确；使用 `astype()` 进行类型转换时，确保数据可以被转换为目标类型；使用 `try...except` 捕获类型转换错误。
`ValueError`	函数接收到的参数值无效，比如把一个无法解析为日期的字符串传递给 `pd.to_datetime()`。	使用无法解析为日期的字符串：`pd.to_datetime('错误日期格式')`；使用超出范围的数值：`np.sqrt(-1)`。	检查参数值是否符合函数的要求；使用 `try...except` 捕获值错误；对输入数据进行预处理，确保其有效性。
`IndexError`	索引超出范围，比如访问列表或 Series 中不存在的索引。	访问 Series 中不存在的索引：`s[100]`，而 Series 只有 50 个元素；使用错误的索引进行切片。	检查索引是否在有效范围内；使用 `len()` 函数获取 Series 或列表的长度；避免使用硬编码的索引值。
`AttributeError`	访问了对象不存在的属性或方法，比如对 Series 调用 DataFrame 的方法。	对 Series 调用 DataFrame 的方法：`s.groupby()`；访问不存在的属性：`df.不存在的属性`。	检查对象类型是否正确；仔细阅读文档，了解对象有哪些属性和方法；使用 `dir()` 函数查看对象的属性和方法。
`ZeroDivisionError`	除数为零，这个就不用多说了吧！	进行除法运算时，除数为零：`1 / 0`；在 DataFrame 中进行除法运算时，某列包含零值。	在进行除法运算前，检查除数是否为零；使用 `np.where()` 或 `mask()` 方法避免除数为零的情况。
`FileNotFoundError`	文件不存在，这个也很常见，尤其是在读取外部数据的时候。	读取不存在的文件：`pd.read_csv('不存在的文件.csv')`；访问不存在的目录。	检查文件路径是否正确；确保文件存在；使用 `os.path.exists()` 函数检查文件是否存在。

第二幕：错误处理三板斧：防患于未然，亡羊补牢

了解了错误类型，接下来就是如何处理它们。这里给大家介绍错误处理的“三板斧”：

预防为主：数据清洗与验证

与其事后补救，不如事前预防。在进行 Pandas 操作之前，对数据进行清洗和验证，可以有效避免很多错误。
- 数据类型检查： 确保列的数据类型符合预期，比如日期列是 datetime64 类型，数值列是 int64 或 float64 类型。可以使用 df.dtypes 查看数据类型，使用 df['列名'].astype() 进行类型转换。
- 缺失值处理： 缺失值是很多错误的罪魁祸首。可以使用 df.isnull() 或 df.isna() 检测缺失值，使用 df.fillna() 填充缺失值，使用 df.dropna() 删除包含缺失值的行或列。
- 异常值处理： 异常值可能会导致计算结果出现偏差，甚至引发错误。可以使用箱线图、散点图等可视化方法检测异常值，使用 clip() 方法将异常值截断到合理范围内。
- 数据范围验证： 确保数据值在合理的范围内，比如年龄不能为负数，日期不能是未来的日期。可以使用条件判断语句进行验证。
举个栗子：
```
import pandas as pd

def validate_data(df):
    """数据验证函数"""
    # 检查日期格式
    try:
        df['日期'] = pd.to_datetime(df['日期'])
    except ValueError:
        raise ValueError("日期格式不正确")

    # 检查年龄是否为正数
    if (df['年龄'] < 0).any():
        raise ValueError("年龄不能为负数")

    return df

# 假设 df 是你的 DataFrame
try:
    df = validate_data(df.copy()) # 注意使用copy避免修改原始数据
    print("数据验证通过！")
except ValueError as e:
    print(f"数据验证失败：{e}")
```
try...except：错误捕获与处理

即使做了再多的预防，也难免会遇到意料之外的错误。这时候，try...except 语句就派上用场了。它可以捕获代码块中发生的错误，并执行相应的处理逻辑，避免程序崩溃。
```
import pandas as pd

try:
    # 可能会出错的代码
    df = pd.read_csv('不存在的文件.csv')
    print(df.head())
except FileNotFoundError:
    # 错误处理逻辑
    print("文件不存在！请检查文件路径是否正确。")
except pd.errors.EmptyDataError:
    # 处理空文件
    print("文件为空！")
except Exception as e:
    # 处理其他未知错误
    print(f"发生未知错误：{e}")
finally:
  #无论是否发生错误，都会执行的代码
  print("程序执行完毕")
```
- 精确捕获： 尽量捕获具体的错误类型，而不是笼统地使用 Exception。这样可以更准确地判断错误原因，并采取相应的处理措施。
- 错误处理： 在 except 块中，可以执行各种错误处理操作，比如打印错误信息、记录错误日志、重新尝试操作、返回默认值等。
- finally 子句： finally 子句中的代码无论是否发生错误都会执行，通常用于释放资源，比如关闭文件、断开连接等。
assert 断言：调试利器

assert 语句用于在代码中插入断言，用于检查程序的状态是否符合预期。如果断言失败，程序会抛出 AssertionError 异常，可以帮助我们快速发现问题。
```
def calculate_average(numbers):
    """计算平均值"""
    assert len(numbers) > 0, "列表不能为空"  # 断言列表不为空
    return sum(numbers) / len(numbers)

try:
    average = calculate_average([])
    print(average)
except AssertionError as e:
    print(f"断言失败：{e}")
```
- 调试阶段： assert 语句主要用于调试阶段，帮助我们发现代码中的逻辑错误。
- 条件判断： assert 语句后面跟一个条件表达式，如果表达式的值为 False，则断言失败。
- 错误信息： 可以在 assert 语句后面添加一个字符串，作为断言失败时的错误信息。

第三幕：日志记录：留下蛛丝马迹，方便追查真凶

仅仅处理错误还不够，我们还需要把错误信息记录下来，方便日后追查问题。这就是日志记录的重要性。

Python 内置了 logging 模块，可以方便地进行日志记录。

import logging

# 配置日志记录
logging.basicConfig(
    filename='app.log',  # 日志文件名
    level=logging.INFO,  # 日志级别
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'  # 日志格式
)

# 记录日志
logging.debug("调试信息")  # 调试级别
logging.info("普通信息")  # 信息级别
logging.warning("警告信息")  # 警告级别
logging.error("错误信息")  # 错误级别
logging.critical("严重错误信息")  # 严重错误级别

try:
    1 / 0
except ZeroDivisionError as e:
    logging.error(f"除数为零错误：{e}", exc_info=True) # 记录更详细的错误信息，包括堆栈跟踪

日志级别： logging 模块定义了多个日志级别，从低到高分别是 DEBUG、INFO、WARNING、ERROR 和 CRITICAL。可以根据需要选择合适的日志级别。
日志格式： 可以自定义日志格式，包括时间、模块名、日志级别、消息内容等。
日志文件： 可以将日志记录到文件中，方便长期保存和分析。
exc_info=True： 在记录错误日志时，可以设置 exc_info=True，将异常的堆栈跟踪信息也记录下来，方便定位问题。

第四幕：Pandas 专属技巧：更上一层楼

除了通用的错误处理和日志记录方法，Pandas 还有一些专属的技巧，可以让我们在处理数据时更加得心应手。

pd.options.mode.chained_assignment = None：告别烦人的警告

在使用 Pandas 进行链式赋值时，可能会遇到 SettingWithCopyWarning 警告。这个警告提示我们，链式赋值可能会导致意想不到的结果。为了避免这个警告，可以使用以下代码：
```
import pandas as pd

pd.options.mode.chained_assignment = None  # 关闭警告
# pd.options.mode.chained_assignment = 'warn' # 恢复警告

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'] + df['B']  # 链式赋值
```
当然，最好的方法是避免链式赋值，尽量使用 .loc 或 .iloc 进行赋值。
errors='ignore'：忽略错误行

在使用 pd.read_csv() 读取 CSV 文件时，如果遇到格式错误的行，可以使用 errors='ignore' 忽略这些行。
```
import pandas as pd

df = pd.read_csv('错误数据.csv', errors='ignore')
```
注意，errors='ignore' 会直接跳过错误行，不会进行任何处理。如果需要对错误行进行处理，可以使用 errors='coerce' 将错误值替换为 NaN。

try...except 与 Pandas 操作结合：精准打击

可以将 try...except 语句与 Pandas 操作结合起来，对特定的操作进行错误处理。

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 'a'], 'B': [4, 5, 6]})

try:
    df['A'] = df['A'].astype(int)
except ValueError as e:
    print(f"类型转换错误：{e}")

尾声：总结与展望

好了，今天的“Pandas 错误处理与日志记录最佳实践”脱口秀就到这里了。希望通过今天的分享，大家能够对 Pandas 的错误处理和日志记录有更深入的了解，能够在实际工作中更加游刃有余。

记住，数据分析的道路是漫长的，错误是不可避免的。但只要我们掌握了正确的工具和方法，就能化险为夷，最终取得成功！

最后，祝大家 Bug 远离，代码永不报错！咱们下期再见！ 😎

发表回复 取消回复

发表回复取消回复