pandas - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年9月20日

`Python`的`Excel`操作：`pandas`和`openpyxl`的`高级`用法。

Python Excel 操作：Pandas 与 Openpyxl 高级用法大家好，今天我们来深入探讨 Python 中使用 Pandas 和 Openpyxl 操作 Excel 的高级技巧。Excel 作为数据处理和报告生成的常用工具，掌握高效的 Python 操作方法至关重要。我们将结合实际案例，讲解如何利用这两个库提升数据处理和报告生成效率。一、 Pandas 高级用法 Pandas 提供了强大的数据分析和处理能力，与 Excel 的交互也非常便捷。以下是一些 Pandas 的高级用法，能够更高效地处理 Excel 数据。 1. 多 Sheet 读取与写入通常一个 Excel 文件包含多个 Sheet，我们需要能够方便地读取和写入多个 Sheet。读取多个 Sheet: 使用 pd.ExcelFile 对象可以一次性读取 Excel 文件中的所有 Sheet，然后按 Sheet 名称或索引访问。 import pandas as pd excel_file = pd.ExcelFile(‘multi_sheet.xlsx’) # 获取所有 sheet 名称 sheet_n …

继续阅读“`Python`的`Excel`操作：`pandas`和`openpyxl`的`高级`用法。”

2025年9月20日

`Pandas`的`性能`调优：`数据类型`优化、`矢量化`操作与`查询`优化。

好的，下面是一篇关于Pandas性能调优的文章，包括数据类型优化、矢量化操作和查询优化，以讲座模式呈现。 Pandas 性能调优：数据类型优化、矢量化操作与查询优化大家好，今天我们来聊聊 Pandas 性能调优的一些关键技巧。Pandas 是 Python 中用于数据分析的强大库，但在处理大型数据集时，性能往往成为一个瓶颈。本次讲座将重点介绍三种主要的优化策略：数据类型优化、矢量化操作以及查询优化。一、数据类型优化 1.1 理解 Pandas 数据类型 Pandas 提供了多种数据类型，包括 int, float, object, category, datetime64, bool 等。选择合适的数据类型对于内存占用和性能至关重要。 Pandas 数据类型描述 int8, int16, int32, int64 有符号整数类型，数字越大，能表示的范围越大。int8 占用 1 字节，int16 占用 2 字节，以此类推。 uint8, uint16, uint32, uint64 无符号整数类型，只能表示非负整数。 float16, float32, float64 浮点数类型， …

继续阅读“`Pandas`的`性能`调优：`数据类型`优化、`矢量化`操作与`查询`优化。”

2025年8月20日

Python高级技术之：`Pandas`的`query()`方法：如何用类`SQL`语法进行数据筛选。

各位观众老爷，大家好！今天咱们来聊聊Pandas里的一个“伪SQL”神器——query()方法。啥？伪SQL？别怕，不是让你去考数据库证书，而是用一种类似SQL的语法，在Pandas DataFrame里愉快地筛选数据，让你的代码更简洁、更易读，也更装X！开场白：为啥要用query()？想象一下，你有一张巨大的Excel表格，里面堆满了各种数据。你想找出所有年龄大于30岁，且工资高于5000的员工。如果是用传统的Pandas方式，你可能要这样写： import pandas as pd # 假设我们有一个DataFrame data = {‘name’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eve’], ‘age’: [25, 32, 28, 40, 35], ‘salary’: [4000, 6000, 4500, 7000, 5500], ‘city’: [‘Beijing’, ‘Shanghai’, ‘Beijing’, ‘Shanghai’, ‘Guangzhou’]} df = pd.DataFrame(data) # 传统的筛选 …

继续阅读“Python高级技术之：`Pandas`的`query()`方法：如何用类`SQL`语法进行数据筛选。”

2025年8月20日

Python高级技术之：如何利用`Pandas`的`multi-index`，处理复杂的多维数据。

各位观众老爷们，晚上好！欢迎来到“Python高级技术之Pandas Multi-Index奇妙夜”。今天咱们要聊聊Pandas里的一个高级玩意儿，叫“Multi-Index”，也就是多层索引。别被这个名字吓到，其实它就是个帮你处理复杂数据的神器。想象一下，如果你要分析一个销售数据，这个数据既按地区分，又按产品类别分，还按年份分，这时候，传统的单层索引就有点力不从心了。 Multi-Index就像一个数据魔方，能让你从各个维度去切片、分析数据，非常灵活。一、什么是Multi-Index？简单来说，Multi-Index就是在DataFrame或Series中使用多个索引级别。就像一本书的目录，第一层是章节，第二层是小节，第三层是段落。通过这种多层结构，你可以更清晰地组织和访问数据。二、为什么要用Multi-Index？处理复杂数据：当你的数据有多个维度时，Multi-Index可以让你更容易地进行数据透视、分组和聚合。提高数据可读性： Multi-Index可以更清晰地展示数据的层次结构，让数据更容易理解。简化数据操作： Multi-Index提供了一些 …

继续阅读“Python高级技术之：如何利用`Pandas`的`multi-index`，处理复杂的多维数据。”

2025年8月20日

Python高级技术之：如何利用`Cython`为`Pandas`和`NumPy`编写高性能的`C`扩展。

各位久等了，今天咱们聊聊如何用 Cython 这把瑞士军刀，给 Pandas 和 NumPy 这俩数据分析界的扛把子，打造高性能的 C 扩展，让他们如虎添翼，跑得更快！开场白：Python 的速度，永远的痛？ Python 易学易用，库也多如繁星，但在处理大规模数据和复杂计算时，速度就成了绕不开的坎儿。尤其是 Pandas 和 NumPy，虽然它们本身已经做了很多优化，但遇到性能瓶颈时，还是得另辟蹊径。这时候，Cython 就该闪亮登场了。 Cython 是什么？一句话概括：Python + C 的混血儿 Cython 是一种编程语言，它是 Python 的超集，允许你编写 C 代码，并能无缝地与 Python 代码集成。换句话说，你可以用 Cython 来编写高性能的 C 扩展，然后在 Python 中像调用普通 Python 模块一样调用它们。为什么选择 Cython？性能提升： C 代码的执行速度远快于 Python 代码，尤其是对于循环和数值计算。代码复用：可以利用现有的 C/C++ 代码库。易于集成：可以轻松地将 C 扩展集成到 Python 项目中。相对简单 …

继续阅读“Python高级技术之：如何利用`Cython`为`Pandas`和`NumPy`编写高性能的`C`扩展。”

2025年8月20日

Python高级技术之：`Pandas`的`Categorical`类型：如何节省内存和提升处理效率。

各位观众，晚上好！我是你们的老朋友，数据魔法师，今晚咱们聊聊Pandas里的一个“省钱小能手”和“效率加速器”—— Categorical 类型。开场白：数据瘦身术与性能提速包想象一下，你有一张巨大的表格，里面塞满了各种各样的信息，比如客户的性别、所在城市、购买的产品类型等等。这些列的数据类型可能五花八门，有字符串、数字等等。但是仔细观察，你会发现其中一些列，比如“性别”，只有“男”和“女”两种取值；“城市”也只有有限的几个选择。如果直接用字符串或者数字来存储这些列，那简直就是浪费资源！就像你明明只需要带两件衣服出门，却硬要拖一个装满杂物的行李箱。 Categorical 类型就是来帮你解决这个问题的。它可以把这些重复出现的字符串或者数字，用更节省空间的方式存储起来，并且在进行数据分析的时候，还能大幅提升处理速度。第一幕：Categorical类型的“真面目” Categorical 类型本质上是一种用数字编码来表示类别数据的类型。它由两部分组成： categories: 类别本身，也就是列中所有不同的值，可以想象成一个“词汇表”。 codes: 每个值对应的类别在“词汇表”中 …

继续阅读“Python高级技术之：`Pandas`的`Categorical`类型：如何节省内存和提升处理效率。”

2025年8月20日

Python高级技术之：`Pandas`的`DataFrame`内部实现：`Block Manager`和`Index`的内存优化。

各位观众老爷们，大家好！今天咱不开车，来聊聊Pandas DataFrame里的“潜规则”——Block Manager和Index的内存优化。别害怕，听名字唬人，其实就是教你省钱（内存）的小技巧。 Part 1: DataFrame的“骨架”：Block Manager 咱们先来扒一扒DataFrame的皮，看看它的骨架长啥样。你可能觉得DataFrame就是一个表格，但实际上，Pandas为了提高效率，把不同类型的数据分成了不同的“块”（Blocks）来存储。举个例子，你有一个DataFrame，既有整数，又有浮点数，还有字符串，那么Pandas就会把它分成三个Block：一个存整数，一个存浮点数，一个存字符串。这就是Block Manager的核心思想：同类型的数据住一起，方便管理和运算。 import pandas as pd import numpy as np # 创建一个混合类型的DataFrame df = pd.DataFrame({ ‘A’: np.arange(5, dtype=’int64′), ‘B’: pd.array([True, False, Tr …

继续阅读“Python高级技术之：`Pandas`的`DataFrame`内部实现：`Block Manager`和`Index`的内存优化。”

2025年8月18日

Python高级技术之：`Python`的`Pandas`和`NumPy`：如何利用向量化操作避免`for`循环。

各位观众，大家好！我是今天的主讲人，很高兴能和大家一起聊聊Python里Pandas和NumPy这对好基友，以及如何利用它们的向量化操作，优雅地告别那些磨人的for循环。今天的主题是：Python高级技术之：Python的Pandas和NumPy：如何利用向量化操作避免for循环。记住，我们的目标是：能不用for循环，就坚决不用！第一部分：for循环的痛点在深入向量化操作之前，我们先来回顾一下for循环。for循环就像一个勤勤恳恳的老黄牛，一条数据一条数据地处理。虽然可靠，但效率实在不敢恭维。举个例子，假设我们有一个包含100万个数字的列表，现在想把每个数字都乘以2。 import time data = list(range(1000000)) # 使用for循环 start_time = time.time() result_for = [] for x in data: result_for.append(x * 2) end_time = time.time() print(f”For循环耗时: {end_time – start_time:.4f} 秒”) 这段代码 …

继续阅读“Python高级技术之：`Python`的`Pandas`和`NumPy`：如何利用向量化操作避免`for`循环。”

2025年7月9日

Modin：在现有 Pandas 代码上实现分布式加速

好的，各位观众老爷，欢迎来到今天的“Modin：让你的 Pandas 代码飞起来”特别节目！我是你们的老朋友，人称代码界的“加速器”，今天就来跟大家聊聊如何用 Modin 这个神奇的工具，让你的 Pandas 代码瞬间提速，走向人生巅峰（误）。开场白：Pandas，爱你不容易啊！话说回来，Pandas 这玩意儿，简直是 Python 数据分析界的扛把子，谁不用 Pandas，都不好意思说自己是搞数据的。但是！But！然而！Pandas 也有个小小的缺点，那就是……慢！尤其是当你的数据量蹭蹭往上涨的时候，Pandas 就开始力不从心了，CPU 占用率飙升，风扇狂转，甚至电脑直接卡死，让你怀疑人生。这时候，你可能会想：难道就没有什么办法，能让 Pandas 像吃了炫迈一样，根本停不下来吗？答案是：有！而且它就叫做——Modin！ Modin：Pandas 的超能力外挂 Modin 是一个基于 Ray 或 Dask 的 DataFrame 库，它可以让你只修改一行代码，就能把你的 Pandas 代码变成分布式并行计算，从而大幅提升速度。简单来说，你可以把 Modin 理解成 Pa …

继续阅读“Modin：在现有 Pandas 代码上实现分布式加速”

2025年7月9日

Pandas `MultiIndex` 高级操作：复杂数据层次化处理与切片

Pandas MultiIndex 高级操作：复杂数据层次化处理与切片 (讲座模式) 大家好！欢迎来到今天的 Pandas MultiIndex 高级操作讲座。今天我们要聊聊 Pandas 中一个非常强大的功能，叫做 MultiIndex，中文可以理解为“多层索引”或者“分层索引”。如果你觉得你的数据长得像俄罗斯套娃，一层又一层，那么 MultiIndex 就是你的救星！为什么要用 MultiIndex？想象一下，你有一个关于全球各地不同城市的气象数据，数据维度可能包括：国家、城市、年份、月份、温度、湿度等等。如果把所有这些信息都挤在一列索引里，那简直是一场灾难！使用 MultiIndex，你可以把国家、城市、年份、月份都变成索引，这样你的数据就变得更有结构，更易于理解和操作。就像图书馆里的图书分类一样，方便我们快速找到想要的信息。 MultiIndex 的基础：从创建开始 Pandas 提供了多种方式来创建 MultiIndex。我们先从最简单的开始：使用 from_tuples 创建如果你已经有一组元组，每个元组代表一个索引的组合，那么 from_tuples 是一个不 …

继续阅读“Pandas `MultiIndex` 高级操作：复杂数据层次化处理与切片”