Python - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年8月20日

Python高级技术之：`SciPy`的稀疏矩阵：`CSR`、`CSC`和`LIL`格式的性能对比。

嘿，大家好！今天咱们聊聊SciPy里的稀疏矩阵，特别是CSR、CSC和LIL这仨兄弟。稀疏矩阵这东西，简单说就是矩阵里大部分元素都是零。如果直接用普通矩阵存，那得多浪费空间啊！所以就有了稀疏矩阵这种专门的存储方式，只存非零元素，省地儿！为啥要有这么多格式？你可能会问，为啥搞这么多格式啊？ CSR、CSC、LIL，光看名字都眼晕。原因很简单，不同的存储格式，在不同的操作上性能不一样。有的适合做加法，有的适合做乘法，有的适合修改元素。就像不同类型的汽车，有的适合跑高速，有的适合越野。先来认识一下这三位： CSR (Compressed Sparse Row): 行压缩稀疏矩阵。顾名思义，按行来压缩的。适合做矩阵向量乘法，尤其是按行访问元素的场景。 CSC (Compressed Sparse Column): 列压缩稀疏矩阵。跟CSR对称，按列来压缩的。适合做矩阵向量乘法，尤其是按列访问元素的场景。 LIL (List of Lists): 链表型稀疏矩阵。适合动态构建矩阵，也就是不断插入新元素的场景。但做数值计算就比较慢了。 Show me the code! …

继续阅读“Python高级技术之：`SciPy`的稀疏矩阵：`CSR`、`CSC`和`LIL`格式的性能对比。”

2025年8月20日

Python高级技术之：如何利用`Cython`为`Pandas`和`NumPy`编写高性能的`C`扩展。

各位久等了，今天咱们聊聊如何用 Cython 这把瑞士军刀，给 Pandas 和 NumPy 这俩数据分析界的扛把子，打造高性能的 C 扩展，让他们如虎添翼，跑得更快！开场白：Python 的速度，永远的痛？ Python 易学易用，库也多如繁星，但在处理大规模数据和复杂计算时，速度就成了绕不开的坎儿。尤其是 Pandas 和 NumPy，虽然它们本身已经做了很多优化，但遇到性能瓶颈时，还是得另辟蹊径。这时候，Cython 就该闪亮登场了。 Cython 是什么？一句话概括：Python + C 的混血儿 Cython 是一种编程语言，它是 Python 的超集，允许你编写 C 代码，并能无缝地与 Python 代码集成。换句话说，你可以用 Cython 来编写高性能的 C 扩展，然后在 Python 中像调用普通 Python 模块一样调用它们。为什么选择 Cython？性能提升： C 代码的执行速度远快于 Python 代码，尤其是对于循环和数值计算。代码复用：可以利用现有的 C/C++ 代码库。易于集成：可以轻松地将 C 扩展集成到 Python 项目中。相对简单 …

继续阅读“Python高级技术之：如何利用`Cython`为`Pandas`和`NumPy`编写高性能的`C`扩展。”

2025年8月20日

Python高级技术之：`NumPy`的`ufunc`（通用函数）：如何编写自定义的`ufunc`。

各位观众老爷们，大家好！今天咱来聊聊 NumPy 里的一个神奇玩意儿：ufunc，也就是通用函数。别看名字挺唬人，其实就是能对 NumPy 数组里的每个元素进行操作的函数。更牛的是，咱还能自己动手编写自定义的 ufunc！是不是有点小激动了？别急，听我慢慢道来。一、啥是ufunc？为啥要用它？简单来说，ufunc 就是 NumPy 提供的、能对数组进行元素级运算的函数。NumPy 内置了大量的 ufunc，比如 sin、cos、exp、log 等等，涵盖了各种数学运算、逻辑运算和位运算。为啥要用 ufunc 呢？原因很简单：快！ NumPy 的 ufunc 都是用 C 语言编写的，经过了高度优化，运行速度非常快。而且，ufunc 可以直接对整个数组进行操作，避免了使用循环的麻烦，代码也更加简洁。举个例子，假设我们要计算一个数组里每个元素的平方： import numpy as np arr = np.array([1, 2, 3, 4, 5]) # 使用循环 result1 = [] for x in arr: result1.append(x * x) result1 = n …

继续阅读“Python高级技术之：`NumPy`的`ufunc`（通用函数）：如何编写自定义的`ufunc`。”

2025年8月20日

Python高级技术之：`Pandas`的`Categorical`类型：如何节省内存和提升处理效率。

各位观众，晚上好！我是你们的老朋友，数据魔法师，今晚咱们聊聊Pandas里的一个“省钱小能手”和“效率加速器”—— Categorical 类型。开场白：数据瘦身术与性能提速包想象一下，你有一张巨大的表格，里面塞满了各种各样的信息，比如客户的性别、所在城市、购买的产品类型等等。这些列的数据类型可能五花八门，有字符串、数字等等。但是仔细观察，你会发现其中一些列，比如“性别”，只有“男”和“女”两种取值；“城市”也只有有限的几个选择。如果直接用字符串或者数字来存储这些列，那简直就是浪费资源！就像你明明只需要带两件衣服出门，却硬要拖一个装满杂物的行李箱。 Categorical 类型就是来帮你解决这个问题的。它可以把这些重复出现的字符串或者数字，用更节省空间的方式存储起来，并且在进行数据分析的时候，还能大幅提升处理速度。第一幕：Categorical类型的“真面目” Categorical 类型本质上是一种用数字编码来表示类别数据的类型。它由两部分组成： categories: 类别本身，也就是列中所有不同的值，可以想象成一个“词汇表”。 codes: 每个值对应的类别在“词汇表”中 …

继续阅读“Python高级技术之：`Pandas`的`Categorical`类型：如何节省内存和提升处理效率。”

2025年8月20日

Python高级技术之：`Python`大数据生态：`Dask`、`Spark`和`Ray`在并行计算中的应用。

各位好，今天咱们来聊聊Python在大数据领域里，怎么用并行计算来提速。别担心，就算你以前没接触过这些概念，我也会尽量用大白话讲明白。咱们今天要说的三个神器分别是：Dask、Spark 和 Ray。它们都是 Python 的好伙伴，能帮你把大数据处理任务分解成小块，让多个 CPU 核心或者多台机器一起干活，从而大大缩短运行时间。开场白：为什么需要并行计算？想象一下，你要统计全国人民的平均年龄。如果一个人一个人的算，得算到猴年马月。但是，如果把全国人民分成很多组，每组算出一个平均年龄，最后再把这些平均年龄加权平均一下，是不是快多了？并行计算就是这个道理。把一个大任务分解成很多小任务，让它们同时进行，最后再把结果合并起来。这样就能充分利用计算资源，提高效率。第一部分：Dask：Python 原生的大数据利器 Dask 可以说是 Python 生态里最亲民的大数据工具了。它的 API 和 Pandas、NumPy 非常相似，所以如果你熟悉 Pandas 和 NumPy，上手 Dask 会非常容易。 1. Dask 的核心概念：延迟计算 Dask 的一个核心概念是“延迟计算”（Del …

继续阅读“Python高级技术之：`Python`大数据生态：`Dask`、`Spark`和`Ray`在并行计算中的应用。”

2025年8月20日

Python高级技术之：`Jupyter Notebook`的魔法命令：`%run`、`%timeit`和`%matplotlib inline`的用法。

各位，早上好！今天我们来聊聊Jupyter Notebook里那些看起来像魔法的命令，它们以%开头，能让你的代码生涯更加轻松愉快。咱们重点关注%run、%timeit和%matplotlib inline这三位。准备好了吗？ Let’s roll! 第一部分：%run – 代码传送门想象一下，你辛辛苦苦写了一个Python脚本，比如叫做my_script.py，里面定义了一些函数、类或者干脆就是一大段逻辑。现在你想在Jupyter Notebook里调用它，怎么办？难道要复制粘贴过来吗？当然不用！%run命令就是为此而生的。 1. 基本用法：一键执行 %run my_script.py 就这么简单。这条命令会执行my_script.py里的所有代码，并将其中定义的变量、函数、类等等，都导入到当前的Jupyter Notebook环境中。这意味着，你可以在Notebook里直接使用my_script.py里定义的任何东西，就像它们原本就在Notebook里一样。 2. 示例：假设我们有一个my_script.py文件，内容如下： # my_script.py …

继续阅读“Python高级技术之：`Jupyter Notebook`的魔法命令：`%run`、`%timeit`和`%matplotlib inline`的用法。”

2025年8月20日

Python高级技术之：`TensorFlow`和`PyTorch`的计算图：动态图与静态图的设计哲学。

嘿，大家好！今天咱们聊聊深度学习框架里那些“腹黑”的家伙——计算图。你可能觉得“计算图”听起来高深莫测，但其实它就像一张藏宝图，指引着数据在神经网络里“寻宝”。 TensorFlow和PyTorch是目前最火的两个寻宝工具，它们都用到了计算图，但它们的寻宝方式，也就是设计哲学，却截然不同：一个玩的是“静态图”，一个玩的是“动态图”。那这静态图和动态图到底是个啥？别急，咱们这就开始解密。第一章：啥是计算图？别告诉我你不知道！想象一下，你要做一道菜，比如番茄炒蛋。你需要先切番茄、打鸡蛋，然后把它们炒在一起。这整个过程，你可以用一张流程图来表示： 1. 买菜 (输入：无) 2. 切番茄 (输入：番茄) 3. 打鸡蛋 (输入：鸡蛋) 4. 热锅 (输入：无) 5. 炒番茄和鸡蛋 (输入：切好的番茄, 打好的鸡蛋) 6. 出锅 (输出：番茄炒蛋) 计算图就类似于这个流程图，它描述了数据（比如图像、文本）在神经网络中是如何流动的，以及每一步要进行什么操作（比如卷积、激活）。更具体地说，它是由节点（Nodes）和边（Edges）组成的有向无环图（DAG）。节点 (Nodes): 代表操作 ( …

继续阅读“Python高级技术之：`TensorFlow`和`PyTorch`的计算图：动态图与静态图的设计哲学。”

2025年8月20日

Python高级技术之：`Scikit-learn`的流水线（`Pipeline`）：如何构建和管理完整的机器学习工作流。

各位靓仔靓女，大家好！我是你们今天的机器学习流水线架构师，咱们今天要聊聊Scikit-learn的Pipeline，保证让你的机器学习项目像一条整齐的生产线，高效又优雅！开场白：机器学习的厨房，你家的乱不乱？大家在搞机器学习的时候，是不是经常碰到这种情况：数据预处理一堆代码，模型训练又一堆代码，调参优化再来一堆代码，最后部署上线，简直像个乱糟糟的厨房，各种调料、食材乱摆乱放，想找个勺子都费劲？ Scikit-learn的Pipeline就是来拯救你这个“脏乱差”厨房的。它可以把一系列的数据处理步骤和模型训练步骤串联起来，形成一个完整的、可重复使用的机器学习工作流。一、Pipeline是什么？本质就是个串串香！简单来说，Pipeline就是一个容器，它可以把多个Scikit-learn的Transformer（转换器，比如标准化、特征选择）和Estimator（估计器，比如分类器、回归器）像串串香一样串起来。你可以想象一下，把烤串师傅（数据预处理）和烧烤师傅（模型训练）用一条流水线连接起来，顾客（输入数据）来了，烤串师傅负责把肉串穿好，烧烤师傅直接拿过去烤，最后送到顾客嘴里。整 …

继续阅读“Python高级技术之：`Scikit-learn`的流水线（`Pipeline`）：如何构建和管理完整的机器学习工作流。”

2025年8月20日

Python高级技术之：`NumPy`的`ndarray`：内存布局、`strides`和`broadcast`的底层机制。

大家好，欢迎来到“NumPy底层探秘”讲座，我是今天的导游老王。今天咱们不聊虚的，直接扒开NumPy的心脏，看看ndarray这玩意儿是怎么在内存里安家的，strides又是怎么玩转索引的，还有broadcast这魔法是如何炼成的。准备好了吗？系好安全带，发车！第一站：内存布局——ndarray的安身之所想象一下，你是一位房地产开发商，手头有一堆数据要安排入住。NumPy的ndarray就是你的小区，而你的任务就是给这些数据分配房间。 ndarray在内存中存储数据时，采用的是连续的内存块。这就好比小区里的房子是挨个儿盖的，保证了数据的紧凑性。但是，数据类型不同，需要的房间大小也不同啊！比如，int32类型的数组，每个元素需要4个字节；float64类型的数组，每个元素需要8个字节。NumPy会根据你指定的数据类型，提前规划好整个小区的大小。 import numpy as np # 创建一个 int32 类型的数组 arr_int = np.array([1, 2, 3, 4, 5], dtype=np.int32) print(f”数组数据类型: {arr_int.dtype …

继续阅读“Python高级技术之：`NumPy`的`ndarray`：内存布局、`strides`和`broadcast`的底层机制。”

2025年8月20日

Python高级技术之：`Pandas`的`DataFrame`内部实现：`Block Manager`和`Index`的内存优化。

各位观众老爷们，大家好！今天咱不开车，来聊聊Pandas DataFrame里的“潜规则”——Block Manager和Index的内存优化。别害怕，听名字唬人，其实就是教你省钱（内存）的小技巧。 Part 1: DataFrame的“骨架”：Block Manager 咱们先来扒一扒DataFrame的皮，看看它的骨架长啥样。你可能觉得DataFrame就是一个表格，但实际上，Pandas为了提高效率，把不同类型的数据分成了不同的“块”（Blocks）来存储。举个例子，你有一个DataFrame，既有整数，又有浮点数，还有字符串，那么Pandas就会把它分成三个Block：一个存整数，一个存浮点数，一个存字符串。这就是Block Manager的核心思想：同类型的数据住一起，方便管理和运算。 import pandas as pd import numpy as np # 创建一个混合类型的DataFrame df = pd.DataFrame({ ‘A’: np.arange(5, dtype=’int64′), ‘B’: pd.array([True, False, Tr …

继续阅读“Python高级技术之：`Pandas`的`DataFrame`内部实现：`Block Manager`和`Index`的内存优化。”