智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年8月20日

Python高级技术之：`JupyterHub`的部署与管理：在团队中共享`Jupyter`环境。

各位靓仔靓女，晚上好！我是今晚的分享嘉宾，很高兴能和大家一起聊聊JupyterHub这个神器，它能让咱们团队轻松共享Jupyter环境，告别“我的环境能跑，你的不行”的尴尬场面。今天咱们的讲座主题是：Python高级技术之：JupyterHub的部署与管理：在团队中共享Jupyter环境。咱们的目标是：让大家明白什么是JupyterHub，为什么要用它，以及怎么把它部署和管理起来，让咱们的团队协作效率嗖嗖地往上涨。一、啥是JupyterHub？为啥要用它？简单来说，JupyterHub就是一个多用户的Jupyter Notebook服务器。想象一下，你有一个服务器，上面装了Jupyter Notebook，但只能一个人用，是不是有点浪费？JupyterHub就解决了这个问题，它允许你在同一台服务器上运行多个独立的Jupyter Notebook实例，每个用户都有自己的工作空间，互不干扰。那么，为啥我们要用JupyterHub呢？它主要解决了以下几个痛点：环境一致性：告别“环境黑魔法”。团队成员使用相同的环境，避免因环境差异导致的bug和兼容性问题。想象一下，大家都在一个 …

继续阅读“Python高级技术之：`JupyterHub`的部署与管理：在团队中共享`Jupyter`环境。”

2025年8月20日

Python高级技术之：`Python`的`HDF5`和`Feather`格式：在数据存储和交换中的应用。

各位数据控们，晚上好！我是今晚的讲师，代号“数据挖掘机”，专门负责在数据的海洋里刨坑挖宝。今天咱们来聊聊数据存储和交换的两个神器：HDF5 和 Feather。这俩哥们儿，一个稳如老狗，一个快如闪电，各有千秋。咱们就好好盘盘它们，看看在什么场合下该让谁上场。一、数据存储的烦恼：为什么需要 HDF5 和 Feather？话说咱们搞数据分析的，经常要面对各种各样的数据。小到几 KB 的 CSV，大到几个 TB 的数据库。数据量小的时候，随便什么格式都能应付，但数据量一上来，问题就来了：读写慢: 传统文本格式（比如 CSV）读写效率低，尤其是面对大型数据集，简直是噩梦。内存占用大: 很多时候，我们需要把整个数据集加载到内存里才能进行操作。数据量一大，内存直接爆炸。数据类型不明确: CSV 这种格式，所有数据都当字符串处理，需要手动转换类型，麻烦不说，还容易出错。不支持复杂数据结构: 如果数据包含嵌套的字典、列表等复杂结构，CSV 就彻底歇菜了。跨平台兼容性问题: 不同的操作系统和编程语言对某些数据格式的支持程度不一样，导致数据交换困难。为了解决这些问题，HDF5 和 Feat …

继续阅读“Python高级技术之：`Python`的`HDF5`和`Feather`格式：在数据存储和交换中的应用。”

2025年8月20日

Python高级技术之：`Matplotlib`的`Artist`和`Backend`：如何进行高级绘图定制。

各位观众，掌声欢迎来到“Python高级绘图定制”专场！今天，咱们不聊虚的，直接深入Matplotlib的腹地，扒一扒它的Artist和Backend，看看如何用它们把你的图表打造成艺术品，而不是简单的“能看就行”。开场白：Matplotlib，不仅仅是画个图那么简单很多人用Matplotlib，可能就是plt.plot()、plt.scatter()一把梭，出来的图能用就行。但是，如果你想做出Publication-ready级别的图，或者需要高度定制化的图表，那就得深入了解Matplotlib的底层机制了。今天，我们就来揭秘Matplotlib的“任督二脉”：Artist和Backend。第一部分：Artist——图表世界的建筑师想象一下，你要盖一栋房子。房子里有墙、有窗、有门，还有各种装饰。在Matplotlib的世界里，这些“墙、窗、门、装饰”就对应着Artist对象。Artist是所有你能在图上看到的东西的基类。 1.1 Artist家族谱：谁是我的亲戚？ Matplotlib的Artist家族非常庞大，但我们可以把它分成两大类： Primitive Artist: …

继续阅读“Python高级技术之：`Matplotlib`的`Artist`和`Backend`：如何进行高级绘图定制。”

2025年8月20日

Python高级技术之：如何利用`Pandas`的`multi-index`，处理复杂的多维数据。

各位观众老爷们，晚上好！欢迎来到“Python高级技术之Pandas Multi-Index奇妙夜”。今天咱们要聊聊Pandas里的一个高级玩意儿，叫“Multi-Index”，也就是多层索引。别被这个名字吓到，其实它就是个帮你处理复杂数据的神器。想象一下，如果你要分析一个销售数据，这个数据既按地区分，又按产品类别分，还按年份分，这时候，传统的单层索引就有点力不从心了。 Multi-Index就像一个数据魔方，能让你从各个维度去切片、分析数据，非常灵活。一、什么是Multi-Index？简单来说，Multi-Index就是在DataFrame或Series中使用多个索引级别。就像一本书的目录，第一层是章节，第二层是小节，第三层是段落。通过这种多层结构，你可以更清晰地组织和访问数据。二、为什么要用Multi-Index？处理复杂数据：当你的数据有多个维度时，Multi-Index可以让你更容易地进行数据透视、分组和聚合。提高数据可读性： Multi-Index可以更清晰地展示数据的层次结构，让数据更容易理解。简化数据操作： Multi-Index提供了一些 …

继续阅读“Python高级技术之：如何利用`Pandas`的`multi-index`，处理复杂的多维数据。”

2025年8月20日

Python高级技术之：`SciPy`的稀疏矩阵：`CSR`、`CSC`和`LIL`格式的性能对比。

嘿，大家好！今天咱们聊聊SciPy里的稀疏矩阵，特别是CSR、CSC和LIL这仨兄弟。稀疏矩阵这东西，简单说就是矩阵里大部分元素都是零。如果直接用普通矩阵存，那得多浪费空间啊！所以就有了稀疏矩阵这种专门的存储方式，只存非零元素，省地儿！为啥要有这么多格式？你可能会问，为啥搞这么多格式啊？ CSR、CSC、LIL，光看名字都眼晕。原因很简单，不同的存储格式，在不同的操作上性能不一样。有的适合做加法，有的适合做乘法，有的适合修改元素。就像不同类型的汽车，有的适合跑高速，有的适合越野。先来认识一下这三位： CSR (Compressed Sparse Row): 行压缩稀疏矩阵。顾名思义，按行来压缩的。适合做矩阵向量乘法，尤其是按行访问元素的场景。 CSC (Compressed Sparse Column): 列压缩稀疏矩阵。跟CSR对称，按列来压缩的。适合做矩阵向量乘法，尤其是按列访问元素的场景。 LIL (List of Lists): 链表型稀疏矩阵。适合动态构建矩阵，也就是不断插入新元素的场景。但做数值计算就比较慢了。 Show me the code! …

继续阅读“Python高级技术之：`SciPy`的稀疏矩阵：`CSR`、`CSC`和`LIL`格式的性能对比。”

2025年8月20日

Python高级技术之：如何利用`Cython`为`Pandas`和`NumPy`编写高性能的`C`扩展。

各位久等了，今天咱们聊聊如何用 Cython 这把瑞士军刀，给 Pandas 和 NumPy 这俩数据分析界的扛把子，打造高性能的 C 扩展，让他们如虎添翼，跑得更快！开场白：Python 的速度，永远的痛？ Python 易学易用，库也多如繁星，但在处理大规模数据和复杂计算时，速度就成了绕不开的坎儿。尤其是 Pandas 和 NumPy，虽然它们本身已经做了很多优化，但遇到性能瓶颈时，还是得另辟蹊径。这时候，Cython 就该闪亮登场了。 Cython 是什么？一句话概括：Python + C 的混血儿 Cython 是一种编程语言，它是 Python 的超集，允许你编写 C 代码，并能无缝地与 Python 代码集成。换句话说，你可以用 Cython 来编写高性能的 C 扩展，然后在 Python 中像调用普通 Python 模块一样调用它们。为什么选择 Cython？性能提升： C 代码的执行速度远快于 Python 代码，尤其是对于循环和数值计算。代码复用：可以利用现有的 C/C++ 代码库。易于集成：可以轻松地将 C 扩展集成到 Python 项目中。相对简单 …

继续阅读“Python高级技术之：如何利用`Cython`为`Pandas`和`NumPy`编写高性能的`C`扩展。”

2025年8月20日

Python高级技术之：`NumPy`的`ufunc`（通用函数）：如何编写自定义的`ufunc`。

各位观众老爷们，大家好！今天咱来聊聊 NumPy 里的一个神奇玩意儿：ufunc，也就是通用函数。别看名字挺唬人，其实就是能对 NumPy 数组里的每个元素进行操作的函数。更牛的是，咱还能自己动手编写自定义的 ufunc！是不是有点小激动了？别急，听我慢慢道来。一、啥是ufunc？为啥要用它？简单来说，ufunc 就是 NumPy 提供的、能对数组进行元素级运算的函数。NumPy 内置了大量的 ufunc，比如 sin、cos、exp、log 等等，涵盖了各种数学运算、逻辑运算和位运算。为啥要用 ufunc 呢？原因很简单：快！ NumPy 的 ufunc 都是用 C 语言编写的，经过了高度优化，运行速度非常快。而且，ufunc 可以直接对整个数组进行操作，避免了使用循环的麻烦，代码也更加简洁。举个例子，假设我们要计算一个数组里每个元素的平方： import numpy as np arr = np.array([1, 2, 3, 4, 5]) # 使用循环 result1 = [] for x in arr: result1.append(x * x) result1 = n …

继续阅读“Python高级技术之：`NumPy`的`ufunc`（通用函数）：如何编写自定义的`ufunc`。”

2025年8月20日

Python高级技术之：`Pandas`的`Categorical`类型：如何节省内存和提升处理效率。

各位观众，晚上好！我是你们的老朋友，数据魔法师，今晚咱们聊聊Pandas里的一个“省钱小能手”和“效率加速器”—— Categorical 类型。开场白：数据瘦身术与性能提速包想象一下，你有一张巨大的表格，里面塞满了各种各样的信息，比如客户的性别、所在城市、购买的产品类型等等。这些列的数据类型可能五花八门，有字符串、数字等等。但是仔细观察，你会发现其中一些列，比如“性别”，只有“男”和“女”两种取值；“城市”也只有有限的几个选择。如果直接用字符串或者数字来存储这些列，那简直就是浪费资源！就像你明明只需要带两件衣服出门，却硬要拖一个装满杂物的行李箱。 Categorical 类型就是来帮你解决这个问题的。它可以把这些重复出现的字符串或者数字，用更节省空间的方式存储起来，并且在进行数据分析的时候，还能大幅提升处理速度。第一幕：Categorical类型的“真面目” Categorical 类型本质上是一种用数字编码来表示类别数据的类型。它由两部分组成： categories: 类别本身，也就是列中所有不同的值，可以想象成一个“词汇表”。 codes: 每个值对应的类别在“词汇表”中 …

继续阅读“Python高级技术之：`Pandas`的`Categorical`类型：如何节省内存和提升处理效率。”

2025年8月20日

Python高级技术之：`Python`大数据生态：`Dask`、`Spark`和`Ray`在并行计算中的应用。

各位好，今天咱们来聊聊Python在大数据领域里，怎么用并行计算来提速。别担心，就算你以前没接触过这些概念，我也会尽量用大白话讲明白。咱们今天要说的三个神器分别是：Dask、Spark 和 Ray。它们都是 Python 的好伙伴，能帮你把大数据处理任务分解成小块，让多个 CPU 核心或者多台机器一起干活，从而大大缩短运行时间。开场白：为什么需要并行计算？想象一下，你要统计全国人民的平均年龄。如果一个人一个人的算，得算到猴年马月。但是，如果把全国人民分成很多组，每组算出一个平均年龄，最后再把这些平均年龄加权平均一下，是不是快多了？并行计算就是这个道理。把一个大任务分解成很多小任务，让它们同时进行，最后再把结果合并起来。这样就能充分利用计算资源，提高效率。第一部分：Dask：Python 原生的大数据利器 Dask 可以说是 Python 生态里最亲民的大数据工具了。它的 API 和 Pandas、NumPy 非常相似，所以如果你熟悉 Pandas 和 NumPy，上手 Dask 会非常容易。 1. Dask 的核心概念：延迟计算 Dask 的一个核心概念是“延迟计算”（Del …

继续阅读“Python高级技术之：`Python`大数据生态：`Dask`、`Spark`和`Ray`在并行计算中的应用。”

2025年8月20日

Python高级技术之：`Jupyter Notebook`的魔法命令：`%run`、`%timeit`和`%matplotlib inline`的用法。

各位，早上好！今天我们来聊聊Jupyter Notebook里那些看起来像魔法的命令，它们以%开头，能让你的代码生涯更加轻松愉快。咱们重点关注%run、%timeit和%matplotlib inline这三位。准备好了吗？ Let’s roll! 第一部分：%run – 代码传送门想象一下，你辛辛苦苦写了一个Python脚本，比如叫做my_script.py，里面定义了一些函数、类或者干脆就是一大段逻辑。现在你想在Jupyter Notebook里调用它，怎么办？难道要复制粘贴过来吗？当然不用！%run命令就是为此而生的。 1. 基本用法：一键执行 %run my_script.py 就这么简单。这条命令会执行my_script.py里的所有代码，并将其中定义的变量、函数、类等等，都导入到当前的Jupyter Notebook环境中。这意味着，你可以在Notebook里直接使用my_script.py里定义的任何东西，就像它们原本就在Notebook里一样。 2. 示例：假设我们有一个my_script.py文件，内容如下： # my_script.py …

继续阅读“Python高级技术之：`Jupyter Notebook`的魔法命令：`%run`、`%timeit`和`%matplotlib inline`的用法。”