numpy - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年9月20日

如何使用`NumPy`的`C`接口和`ufunc`实现`自定义`的`向量化`函数。

好的，下面我们开始本次关于NumPy C-API 和 UFuncs 的自定义向量化函数实现的讲座。 NumPy C-API 和 UFuncs：打造高性能自定义向量化函数本次讲座将深入探讨如何利用 NumPy 的 C-API 和 UFuncs（Universal Functions）来实现自定义的向量化函数。我们将从 NumPy C-API 的基础开始，逐步深入到 UFuncs 的创建和使用，并通过实际例子演示如何将 C 代码无缝集成到 NumPy 中，从而显著提升计算密集型任务的性能。 1. NumPy C-API 基础 NumPy C-API 提供了一组 C 函数和宏，允许开发者直接访问和操作 NumPy 数组。这使得我们能够利用 C 语言的性能优势来处理 NumPy 数据，从而实现高度优化的数值计算。头文件：要使用 NumPy C-API，首先需要在 C 代码中包含 numpy/arrayobject.h 头文件。 #include <Python.h> // 必须先包含 Python.h #include <numpy/arrayobject.h> …

继续阅读“如何使用`NumPy`的`C`接口和`ufunc`实现`自定义`的`向量化`函数。”

2025年9月20日

深入理解`NumPy`的`广播机制`和`向量化`操作，并解析其`内存`布局。

NumPy 广播机制、向量化操作与内存布局深度解析各位同学，大家好！今天我们来深入探讨 NumPy 中至关重要的两个概念：广播机制和向量化操作，以及它们与 NumPy 数组内存布局之间的关系。理解这些概念对于编写高效的 NumPy 代码至关重要。一、NumPy 广播机制 (Broadcasting) 1.1 广播机制的定义与目的广播机制是 NumPy 的一项强大功能，它允许我们在形状不同的数组之间执行算术运算。其核心目的是在没有显式复制数据的情况下，使不同形状的数组能够进行运算。这显著提高了代码的效率和简洁性。 1.2 广播机制的规则广播机制遵循以下规则：维度对齐：从数组的尾部维度开始比较，如果两个数组的维度大小相同，或者其中一个数组的维度大小为 1，则这两个数组在当前维度上是兼容的。维度扩展：如果一个数组的维度小于另一个数组，则在其维度较小的数组的前面添加大小为 1 的维度，直到两个数组的维度数量相同。广播执行：如果两个数组在某个维度上的大小不同，但其中一个数组在该维度上的大小为 1，那么 NumPy 会沿着该维度“广播”大小为 1 的数组，使其与另一个数组的 …

继续阅读“深入理解`NumPy`的`广播机制`和`向量化`操作，并解析其`内存`布局。”

2025年8月20日

Python高级技术之：`NumPy`的`ndarray`：内存布局、`strides`和`broadcast`的底层机制。

大家好，欢迎来到“NumPy底层探秘”讲座，我是今天的导游老王。今天咱们不聊虚的，直接扒开NumPy的心脏，看看ndarray这玩意儿是怎么在内存里安家的，strides又是怎么玩转索引的，还有broadcast这魔法是如何炼成的。准备好了吗？系好安全带，发车！第一站：内存布局——ndarray的安身之所想象一下，你是一位房地产开发商，手头有一堆数据要安排入住。NumPy的ndarray就是你的小区，而你的任务就是给这些数据分配房间。 ndarray在内存中存储数据时，采用的是连续的内存块。这就好比小区里的房子是挨个儿盖的，保证了数据的紧凑性。但是，数据类型不同，需要的房间大小也不同啊！比如，int32类型的数组，每个元素需要4个字节；float64类型的数组，每个元素需要8个字节。NumPy会根据你指定的数据类型，提前规划好整个小区的大小。 import numpy as np # 创建一个 int32 类型的数组 arr_int = np.array([1, 2, 3, 4, 5], dtype=np.int32) print(f”数组数据类型: {arr_int.dtype …

继续阅读“Python高级技术之：`NumPy`的`ndarray`：内存布局、`strides`和`broadcast`的底层机制。”

2025年8月18日

Python高级技术之：`Python`的`Pandas`和`NumPy`：如何利用向量化操作避免`for`循环。

各位观众，大家好！我是今天的主讲人，很高兴能和大家一起聊聊Python里Pandas和NumPy这对好基友，以及如何利用它们的向量化操作，优雅地告别那些磨人的for循环。今天的主题是：Python高级技术之：Python的Pandas和NumPy：如何利用向量化操作避免for循环。记住，我们的目标是：能不用for循环，就坚决不用！第一部分：for循环的痛点在深入向量化操作之前，我们先来回顾一下for循环。for循环就像一个勤勤恳恳的老黄牛，一条数据一条数据地处理。虽然可靠，但效率实在不敢恭维。举个例子，假设我们有一个包含100万个数字的列表，现在想把每个数字都乘以2。 import time data = list(range(1000000)) # 使用for循环 start_time = time.time() result_for = [] for x in data: result_for.append(x * 2) end_time = time.time() print(f”For循环耗时: {end_time – start_time:.4f} 秒”) 这段代码 …

继续阅读“Python高级技术之：`Python`的`Pandas`和`NumPy`：如何利用向量化操作避免`for`循环。”

2025年8月18日

Python高级技术之：`GIL`对`NumPy`等科学计算库的影响：如何利用`C`扩展绕过`GIL`。

各位听众，晚上好！我是今晚的讲师，很高兴能和大家一起探讨Python中一个既让人爱又让人恨的话题：GIL（Global Interpreter Lock）以及它对NumPy等科学计算库的影响，以及如何通过C扩展来绕过这个“全局锁”。先别急着喊"坑爹"，GIL的确是Python并发编程中的一个痛点，但理解它、掌握它，我们就能更好地利用Python的强大功能。一、GIL是个啥玩意儿？为啥会有它？想象一下，你家只有一个卫生间（单核CPU），一家人（多个线程）都想用，为了避免大家同时进去导致“资源争用”（数据混乱），你家制定了一个规则：谁拿到卫生间的钥匙（GIL），谁才能进去使用。用完之后，必须把钥匙交出来，让其他人有机会进去。这就是GIL的大致工作原理。GIL是一个全局解释器锁，它保证在任何时刻，只有一个线程能够执行Python字节码。这意味着，即使你的机器有多个CPU核心，你的Python程序也只能利用一个核心来执行Python代码。为什么Python要引入GIL呢？这要追溯到Python的早期设计。GIL最初是为了简化C扩展的编写，并解决Python内存管理 …

继续阅读“Python高级技术之：`GIL`对`NumPy`等科学计算库的影响：如何利用`C`扩展绕过`GIL`。”

2025年7月9日

CuPy：GPU 加速的 NumPy 兼容数组运算

好嘞，各位老铁，今天咱们来聊聊CuPy这个神器！ CuPy：让你的 NumPy 飞起来！话说程序员的世界里，数据处理那是家常便饭。NumPy，这哥们儿，相信大家都熟得不能再熟了，Python 数据科学的基石啊！矩阵运算、线性代数，那叫一个溜。但是，问题来了，数据量一大，CPU 就开始吭哧吭哧喘粗气了，这时候，GPU 就得闪亮登场了！ CuPy，就是这么个救星！它就像 NumPy 的孪生兄弟，API 几乎一样，但是，背后跑的可是 NVIDIA 的 CUDA，让你的计算直接在 GPU 上起飞！简单来说，就是 NumPy 的代码，只要稍微改改，就能享受 GPU 的加速，这感觉，倍儿爽！为啥要用 CuPy？咱们先来摆摆道理，讲讲 CuPy 的好处，免得大家觉得我在吹牛：快！真快！ GPU 的并行计算能力，那不是盖的。对于大规模数据，CuPy 比 NumPy 快几个数量级，那都是家常便饭。 NumPy 兼容性好！这点很重要，意味着你不用学新的 API，NumPy 的代码，稍微改改就能用。学习成本几乎为零！ CUDA 加持！ CUDA，NVIDIA 的亲儿子，GPU 计算的标配。CuPy …

继续阅读“CuPy：GPU 加速的 NumPy 兼容数组运算”

2025年7月9日

Cython 与 NumPy 结合：编写 C 扩展以加速关键数值循环

好的，没问题！让我们开始这场关于 Cython 与 NumPy 联姻，加速数值循环的“相亲大会”。大家好，欢迎来到 Cython 与 NumPy 的“速度与激情”讲座！今天我们要聊聊一个让 Python 代码飞起来的秘诀：Cython。别害怕，它不是什么魔法咒语，只是一个能让你用 Python 的语法写 C 代码的工具。而 NumPy，则是我们数值计算的得力助手。当它们俩结合在一起，就像蝙蝠侠有了超人，速度直接起飞！为什么要 Cython？Python 不是挺好的吗？ Python 确实很棒，写起来简单，库也多。但是，它有个小缺点：慢。因为 Python 是解释型语言，运行的时候需要解释器一行行翻译，这就像你在跟一个只会英语的人说话，每次都要找个翻译，效率自然不高。而 C 语言呢？它是编译型语言，代码直接被翻译成机器码，电脑可以直接执行，速度杠杠的。Cython 的作用就是让你用 Python 的语法写 C 代码，然后编译成 Python 可以调用的扩展模块，这样就能在 Python 里享受到 C 的速度啦！ NumPy：数值计算的好伙伴 NumPy 大家都知道，它提供了高效的 …

继续阅读“Cython 与 NumPy 结合：编写 C 扩展以加速关键数值循环”

2025年7月9日

NumPy `ufunc` 广播机制：深入理解高性能数组运算的奥秘

NumPy ufunc 广播机制：深入理解高性能数组运算的奥秘大家好！欢迎来到本次“NumPy ufunc 广播机制：高性能数组运算的奥秘”讲座。今天咱们不讲高深的理论，就来聊聊 NumPy 里一个神奇又实用的小伙伴——ufunc 广播机制。这玩意儿听起来玄乎，实际上就是 NumPy 为了让你少写几行 for 循环，把数组运算变得更高效而耍的一个小聪明。开场白：谁还没被 NumPy 的广播机制坑过？我相信，在座的各位，只要用过 NumPy，大概率都被它的广播机制“惊喜”过。要么是得到了意想不到的结果，要么是直接报错，让你一脸懵逼。别慌，这很正常！广播机制就像一个调皮的小精灵，你摸清了它的脾气，就能驾驭它，让它为你所用；摸不清楚，它就会给你制造点小麻烦。所以，今天咱们的任务就是：彻底搞懂 NumPy 的广播机制，让它成为你数据分析工具箱里的一把利器，而不是一颗随时爆炸的地雷。什么是 ufunc？先来认识一下主角在深入广播机制之前，我们先简单认识一下 ufunc。ufunc (Universal Function) 是 NumPy 里的通用函数，它能对 NumPy 数组里的每个 …

继续阅读“NumPy `ufunc` 广播机制：深入理解高性能数组运算的奥秘”

2025年7月8日

CuPy：GPU 加速的 NumPy 兼容数组运算

好的，各位老铁，今天咱来聊聊CuPy，一个能让你的NumPy代码像坐了火箭一样飞起来的秘密武器！ CuPy：让你的NumPy代码“上天”！咱们都知道，NumPy是Python数据科学生态系统的基石，处理各种数组运算那是杠杠的。但是，当数据量越来越大，计算越来越复杂的时候，NumPy也难免有点力不从心，感觉像老牛拉破车，速度上不去啊！这时候，CuPy就该闪亮登场了。CuPy是一个NumPy兼容的数组库，它使用CUDA来利用NVIDIA GPU的强大并行计算能力。简单来说，就是把NumPy的运算扔给GPU去算，GPU可是专门为并行计算设计的，算起来那叫一个快！为什么选择CuPy？ NumPy兼容性：这是CuPy最大的优势之一。如果你已经熟悉NumPy，那么学习CuPy几乎零成本。大部分NumPy代码可以直接在CuPy上运行，只需要做一些简单的修改，比如把np.array换成cp.array。 GPU加速：废话，这不就是CuPy的本职工作嘛！在某些情况下，CuPy可以比NumPy快几个数量级。想象一下，你的代码原本要跑几个小时，用了CuPy可能只需要几分钟，甚至几秒钟，这感觉，简直 …

继续阅读“CuPy：GPU 加速的 NumPy 兼容数组运算”

2025年7月8日

Cython 与 NumPy 结合：编写 C 扩展以加速关键数值循环

好的，各位朋友，欢迎来到今天的“Cython 与 NumPy 的爱恨情仇：如何让你的代码像闪电侠一样快”讲座。今天我们要聊聊如何利用 Cython 这位“超级英雄”，让 NumPy 的速度更上一层楼，尤其是那些“慢吞吞”的数值循环。开场白：NumPy 虽好，循环难逃 NumPy，数据科学界的扛把子，数组运算速度那是杠杠的。但凡涉及到大规模数组的元素级操作，尤其是需要用到循环的时候，Python 的解释器就成了“猪队友”，拖慢了整个进度。想象一下，你要给一个百万级别的 NumPy 数组的每个元素都做点复杂运算，Python 循环一跑起来，你可能要泡杯咖啡，刷刷手机，甚至还能打两局游戏。原因很简单：Python 是动态类型语言，每次循环都要检查变量类型，这就像每次过马路都要确认一下红绿灯，很安全，但很费时间。而 NumPy 的向量化操作，其实是把循环交给了底层的 C 语言，速度自然快得多。但是，总有些场景，NumPy 的向量化也无能为力，比如一些复杂的依赖于相邻元素的操作，或者需要自定义的、非常规的运算。这时候，我们就需要 Cython 出马了。 Cython：Python 的超能力 …

继续阅读“Cython 与 NumPy 结合：编写 C 扩展以加速关键数值循环”