向量化操作的深度理解与自定义 UFuncs - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

向量化操作的深度理解与自定义 UFuncs：让我们一起跳支优雅的NumPy华尔兹💃🕺

各位编程界的探险家们，大家好！我是你们的老朋友，一个在代码海洋里摸爬滚打多年的老水手。今天，咱们要一起扬帆起航，探索NumPy这座宝藏岛屿上的两颗耀眼明珠：向量化操作和自定义UFuncs。

别害怕！虽然听起来高大上，但其实它们就像你厨房里的搅拌机和菜刀，掌握了它们，就能让你在数据处理的厨房里游刃有余，做出美味佳肴。🍜

一、向量化操作：告别循环，拥抱飞一般的感觉🚀

想象一下，你有一张布满像素点的图片，每个像素点都有红绿蓝三个颜色值。现在，你想把每个像素点的红色值都增加50。如果你用传统的循环方式，就像这样：

import numpy as np

image = np.random.randint(0, 255, size=(100, 100, 3)) # 模拟一张 100x100 的彩色图片

for i in range(image.shape[0]):
    for j in range(image.shape[1]):
        image[i, j, 0] += 50  # 增加红色值

这段代码能完成任务，但效率嘛…就像蜗牛爬树，慢到让你怀疑人生。🐌

这时候，向量化操作就闪亮登场了！它就像一辆法拉利，直接把你的数据嗖的一声带到终点。🏁

image[:, :, 0] += 50  # 向量化操作，一步到位！

看到没？一行代码就搞定了！这就是向量化操作的魅力所在。它利用了NumPy底层C语言实现的优势，能够并行处理数组中的所有元素，极大地提高了运算速度。

为什么向量化操作这么快？

减少Python解释器的开销： 循环需要在Python解释器中逐个执行，而向量化操作直接调用底层的C语言函数，减少了Python的解释开销。
利用CPU的SIMD指令： SIMD（Single Instruction, Multiple Data）指令允许CPU一次性对多个数据执行相同的操作，向量化操作可以充分利用SIMD指令的优势。
连续内存访问： NumPy数组在内存中是连续存储的，向量化操作可以更高效地访问这些数据。

向量化操作的适用场景：

数学运算： 加、减、乘、除、指数、对数等。
逻辑运算： 与、或、非、大于、小于等。
比较运算： 等于、不等于、大于、小于等。
函数应用： 对数组中的每个元素应用相同的函数。

一些常用的向量化操作函数：

函数	描述	示例
`np.add()`	元素级别的加法。	`np.add(a, b)` # a + b
`np.subtract()`	元素级别的减法。	`np.subtract(a, b)` # a – b
`np.multiply()`	元素级别的乘法。	`np.multiply(a, b)` # a * b
`np.divide()`	元素级别的除法。	`np.divide(a, b)` # a / b
`np.power()`	元素级别的幂运算。	`np.power(a, 2)` # a 的平方
`np.sqrt()`	元素级别的平方根。	`np.sqrt(a)` # a 的平方根
`np.exp()`	元素级别的指数运算。	`np.exp(a)` # e 的 a 次方
`np.log()`	元素级别的自然对数运算。	`np.log(a)` # a 的自然对数
`np.sin()`	元素级别的正弦运算。	`np.sin(a)` # a 的正弦值
`np.cos()`	元素级别的余弦运算。	`np.cos(a)` # a 的余弦值
`np.greater()`	元素级别的比较，如果第一个数组的元素大于第二个数组的对应元素，则返回 `True`，否则返回 `False`。	`np.greater(a, b)` # a > b
`np.less()`	元素级别的比较，如果第一个数组的元素小于第二个数组的对应元素，则返回 `True`，否则返回 `False`。	`np.less(a, b)` # a < b
`np.equal()`	元素级别的比较，如果第一个数组的元素等于第二个数组的对应元素，则返回 `True`，否则返回 `False`。	`np.equal(a, b)` # a == b
`np.logical_and()`	元素级别的逻辑与运算。	`np.logical_and(a, b)` # a and b (注意a和b都是布尔数组)
`np.logical_or()`	元素级别的逻辑或运算。	`np.logical_or(a, b)` # a or b (注意a和b都是布尔数组)
`np.where()`	根据条件从 `x` 或 `y` 中选择元素。它返回一个数组，其中包含满足条件 `condition` 的 `x` 中的元素，以及不满足条件 `condition` 的 `y` 中的元素。	`np.where(condition, x, y)` # 类似三元表达式：condition ? x : y

小提示： 向量化操作要求参与运算的数组形状兼容，可以使用广播机制来自动调整数组的形状。

二、自定义UFuncs：打造你的专属函数工厂🏭

有时候，NumPy内置的函数并不能满足我们的需求。比如，你想定义一个函数，根据温度值返回不同的天气状况：

低于0度：冰天雪地 ❄️
0-10度：寒冷 🥶
10-20度：凉爽 😌
20-30度：舒适 😊
高于30度：炎热 🥵

你可以这样定义一个普通的Python函数：

def get_weather(temp):
    if temp < 0:
        return "冰天雪地 ❄️"
    elif temp < 10:
        return "寒冷 🥶"
    elif temp < 20:
        return "凉爽 😌"
    elif temp < 30:
        return "舒适 😊"
    else:
        return "炎热 🥵"

但是，如果你想把这个函数应用到一个NumPy数组上，就需要用到循环，效率又会降低。这时候，自定义UFuncs就派上用场了！

什么是UFuncs？

UFuncs（Universal Functions）是NumPy中的通用函数，它可以对数组中的每个元素进行操作，并返回一个新的数组。NumPy内置了大量的UFuncs，比如np.sin()、np.cos()、np.exp()等。

如何创建自定义UFuncs？

NumPy提供了np.frompyfunc()函数，可以将一个普通的Python函数转换为UFuncs。

import numpy as np

def get_weather(temp):
    if temp < 0:
        return "冰天雪地 ❄️"
    elif temp < 10:
        return "寒冷 🥶"
    elif temp < 20:
        return "凉爽 😌"
    elif temp < 30:
        return "舒适 😊"
    else:
        return "炎热 🥵"

# 创建UFuncs
get_weather_ufunc = np.frompyfunc(get_weather, 1, 1) # 函数名，输入参数个数，输出参数个数

# 应用UFuncs
temps = np.array([-10, 5, 15, 25, 35])
weathers = get_weather_ufunc(temps)

print(weathers) # ['冰天雪地 ❄️' '寒冷 🥶' '凉爽 😌' '舒适 😊' '炎热 🥵']

解释：

np.frompyfunc(get_weather, 1, 1)：将get_weather函数转换为UFuncs，其中1表示输入参数的个数，1表示输出参数的个数。
get_weather_ufunc(temps)：将UFuncs应用到temps数组上，返回一个新的数组weathers，其中包含了每个温度值对应的天气状况。

进阶：使用np.vectorize()简化UFuncs创建

np.vectorize()函数是np.frompyfunc()的更高级版本，它可以自动推断输入和输出参数的类型，并提供更多的控制选项。

import numpy as np

def get_weather(temp):
    if temp < 0:
        return "冰天雪地 ❄️"
    elif temp < 10:
        return "寒冷 🥶"
    elif temp < 20:
        return "凉爽 😌"
    elif temp < 30:
        return "舒适 😊"
    else:
        return "炎热 🥵"

# 创建UFuncs
get_weather_ufunc = np.vectorize(get_weather)

# 应用UFuncs
temps = np.array([-10, 5, 15, 25, 35])
weathers = get_weather_ufunc(temps)

print(weathers) # ['冰天雪地 ❄️' '寒冷 🥶' '凉爽 😌' '舒适 😊' '炎热 🥵']

np.vectorize 的一个好处就是它还可以指定返回值的类型，例如：

import numpy as np

def myfunc(a, b):
  "Return a-b if a>b, otherwise return a+b"
  if a > b:
    return a - b
  else:
    return a + b

vfunc = np.vectorize(myfunc, otypes=[float])  # 指定返回类型为float
print(vfunc([1,2,3,4], [5,6,7,8]))

自定义UFuncs的注意事项：

性能： 虽然UFuncs可以提高代码的简洁性，但由于底层仍然调用Python函数，因此性能可能不如纯粹的NumPy向量化操作。
类型推断： NumPy可能会对UFuncs的输入和输出类型进行推断，如果推断错误，可能会导致意外的结果。可以使用otypes参数显式指定输出类型。
广播机制： UFuncs也支持广播机制，可以自动调整输入数组的形状。

三、实战演练：图像处理小案例 🖼️

让我们用一个简单的图像处理案例来巩固一下所学知识。假设我们有一张灰度图片，现在想对图片进行二值化处理，将像素值大于128的设为255，小于等于128的设为0。

使用向量化操作：

import numpy as np
import matplotlib.pyplot as plt # 可视化图像

# 生成一张随机灰度图片
image = np.random.randint(0, 256, size=(100, 100), dtype=np.uint8)

# 二值化处理
binary_image = np.where(image > 128, 255, 0).astype(np.uint8)

# 显示图像
plt.subplot(1,2,1)
plt.imshow(image, cmap='gray')
plt.title('Original Image')

plt.subplot(1,2,2)
plt.imshow(binary_image, cmap='gray')
plt.title('Binary Image')

plt.show()

解释：

np.where(image > 128, 255, 0)：根据条件image > 128，将image数组中大于128的元素替换为255，小于等于128的元素替换为0。
.astype(np.uint8)：将数组的数据类型转换为np.uint8，确保像素值的范围在0-255之间。

四、总结：让NumPy成为你的得力助手 💪

今天，我们一起探索了NumPy中向量化操作和自定义UFuncs的奥秘。掌握了它们，你就能像一位经验丰富的指挥家，轻松驾驭数据处理的交响乐团，让你的代码更加简洁、高效。

记住，编程不仅仅是写代码，更是一种创造性的活动。希望你能灵活运用这些知识，创造出更多有趣、有用的工具。

最后，送给大家一句我最喜欢的名言：

"Talk is cheap. Show me the code." – Linus Torvalds

希望大家多多实践，不断提升自己的编程技能！祝大家编程愉快！🎉

向量化操作的深度理解与自定义 UFuncs：让我们一起跳支优雅的NumPy华尔兹💃🕺

发表回复 取消回复

发表回复取消回复