Python高级技术之：`NumPy`的`ufunc`（通用函数）：如何编写自定义的`ufunc`。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷们，大家好！今天咱来聊聊 NumPy 里的一个神奇玩意儿：ufunc，也就是通用函数。别看名字挺唬人，其实就是能对 NumPy 数组里的每个元素进行操作的函数。更牛的是，咱还能自己动手编写自定义的 ufunc！是不是有点小激动了？别急，听我慢慢道来。

一、啥是ufunc？为啥要用它？

简单来说，ufunc 就是 NumPy 提供的、能对数组进行元素级运算的函数。NumPy 内置了大量的 ufunc，比如 sin、cos、exp、log 等等，涵盖了各种数学运算、逻辑运算和位运算。

为啥要用 ufunc 呢？原因很简单：快！

NumPy 的 ufunc 都是用 C 语言编写的，经过了高度优化，运行速度非常快。而且，ufunc 可以直接对整个数组进行操作，避免了使用循环的麻烦，代码也更加简洁。

举个例子，假设我们要计算一个数组里每个元素的平方：

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

# 使用循环
result1 = []
for x in arr:
    result1.append(x * x)
result1 = np.array(result1)

# 使用 ufunc
result2 = np.square(arr)

print("循环计算结果:", result1)
print("ufunc计算结果:", result2)

#对比时间
import time
n = 1000000
arr = np.arange(n)

# 使用循环
start_time = time.time()
result1 = []
for x in arr:
    result1.append(x * x)
result1 = np.array(result1)
end_time = time.time()
print("循环计算时间:", end_time - start_time)

# 使用 ufunc
start_time = time.time()
result2 = np.square(arr)
end_time = time.time()
print("ufunc计算时间:", end_time - start_time)

你可以运行一下这段代码，感受一下 ufunc 的速度优势。特别是在处理大型数组时，ufunc 的效率提升非常明显。

二、ufunc 的类型：一元和二元

根据输入参数的个数，ufunc 可以分为两种类型：

一元 ufunc (Unary ufunc): 接受一个输入数组，返回一个输出数组。例如，np.sin(arr)、np.exp(arr)。
二元 ufunc (Binary ufunc): 接受两个输入数组，返回一个输出数组。例如，np.add(arr1, arr2)、np.multiply(arr1, arr2)。

还有一些特殊的 ufunc，可以接受多个输入数组，或者返回多个输出数组，但比较少见。

三、ufunc 的属性和方法

ufunc 对象有一些常用的属性和方法，可以帮助我们更好地理解和使用它们。

ufunc.nin: 输入参数的个数。
ufunc.nout: 输出参数的个数。
ufunc.ntypes: 支持的数据类型组合的个数。
ufunc.types: 一个列表，包含了所有支持的数据类型组合。
ufunc.identity: 单位元素，对于某些 ufunc (例如 np.add、np.multiply) 才有意义。
ufunc.reduce(array, axis=None, dtype=None, out=None, keepdims=False, initial=<no value>, where=True): 沿着指定的轴对数组进行归约操作。
ufunc.accumulate(array, axis=0, dtype=None, out=None, initial=<no value>, where=True): 沿着指定的轴计算累计结果。
ufunc.reduceat(array, indices, axis=0, dtype=None, out=None): 在指定的索引位置进行归约操作。
ufunc.outer(array1, array2, / , out=None): 计算两个数组的外部积。

这些属性和方法可能有点抽象，咱们结合例子来说明一下。

import numpy as np

# 查看 np.add 的属性
print("np.add.nin:", np.add.nin)
print("np.add.nout:", np.add.nout)
print("np.add.ntypes:", np.add.ntypes)
print("np.add.types:", np.add.types)
print("np.add.identity:", np.add.identity)

# 使用 reduce
arr = np.array([1, 2, 3, 4, 5])
sum_result = np.add.reduce(arr)  # 计算数组元素的和
print("sum_result:", sum_result)

# 使用 accumulate
arr = np.array([1, 2, 3, 4, 5])
accumulate_result = np.add.accumulate(arr)  # 计算累计和
print("accumulate_result:", accumulate_result)

# 使用 reduceat
arr = np.array([1, 2, 3, 4, 5])
indices = [0, 2, 4]
reduceat_result = np.add.reduceat(arr, indices)  # 在指定索引位置进行归约
print("reduceat_result:", reduceat_result)

# 使用 outer
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5])
outer_result = np.multiply.outer(arr1, arr2)  # 计算外部积
print("outer_result:", outer_result)

四、重头戏：编写自定义ufunc

前面说了这么多，都是铺垫。现在，咱们来挑战一下，自己编写一个 ufunc！

编写自定义 ufunc 主要有两种方法：

使用 NumPy 的 C API (手动编写 C 代码)：这种方法比较底层，需要对 C 语言有一定的了解。
使用 numpy.frompyfunc (基于 Python 函数)：这种方法比较简单，只需要编写一个 Python 函数，然后使用 numpy.frompyfunc 将其转换为 ufunc。

考虑到大多数人对 C 语言不太熟悉，咱们重点介绍第二种方法。

4.1 使用 numpy.frompyfunc

numpy.frompyfunc 的语法如下：

numpy.frompyfunc(func, nin, nout)

func: 要转换成 ufunc 的 Python 函数。
nin: 输入参数的个数。
nout: 输出参数的个数。

举个例子，假设我们要编写一个 ufunc，计算两个数的平方和：

import numpy as np

def square_sum(x, y):
    return x * x + y * y

# 将 Python 函数转换为 ufunc
square_sum_ufunc = np.frompyfunc(square_sum, 2, 1)

# 使用 ufunc
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
result = square_sum_ufunc(arr1, arr2)
print("square_sum_ufunc result:", result)

是不是很简单？只需要定义一个 Python 函数，然后用 numpy.frompyfunc 包装一下，就可以像使用内置 ufunc 一样使用它了。

4.2 自定义ufunc的进阶：处理不同数据类型

上面的例子只能处理整数或浮点数。如果我们要处理其他数据类型，比如复数、字符串等，该怎么办呢？

numpy.frompyfunc 默认会将输入参数转换为 object 类型，这会导致性能下降。为了提高性能，我们可以使用 numpy.vectorize 来指定输入和输出的数据类型。

numpy.vectorize 的语法如下：

numpy.vectorize(pyfunc, otypes=None, doc=None, excluded=None, cache=False, signature=None)

pyfunc: 要转换成 ufunc 的 Python 函数。
otypes: 一个包含输出数据类型的列表。
signature: 一个字符串，指定输入和输出参数的类型。

举个例子，假设我们要编写一个 ufunc，计算两个复数的和，并返回一个复数：

import numpy as np

def complex_sum(x, y):
    return x + y

# 使用 vectorize 指定数据类型
complex_sum_ufunc = np.vectorize(complex_sum, otypes=[np.complex128])

# 使用 ufunc
arr1 = np.array([1 + 2j, 3 + 4j])
arr2 = np.array([5 + 6j, 7 + 8j])
result = complex_sum_ufunc(arr1, arr2)
print("complex_sum_ufunc result:", result)

在这个例子中，我们使用 otypes=[np.complex128] 指定输出数据类型为 complex128，这样可以避免不必要的类型转换，提高性能。

4.3 自定义ufunc的终极挑战：处理多个输出

有些时候，我们需要编写一个 ufunc，返回多个输出。例如，我们要编写一个 ufunc，计算一个数的实部和虚部：

import numpy as np

def complex_split(x):
    return x.real, x.imag

# 使用 vectorize 处理多个输出
complex_split_ufunc = np.vectorize(complex_split, otypes=[np.float64, np.float64])

# 使用 ufunc
arr = np.array([1 + 2j, 3 + 4j])
real_part, imag_part = complex_split_ufunc(arr)
print("real_part:", real_part)
print("imag_part:", imag_part)

在这个例子中，我们使用 otypes=[np.float64, np.float64] 指定两个输出的数据类型都为 float64。注意，vectorize 会将多个输出打包成一个元组，所以我们需要使用多个变量来接收结果。

五、自定义ufunc的注意事项

性能问题： 使用 numpy.frompyfunc 或 numpy.vectorize 创建的 ufunc，其性能通常不如 NumPy 内置的 ufunc。因为 Python 函数的执行速度比较慢。如果对性能要求很高，建议使用 C API 编写 ufunc。
数据类型： 尽量明确指定输入和输出的数据类型，避免不必要的类型转换。
广播机制： ufunc 支持广播机制，可以对不同形状的数组进行操作。需要确保你的 Python 函数能够处理广播后的数组。
错误处理： 在 Python 函数中，要处理可能出现的错误，例如除零错误、溢出错误等。

六、实战案例：自定义一个图像处理ufunc

咱们来一个稍微复杂一点的例子，自定义一个图像处理的 ufunc。假设我们要编写一个 ufunc，将图像的像素值进行归一化，使其范围在 0 到 1 之间。

import numpy as np
import matplotlib.pyplot as plt  # 用于显示图像

def normalize_pixel(pixel):
    """将像素值归一化到 0 到 1 之间"""
    return pixel / 255.0

# 使用 vectorize 创建 ufunc
normalize_ufunc = np.vectorize(normalize_pixel, otypes=[np.float64])

# 加载图像 (你需要先安装 Pillow 库: pip install Pillow)
try:
    from PIL import Image
    img = Image.open("your_image.jpg")  # 替换成你的图像文件路径
    img_array = np.array(img)
except FileNotFoundError:
    print("图像文件未找到，请检查文件路径。")
    exit()
except ImportError:
    print("Pillow 库未安装，请安装 Pillow 库 (pip install Pillow)。")
    exit()

# 使用 ufunc 进行归一化
normalized_img_array = normalize_ufunc(img_array)

# 显示图像
plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)
plt.imshow(img_array)
plt.title("Original Image")

plt.subplot(1, 2, 2)
plt.imshow(normalized_img_array)
plt.title("Normalized Image")

plt.show()

在这个例子中，我们首先定义了一个 normalize_pixel 函数，将单个像素值归一化到 0 到 1 之间。然后，我们使用 numpy.vectorize 将这个函数转换为 ufunc。最后，我们加载一张图像，使用 ufunc 对图像的像素值进行归一化，并显示归一化后的图像。

七、总结

今天咱们聊了 NumPy 的 ufunc，包括 ufunc 的概念、类型、属性和方法，以及如何使用 numpy.frompyfunc 和 numpy.vectorize 编写自定义 ufunc。虽然自定义 ufunc 的性能不如 NumPy 内置的 ufunc，但在某些情况下，它可以帮助我们简化代码，提高开发效率。

希望今天的讲解对你有所帮助。下次有机会，咱再聊聊 NumPy 的其他高级特性。各位，下课！

发表回复 取消回复

发表回复取消回复