高级数据聚合：自定义聚合函数与性能优化 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位听众，各位朋友，欢迎来到“高级数据聚合：自定义聚合函数与性能优化”的现场！我是你们的老朋友，江湖人称“码农界的段子手”——老码。今天咱们不聊八卦，只聊代码，保证让大家听得懂、学得会、用得上，顺便还能笑一笑，放松心情。

一、开场白：数据聚合，你真的懂了吗？

咱们先来唠唠嗑，问大家一个问题：数据聚合，你真的懂了吗？ 🤔

很多人听到“数据聚合”这个词，可能觉得高大上，深不可测。其实没那么复杂，它就像我们平时做饭一样，把一堆食材（数据）按照一定的规则（函数）搅拌在一起，变成一道美味佳肴（结果）。

举个例子，你统计班级里所有同学的平均身高，这就是一个典型的聚合操作。你把所有同学的身高收集起来（数据），然后用求平均值的公式（函数）算出一个数值（结果），这就是聚合。

所以说，数据聚合其实无处不在，贯穿我们日常生活的方方面面。只不过，在编程的世界里，我们需要用代码来实现这些聚合操作。

二、默认聚合函数：够用，但不够骚气

在大多数编程语言和数据库中，都内置了一些默认的聚合函数，比如：

SUM(): 求和，把所有数值加起来。
AVG(): 求平均值，把所有数值加起来再除以个数。
COUNT(): 计数，统计有多少个元素。
MAX(): 求最大值，找出所有数值中最大的一个。
MIN(): 求最小值，找出所有数值中最小的一个。

这些默认的聚合函数就像方便面，简单快捷，能解决大部分问题。但有时候，我们想要吃点更特别的，比如麻辣香锅、佛跳墙，那就需要自己动手，定制专属的聚合函数了。

三、自定义聚合函数：打造你的专属料理

自定义聚合函数，顾名思义，就是你自己编写的、用于聚合数据的函数。它就像你自己的独家秘方，可以根据你的特定需求，实现各种奇奇怪怪的聚合操作。

3.1 为什么要自定义聚合函数？

你可能会问，默认的聚合函数不够用吗？为什么要费劲巴拉地自己写？

原因很简单：

需求特殊: 有些聚合逻辑非常复杂，无法用简单的 SUM、AVG 等函数实现。
性能优化: 默认函数可能效率不高，自定义函数可以针对特定场景进行优化。
代码复用: 把常用的聚合逻辑封装成函数，方便在多个地方重复使用。
耍酷装逼: （划掉）展现你高超的编程技巧，让同事们对你刮目相看！😎

3.2 如何自定义聚合函数？

不同的编程语言和数据库，自定义聚合函数的方式略有不同。这里我们以 Python + Pandas 为例，给大家演示一下如何编写一个自定义聚合函数。

假设我们有一份销售数据，包含产品名称、销售额和销售日期。现在我们想统计每个产品的销售天数，也就是每个产品有多少天有销售记录。

import pandas as pd

# 假设我们的数据是这样的
data = {'product': ['A', 'A', 'B', 'B', 'A', 'C'],
        'sales': [100, 200, 150, 250, 120, 80],
        'date': ['2023-01-01', '2023-01-03', '2023-01-02', '2023-01-04', '2023-01-05', '2023-01-03']}
df = pd.DataFrame(data)

# 将日期转换为datetime类型
df['date'] = pd.to_datetime(df['date'])

# 定义一个自定义聚合函数，用于统计销售天数
def count_sales_days(dates):
  """
  统计销售天数
  """
  return dates.nunique()

# 使用groupby和agg函数，应用自定义聚合函数
result = df.groupby('product')['date'].agg(count_sales_days)

print(result)

这段代码首先定义了一个名为 count_sales_days 的函数，它接受一个日期列表作为输入，然后使用 nunique() 方法统计列表中不重复的日期个数。这就是我们的自定义聚合函数。

然后，我们使用 Pandas 的 groupby() 方法，按照产品名称对数据进行分组，再使用 agg() 方法，将自定义聚合函数 count_sales_days 应用到每个分组的日期列上。

运行结果如下：

product
A    3
B    2
C    1
Name: date, dtype: int64

可以看到，产品 A 有 3 天有销售记录，产品 B 有 2 天，产品 C 有 1 天。

3.3 自定义聚合函数的注意事项

输入参数: 搞清楚你的函数需要接收什么类型的输入参数，比如数值、字符串、列表等等。
返回值: 明确你的函数需要返回什么类型的结果，比如数值、字符串、字典等等。
错误处理: 考虑一些特殊情况，比如输入数据为空、数据类型错误等等，做好错误处理。
文档注释: 为你的函数编写清晰的文档注释，方便自己和他人理解。

四、性能优化：让你的代码飞起来

自定义聚合函数虽然强大，但如果写得不好，可能会导致性能问题。就像你精心烹饪了一道美味佳肴，结果发现盐放多了，吃起来齁得慌。

所以，我们需要对自定义聚合函数进行性能优化，让它跑得更快、更稳。

4.1 向量化操作：能用向量，别用循环

向量化操作是提高 Pandas 性能的关键。它利用了 NumPy 的底层优化，可以对整个数据列进行批量处理，避免了使用循环逐个处理数据的低效方式。

举个例子，假设我们想计算每个产品的平均销售额。

低效的循环方式：

def calculate_average_sales(sales):
  """
  计算平均销售额（低效）
  """
  total = 0
  count = 0
  for sale in sales:
    total += sale
    count += 1
  return total / count if count > 0 else 0

result = df.groupby('product')['sales'].agg(calculate_average_sales)

这种方式使用循环逐个累加销售额，效率非常低。

高效的向量化方式：

import numpy as np

def calculate_average_sales_vectorized(sales):
  """
  计算平均销售额（高效）
  """
  return np.mean(sales)

result = df.groupby('product')['sales'].agg(calculate_average_sales_vectorized)

这种方式使用 NumPy 的 mean() 函数，直接对整个销售额列进行计算，效率大大提高。

总结：

尽量使用 Pandas 和 NumPy 提供的内置函数，它们通常都经过了高度优化。
避免使用循环，尽量使用向量化操作。

4.2 Just-In-Time (JIT) 编译：让你的代码“开挂”

Just-In-Time (JIT) 编译是一种运行时编译技术，它可以将 Python 代码编译成机器码，从而提高代码的执行效率。

NumPy 提供了 numba 库，可以方便地对 Python 函数进行 JIT 编译。

举个例子，假设我们想计算每个产品的销售额的标准差。

from numba import njit

@njit
def calculate_std_dev(sales):
  """
  计算标准差（使用numba JIT编译）
  """
  n = len(sales)
  if n <= 1:
    return 0.0
  mean = np.mean(sales)
  sum_sq_diff = 0.0
  for sale in sales:
    sum_sq_diff += (sale - mean) ** 2
  variance = sum_sq_diff / (n - 1)
  return np.sqrt(variance)

result = df.groupby('product')['sales'].agg(calculate_std_dev)

这段代码使用 @njit 装饰器，将 calculate_std_dev 函数标记为需要进行 JIT 编译。这样，在函数第一次被调用时，numba 会将其编译成机器码，从而提高执行效率。

注意事项：

numba 对 NumPy 的支持最好，尽量使用 NumPy 数组作为输入参数。
并非所有 Python 代码都适合 JIT 编译，一些复杂的代码可能会导致编译失败。
JIT 编译需要一定的开销，只对需要频繁调用的函数进行编译。

4.3 数据类型优化：选对类型，事半功倍

选择合适的数据类型，可以有效减少内存占用，提高计算效率。

数值类型: 尽量使用 int32 或 float32 代替 int64 或 float64，除非你的数据确实需要更高的精度。
字符串类型: 如果字符串的取值范围有限，可以考虑使用 category 类型，它可以将字符串映射到整数，从而减少内存占用。

举个例子，假设我们的产品名称列是字符串类型，但只有少数几个不同的值。

# 将产品名称列转换为category类型
df['product'] = df['product'].astype('category')

这样，Pandas 会将产品名称映射到整数，从而减少内存占用，提高分组和聚合的效率。

4.4 并行计算：众人拾柴火焰高

如果你的数据量非常大，单线程的计算速度可能无法满足需求。这时，可以考虑使用并行计算，将数据分成多个部分，让多个 CPU 核心同时进行计算。

Pandas 结合 dask 库可以实现并行计算。

import dask.dataframe as dd

# 将Pandas DataFrame转换为Dask DataFrame
ddf = dd.from_pandas(df, npartitions=4) # 将数据分成4个部分

# 使用Dask DataFrame进行分组和聚合
result = ddf.groupby('product')['sales'].mean().compute() # 使用compute()触发计算

print(result)

这段代码首先将 Pandas DataFrame 转换为 Dask DataFrame，并指定将数据分成 4 个部分。然后，使用 Dask DataFrame 进行分组和聚合操作。最后，调用 compute() 方法触发计算，Dask 会自动将计算任务分配到多个 CPU 核心上并行执行。

注意事项：

并行计算需要一定的开销，只对数据量非常大的情况有效。
并行计算可能会增加代码的复杂性，需要仔细考虑数据分区和任务调度。

五、总结：代码之道，在于精益求精

今天我们一起学习了自定义聚合函数和性能优化的一些技巧。希望大家能够记住以下几点：

数据聚合是数据分析的重要组成部分，掌握它能让你更好地理解数据。
自定义聚合函数可以满足各种特殊需求，让你的数据分析更加灵活。
性能优化是代码质量的重要指标，让你的代码跑得更快、更稳。
代码之道，在于精益求精，不断学习和实践，才能成为真正的编程高手。💪

最后，送给大家一句话：

“Bug 是程序员最好的老师，每一次 Debug 都是一次成长的机会。”

感谢大家的聆听，祝大家编程愉快！🎉

发表回复 取消回复

发表回复取消回复