聚合函数：`sum`, `mean`, `std`, `max`, `min` 等 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

聚合函数：数据海洋里的灯塔，照亮统计分析之路

各位观众，大家好！我是你们的老朋友，数据挖掘界的“段子手”——码农老王。今天，咱们不聊996，不谈秃头危机，来点轻松愉快的，聊聊数据分析中不可或缺的利器——聚合函数！

想象一下，你面前是一片浩瀚的数据海洋，浪花翻滚，信息万千。如果没有一盏明灯指引方向，你是不是会迷失在这片数据的汪洋大海之中？而聚合函数，就是这盏明灯，它能将海量的数据浓缩成精华，提炼出关键信息，帮助我们理解数据的本质，做出更明智的决策。

什么是聚合函数？简单来说，就是把一堆数据“搅拌”一下，然后提取出一个代表性的数值。 就好像你把一筐苹果放进榨汁机，出来的就是一杯浓缩的苹果汁，虽然失去了每个苹果的细节，但你却得到了所有苹果的精华——甜度、酸度、营养价值等等。

常用的聚合函数就像我们数据分析工具箱里的“五虎上将”，各怀绝技，各司其职：

sum (求和): 最耿直的将军，把所有数值加起来，简单粗暴，但非常实用！
mean (平均值): 最公平的将军，把所有数值加起来，然后除以个数，追求平均主义，避免个别极端值的影响。
std (标准差): 最严谨的将军，衡量数据的离散程度，数值越大，说明数据越分散，反之则越集中。
max (最大值): 最霸道的将军，一眼就能找到数据中的“老大”，谁最大听谁的！
min (最小值): 最谦虚的将军，默默无闻，但总能告诉你数据的底线在哪里。

接下来，我们就逐一剖析这些“将军”，看看它们是如何在数据分析中大显身手的。

一、`sum`：积少成多的力量

sum 函数，顾名思义，就是求和。它像一个辛勤的农民，默默地把田地里的每一颗谷粒都收集起来，最终汇聚成丰收的喜悦。

应用场景：

销售额统计: 统计一段时间内的总销售额，看看业绩如何，老板看了笑开花。
用户活跃度统计: 统计每天/每周/每月的活跃用户数，了解用户粘性，制定运营策略。
网站访问量统计: 统计每天/每周/每月的页面访问量，评估网站的受欢迎程度。
成本核算: 统计各项成本支出，控制预算，开源节流。

举个栗子：

假设我们有一个销售数据表格 sales_data，包含以下信息：

日期	产品	销售额 (元)
2023-10-26	iPhone 15	8000
2023-10-26	AirPods	1500
2023-10-27	iPhone 15	7500
2023-10-27	Apple Watch	3000
2023-10-28	iPad	5000

我们可以使用 SQL 查询来统计总销售额：

SELECT SUM(销售额) AS 总销售额
FROM sales_data;

结果：

总销售额 (元)
25000

一目了然，三天总共卖了 25000 元！老板看了直呼：“干得漂亮！” ?

二、`mean`：追求平衡的艺术

mean 函数，也就是平均值，它像一个公正的法官，力求在所有数据中找到一个平衡点，代表数据的整体水平。

应用场景：

平均工资: 了解行业/地区的平均工资水平，看看自己有没有拖后腿 ?。
平均气温: 了解某个地区的平均气温，为出行做好准备。
平均用户活跃时长: 评估用户的参与度，了解用户对产品的兴趣程度。
平均评分: 评估产品/服务的质量，了解用户的满意度。

举个栗子：

假设我们有一个学生成绩表格 student_scores，包含以下信息：

学生姓名	科目	分数
小明	语文	85
小明	数学	90
小明	英语	92
小红	语文	95
小红	数学	88
小红	英语	90

我们可以使用 SQL 查询来计算每个学生的平均分：

SELECT 学生姓名, AVG(分数) AS 平均分
FROM student_scores
GROUP BY 学生姓名;

结果：

学生姓名	平均分
小明	89.00
小红	91.00

可以看出，小红的平均分略高于小明，看来小红更胜一筹！?

需要注意的是，平均值容易受到极端值的影响。 例如，如果一个公司有 99 个员工月薪 5000 元，老板月薪 50 万元，那么平均工资就会被拉高到 10000 元，但这并不能真实反映普通员工的收入水平。这时候，我们可能需要考虑使用中位数 (median) 来衡量数据的中心趋势，中位数不受极端值的影响，更能代表数据的真实水平。

三、`std`：数据波动的尺度

std 函数，即标准差，它像一个精明的气象学家，时刻关注着数据的波动情况，告诉你数据是风平浪静，还是波涛汹涌。

标准差越大，说明数据越分散；标准差越小，说明数据越集中。

应用场景：

股票价格波动: 评估股票的风险程度，标准差越大，风险越高。
产品质量稳定性: 评估产品质量的稳定性，标准差越小，质量越稳定。
考试成绩分布: 了解学生成绩的分布情况，标准差越大，学生成绩差异越大。
用户消费习惯: 评估用户消费习惯的差异性，标准差越大，用户消费习惯差异越大。

举个栗子：

假设我们有两个班级的数学成绩 class_a 和 class_b，包含以下信息：

class_a: 80, 85, 90, 95, 100

class_b: 60, 70, 80, 90, 100

我们可以使用 Python 来计算两个班级的数学成绩的标准差：

import numpy as np

class_a = np.array([80, 85, 90, 95, 100])
class_b = np.array([60, 70, 80, 90, 100])

std_a = np.std(class_a)
std_b = np.std(class_b)

print(f"Class A的标准差：{std_a}")
print(f"Class B的标准差：{std_b}")

结果：

Class A的标准差：7.0710678118654755
Class B的标准差：14.142135623730951

可以看出，Class B 的标准差明显大于 Class A，说明 Class B 的学生成绩差异更大，两极分化更严重。 ?

四、`max` 和 `min`：抓住重点的利器

max 和 min 函数，分别是最大值和最小值，它们像一对雷达，能够迅速锁定数据中的最高点和最低点，帮助我们抓住重点，发现异常。

应用场景：

最高销售额: 找出销售额最高的产品/地区/时间段，复制成功经验。
最低成本: 找出成本最低的环节，降低运营成本。
最高气温: 了解历史最高气温，为防暑降温做好准备。
最低气温: 了解历史最低气温，为防寒保暖做好准备。
最大用户活跃度: 找出用户活跃度最高的时段，优化运营策略。
最小用户流失率: 找出用户流失率最低的产品/服务，保持用户粘性。

举个栗子：

假设我们有一个订单数据表格 order_data，包含以下信息：

订单号	订单金额 (元)
OD001	100
OD002	200
OD003	50
OD004	300
OD005	150

我们可以使用 SQL 查询来找出最大订单金额和最小订单金额：

SELECT MAX(订单金额) AS 最大订单金额, MIN(订单金额) AS 最小订单金额
FROM order_data;

结果：

最大订单金额 (元)	最小订单金额 (元)
300	50

可以看出，最大订单金额是 300 元，最小订单金额是 50 元。我们可以进一步分析，看看是什么原因导致了这些差异，从而优化运营策略。 ?

五、聚合函数与 `GROUP BY` 子句：分组统计的艺术

聚合函数通常与 GROUP BY 子句一起使用，实现分组统计的功能。 GROUP BY 子句就像一个分类器，它将数据按照指定的列进行分组，然后聚合函数分别对每个分组的数据进行统计。

举个栗子：

回到之前的销售数据表格 sales_data，如果我们想统计每个产品的总销售额，可以使用以下 SQL 查询：

SELECT 产品, SUM(销售额) AS 总销售额
FROM sales_data
GROUP BY 产品;

结果：

产品	总销售额 (元)
AirPods	1500
Apple Watch	3000
iPad	5000
iPhone 15	15500

可以看出，iPhone 15 的总销售额最高，是公司的明星产品！ ?

六、聚合函数的组合运用：挖掘更深层次的信息

聚合函数可以组合运用，挖掘更深层次的信息。例如，我们可以计算每个产品的平均销售额和标准差，了解产品的销售情况和波动程度。

举个栗子：

SELECT 产品, AVG(销售额) AS 平均销售额, STDDEV(销售额) AS 销售额标准差
FROM sales_data
GROUP BY 产品;

结果（假设数据量更大）：

产品	平均销售额 (元)	销售额标准差 (元)
AirPods	1500	200
Apple Watch	3000	500
iPad	5000	1000
iPhone 15	7750	2000

通过平均销售额和标准差，我们可以更全面地了解每个产品的销售情况。例如，iPhone 15 的平均销售额最高，但销售额标准差也最大，说明 iPhone 15 的销售额波动比较大，可能受到季节性因素或者促销活动的影响。

七、总结：聚合函数，数据分析的基石

总而言之，聚合函数是数据分析的基石，它们能够将海量的数据浓缩成精华，提炼出关键信息，帮助我们理解数据的本质，做出更明智的决策。掌握聚合函数，就像拥有了一把开启数据宝藏的钥匙，能够让我们在数据的海洋里自由驰骋，挖掘出更多的价值。

希望今天的分享对大家有所帮助！记住，数据分析不仅仅是技术，更是一种思维方式。多思考，多实践，你也能成为数据分析高手！ ?

最后，送给大家一句数据分析界的箴言： “数据不会说谎，但解读数据的人可能会。” 愿我们都能成为公正客观的数据解读人，用数据驱动决策，创造更大的价值！

谢谢大家！ ?

聚合函数：数据海洋里的灯塔，照亮统计分析之路

一、sum：积少成多的力量

二、mean：追求平衡的艺术

三、std：数据波动的尺度

四、max 和 min：抓住重点的利器

五、聚合函数与 GROUP BY 子句：分组统计的艺术

六、聚合函数的组合运用：挖掘更深层次的信息

七、总结：聚合函数，数据分析的基石

发表回复 取消回复

一、`sum`：积少成多的力量

二、`mean`：追求平衡的艺术

三、`std`：数据波动的尺度

四、`max` 和 `min`：抓住重点的利器

五、聚合函数与 `GROUP BY` 子句：分组统计的艺术

发表回复取消回复