最大值、最小值、中位数与分位数：`np.max`, `np.min`, `np.median`, `np.percentile` - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

亲爱的朋友们，数据分析界的探险家们，欢迎来到“统计指标大冒险”！

今天，我们将一起踏上旅程，去探索四个神奇的指标：最大值 (Max)、最小值 (Min)、中位数 (Median) 以及分位数 (Percentile)。它们就像数据世界的指南针，能够帮助我们快速定位数据分布的特征，理解数据的本质。

准备好了吗？让我们系好安全带，启动我们的数据分析引擎，开始这段精彩的冒险吧！🚀

第一站：最大值和最小值——数据范围的守门员 🏰

想象一下，你正在参加一场盛大的寻宝游戏，目标是找到宝藏箱里价值最高的宝石和价值最低的鹅卵石。最大值和最小值就像这场游戏的两位守门员，一个站在宝藏箱的最顶层，负责展示最闪耀的宝石；另一个则蹲在箱子的最底层，守护着那颗不起眼的鹅卵石。

在 NumPy 的世界里，np.max 和 np.min 就是这两位忠诚的守门员。它们负责从你的数据集中找出最大和最小的值。

np.max(data): 找到数据集 data 中的最大值。
np.min(data): 找到数据集 data 中的最小值。

举个例子，假设我们有一组学生的考试成绩：

import numpy as np

scores = np.array([85, 92, 78, 95, 88, 60, 70, 82, 90, 98])

max_score = np.max(scores)
min_score = np.min(scores)

print(f"最高分：{max_score}")
print(f"最低分：{min_score}")

输出结果会告诉你：

最高分：98
最低分：60

通过最大值和最小值，我们立刻就能了解到这组考试成绩的范围，知道学生的表现差异有多大。就像了解一座山的最高峰和最低谷，我们可以初步掌握这座山的整体轮廓。🏔️

小贴士：

最大值和最小值对于异常值的存在非常敏感。如果数据集中存在一个极端异常值，那么最大值或最小值就会被这个异常值所左右，无法真实反映数据的整体分布。
在处理图像数据时，最大值和最小值可以用于调整图像的对比度，让图像更加清晰。

第二站：中位数——公平公正的裁判员 ⚖️

现在，让我们来到数据世界的法庭，这里有一位公平公正的裁判员——中位数。它不偏不倚，永远站在数据的中心位置，将数据分成两半，一半高于它，一半低于它。

在 NumPy 中，np.median(data) 就是这位裁判员。它负责计算数据集 data 的中位数。

np.median(data): 计算数据集 data 的中位数。

为了更好地理解中位数的作用，让我们继续使用上面的考试成绩数据：

median_score = np.median(scores)

print(f"中位数：{median_score}")

输出结果是：

中位数：86.5

这意味着有一半学生的成绩高于 86.5 分，另一半学生的成绩低于 86.5 分。

中位数的优势：

抗干扰能力强： 与平均数不同，中位数不容易受到异常值的影响。即使数据集中存在几个极端值，中位数仍然能够保持其稳健性，更好地反映数据的中心趋势。
更具代表性： 在数据分布偏斜的情况下，中位数比平均数更能代表数据的典型水平。

举个例子：

假设一个公司的员工薪资如下：

[5000, 6000, 7000, 8000, 9000, 10000, 100000]

平均工资是：(5000 + 6000 + 7000 + 8000 + 9000 + 10000 + 100000) / 7 = 21428.57

中位数是：8000

显然，平均工资被一个高薪员工拉高了，无法真实反映员工的普遍薪资水平。而中位数 8000 则更具代表性。

何时使用中位数：

当数据集中存在异常值时。
当数据分布偏斜时。
当需要了解数据的典型水平时。

第三站：分位数——数据分布的切割师 🔪

现在，让我们来到数据世界的厨房，这里有一位技艺精湛的切割师——分位数。它能够将数据像切蛋糕一样，按照指定的比例切割成不同的部分，让我们更深入地了解数据的分布情况。

在 NumPy 中，np.percentile(data, q) 就是这位切割师。它负责计算数据集 data 的 q 分位数。

np.percentile(data, q): 计算数据集 data 的 q 分位数，其中 q 是一个介于 0 到 100 之间的数字，表示百分比。

什么是分位数？

分位数是一种位置指标，用于描述数据集中特定百分比的数据所处的位置。例如：

25% 分位数 (Q1)： 也称为下四分位数，表示有 25% 的数据小于该值。
50% 分位数 (Q2)： 等于中位数，表示有 50% 的数据小于该值。
75% 分位数 (Q3)： 也称为上四分位数，表示有 75% 的数据小于该值。
100% 分位数： 等于最大值。

让我们回到考试成绩的例子：

q1 = np.percentile(scores, 25)
q3 = np.percentile(scores, 75)

print(f"25% 分位数：{q1}")
print(f"75% 分位数：{q3}")

输出结果是：

25% 分位数：78.5
75% 分位数：91.75

这意味着有 25% 的学生成绩低于 78.5 分，有 75% 的学生成绩低于 91.75 分。

分位数的作用：

描述数据分布： 分位数能够帮助我们了解数据的分布情况，例如数据的集中程度、偏斜程度等。
检测异常值： 可以使用四分位距 (IQR = Q3 – Q1) 来检测异常值。通常，如果一个数据点小于 Q1 – 1.5 IQR 或大于 Q3 + 1.5 IQR，则被认为是异常值。
比较不同数据集： 可以使用分位数来比较不同数据集的分布情况。

举个例子：

假设我们有两组学生的考试成绩：

scores1 = np.array([70, 75, 80, 85, 90])
scores2 = np.array([60, 70, 80, 90, 100])

print(f"scores1 的 25% 分位数：{np.percentile(scores1, 25)}")
print(f"scores2 的 25% 分位数：{np.percentile(scores2, 25)}")

输出结果是：

scores1 的 25% 分位数：72.5
scores2 的 25% 分位数：65.0

通过比较两组数据的 25% 分位数，我们可以发现 scores2 的整体水平略低于 scores1。

分位数家族的成员：

除了上面提到的四分位数，还有十分位数 (Decile) 和百分位数 (Percentile)。

十分位数： 将数据分成 10 等份，每个等份包含 10% 的数据。
百分位数： 将数据分成 100 等份，每个等份包含 1% 的数据。

总结：数据探索的四大法宝 ⚔️

通过今天的探险，我们认识了数据世界的四位重要成员：最大值、最小值、中位数和分位数。它们就像数据探索的四大法宝，能够帮助我们快速了解数据的范围、中心趋势和分布情况。

为了更好地掌握这四大法宝，让我们用一张表格来总结它们的特点：

指标	描述	优点	缺点	适用场景
最大值	数据集中的最大值	快速了解数据的上限	对异常值敏感	了解数据的范围，例如股票价格的最高点、气温的最高值等
最小值	数据集中的最小值	快速了解数据的下限	对异常值敏感	了解数据的范围，例如股票价格的最低点、气温的最低值等
中位数	将数据集分成两半的中间值	抗干扰能力强，不易受异常值影响，更能代表数据的典型水平	不能反映数据的分布情况	当数据集中存在异常值或数据分布偏斜时，需要了解数据的典型水平，例如收入水平、房价等
分位数	将数据集按照指定的比例切割成不同的部分，描述数据集中特定百分比的数据所处的位置	能够描述数据的分布情况，可以检测异常值，可以比较不同数据集的分布情况	计算相对复杂	需要了解数据的分布情况，例如考试成绩的分布、用户消费水平的分布等

温馨提示：

在实际应用中，需要根据具体的数据和分析目的选择合适的统计指标。
可以将这四个指标结合起来使用，以便更全面地了解数据。

尾声：数据分析的无限可能 🌌

今天的“统计指标大冒险”就到此结束了。希望通过这次旅行，你能够更加熟练地运用最大值、最小值、中位数和分位数，成为一名优秀的数据分析师！

记住，数据分析的世界是充满无限可能的，只要你保持好奇心和探索精神，就一定能够发现更多有趣的知识和价值。

愿你在数据分析的道路上越走越远，创造出更多精彩的故事！🎉

最后，送给大家一句名言：

"Data is the new oil." – Clive Humby

让我们一起挖掘数据这座宝藏，创造属于我们的辉煌！💎

亲爱的朋友们，数据分析界的探险家们，欢迎来到“统计指标大冒险”！

第一站：最大值和最小值——数据范围的守门员 🏰

第二站：中位数——公平公正的裁判员 ⚖️

第三站：分位数——数据分布的切割师 🔪

总结：数据探索的四大法宝 ⚔️

尾声：数据分析的无限可能 🌌

发表回复 取消回复

发表回复取消回复