数据聚合与分组：`groupby` 高级功能与应用 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

数据聚合与分组：`groupby` 高级功能与应用 – 一场数据魔法的奇幻之旅

各位数据魔法师们，大家好！🧙‍♂️

今天，我们要一起踏上一段奇妙的数据之旅，深入探索Pandas库中那个功能强大、却又常常被我们忽略的groupby函数。别害怕，这次旅程绝不枯燥乏味，我会用最生动有趣的方式，带领大家领略groupby的魅力，让它成为你数据分析工具箱中最闪耀的那颗星！🌟

一、groupby：化腐朽为神奇的炼金术士

想象一下，你是一位炼金术士，拥有着各种各样的数据原材料：不同地区的销售额、不同商品的利润率、不同客户的消费习惯…… 这些数据杂乱无章，就像一堆散落在地上的金币，毫无价值。

而groupby，就是你手中的炼金炉，它能将这些看似无用的数据碎片，按照你的意愿进行分类、提炼和重组，最终打造出闪闪发光的金条！ 💰💰💰

简单来说，groupby函数的作用就是：将数据按照指定的列或条件进行分组，然后在每个组上应用聚合函数，最终得到每个组的统计结果。

听起来有点抽象？没关系，我们用一个生动的例子来解释：

假设我们有一份关于不同城市不同商品的销售数据：

import pandas as pd

data = {'City': ['Beijing', 'Shanghai', 'Beijing', 'Shanghai', 'Guangzhou', 'Guangzhou'],
        'Product': ['A', 'B', 'A', 'A', 'B', 'A'],
        'Sales': [100, 150, 120, 180, 130, 110]}

df = pd.DataFrame(data)
print(df)

输出：

         City Product  Sales
0   Beijing       A    100
1  Shanghai       B    150
2   Beijing       A    120
3  Shanghai       A    180
4 Guangzhou       B    130
5 Guangzhou       A    110

现在，我们想知道每个城市的总销售额。这时候，groupby就能派上用场了！

city_sales = df.groupby('City')['Sales'].sum()
print(city_sales)

输出：

City
Beijing      220
Guangzhou    240
Shanghai     330
Name: Sales, dtype: int64

一行代码，搞定！ 🎉 groupby('City')告诉Pandas，我们要按照"City"这一列进行分组； ['Sales'].sum()则告诉Pandas，我们要对每个组的"Sales"列进行求和运算。

就像炼金术士将杂乱的矿石提炼成纯金一样，groupby将原始数据转化为有价值的统计信息。

二、groupby的进阶玩法：解锁更多数据魔法

掌握了groupby的基本用法，仅仅是打开了数据魔法世界的一扇小门。接下来，让我们一起探索groupby的更多高级功能，解锁更多强大的数据魔法！

1. 多列分组：精细化的数据分析

有时候，我们需要更精细的数据分析，例如，我们想知道每个城市每种商品的销售额。这时候，我们可以使用多列分组：

city_product_sales = df.groupby(['City', 'Product'])['Sales'].sum()
print(city_product_sales)

输出：

City       Product
Beijing    A          220
Guangzhou  A          110
           B          130
Shanghai   A          180
           B          150
Name: Sales, dtype: int64

groupby(['City', 'Product'])告诉Pandas，我们要先按照"City"列分组，然后在每个城市内部，再按照"Product"列进行分组。这样，我们就能得到每个城市每种商品的销售额，更加清晰地了解销售情况。

2. 聚合函数：不仅仅是求和

groupby不仅仅可以进行求和运算，它还支持各种各样的聚合函数，包括：

sum()：求和
mean()：求平均值
median()：求中位数
min()：求最小值
max()：求最大值
count()：计数
std()：求标准差
var()：求方差

我们可以根据实际需求，选择合适的聚合函数，对数据进行更深入的分析。

例如，我们想知道每个城市的平均销售额和销售额的标准差：

city_sales_stats = df.groupby('City')['Sales'].agg(['mean', 'std'])
print(city_sales_stats)

输出：

             mean         std
City
Beijing    110.0  14.142136
Guangzhou  120.0  14.142136
Shanghai   165.0  21.213203

agg(['mean', 'std'])告诉Pandas，我们要对每个组的"Sales"列同时进行求平均值和求标准差的运算。

3. 自定义聚合函数：打造专属的数据分析工具

如果Pandas提供的聚合函数无法满足你的需求，你还可以自定义聚合函数，打造专属的数据分析工具！

例如，我们想计算每个城市的销售额范围（最大值 – 最小值）：

def sales_range(x):
    return x.max() - x.min()

city_sales_range = df.groupby('City')['Sales'].agg(sales_range)
print(city_sales_range)

输出：

City
Beijing       20
Guangzhou     20
Shanghai      30
Name: Sales, dtype: int64

我们首先定义了一个名为sales_range的函数，该函数计算一个序列的最大值和最小值之差。然后，我们将这个函数传递给agg方法，groupby就会将每个组的"Sales"列传递给sales_range函数进行计算。

4. apply函数：更灵活的数据处理

apply函数是groupby的另一个强大的工具，它允许你对每个组应用任意的函数，进行更灵活的数据处理。

例如，我们想知道每个城市的销售额占该城市总销售额的比例：

def sales_proportion(x):
    return x / x.sum()

city_sales_proportion = df.groupby('City')['Sales'].apply(sales_proportion)
print(city_sales_proportion)

输出：

0    0.454545
1    0.454545
2    0.545455
3    0.545455
4    0.541667
5    0.458333
Name: Sales, dtype: float64

apply(sales_proportion)告诉Pandas，我们要对每个组的"Sales"列应用sales_proportion函数。 sales_proportion函数计算每个销售额占该组总销售额的比例。

5. transform函数：保持数据形状不变

transform函数与apply函数类似，也是对每个组应用一个函数。区别在于，transform函数会保持数据的形状不变，也就是说，输出结果的索引和大小与原始数据相同。

例如，我们想计算每个销售额与其所在城市的平均销售额的差值：

city_sales_diff = df.groupby('City')['Sales'].transform(lambda x: x - x.mean())
print(city_sales_diff)

输出：

0   -10.0
1   -15.0
2    10.0
3    15.0
4    10.0
5   -10.0
Name: Sales, dtype: float64

transform(lambda x: x - x.mean())告诉Pandas，我们要对每个组的"Sales"列应用一个匿名函数，该函数计算每个销售额与其所在城市的平均销售额的差值。

6. filter函数：筛选符合条件的组

filter函数可以根据指定的条件筛选符合条件的组。

例如，我们想筛选出总销售额大于250的城市：

city_total_sales = df.groupby('City')['Sales'].sum()
print(city_total_sales)
def filter_high_sales(x):
    return x['Sales'].sum() > 250

high_sales_cities = df.groupby('City').filter(filter_high_sales)
print(high_sales_cities)

输出：

City
Beijing      220
Guangzhou    240
Shanghai     330
Name: Sales, dtype: int64
         City Product  Sales
1  Shanghai       B    150
3  Shanghai       A    180

filter(filter_high_sales)告诉Pandas，我们要根据filter_high_sales函数来筛选组。 filter_high_sales函数判断一个组的总销售额是否大于250。

三、groupby的应用场景：数据分析的无限可能

掌握了groupby的各种高级功能，你就可以在各种数据分析场景中大显身手了！比如：

用户行为分析： 分析不同用户的访问频率、购买行为、活跃时间等，从而了解用户偏好，优化产品设计和营销策略。想象一下，通过groupby，你可以轻松找出哪些用户最活跃，哪些用户最喜欢购买哪些商品，然后针对这些用户进行精准营销，提高转化率！ 📈
销售数据分析： 分析不同地区、不同商品、不同时间段的销售额，从而了解销售趋势，优化库存管理和销售策略。你可以用groupby分析出哪个地区的销售额最高，哪个商品的利润率最高，哪个时间段的销售额增长最快，然后根据这些数据调整销售策略，提高销售额！ 💰
金融数据分析： 分析不同股票、不同行业的涨跌幅、交易量等，从而了解市场趋势，制定投资策略。你可以用groupby分析出哪个股票的涨幅最高，哪个行业的风险最低，然后根据这些数据制定更明智的投资决策！ 💹
A/B测试分析： 分析不同版本的页面、不同按钮的点击率、转化率等，从而优化用户体验，提高转化率。你可以用groupby分析出哪个版本的页面点击率更高，哪个按钮的转化率更高，然后选择更优的版本，提高用户体验！ 🖱️

总之，groupby的应用场景非常广泛，只要你需要对数据进行分组和聚合，groupby就能帮你解决问题。

四、总结：成为groupby大师

通过今天的学习，相信你已经对groupby有了更深入的了解。 groupby不仅仅是一个函数，更是一种数据分析的思想。掌握了groupby，你就掌握了数据魔法的核心，可以轻松应对各种复杂的数据分析问题。

希望你能将今天学到的知识应用到实际工作中，不断探索groupby的更多可能性，成为真正的groupby大师！ 🧙‍♂️

最后，送给大家一句话： 数据在手，groupby我有，天下任我走！ 🌍

数据聚合与分组：groupby 高级功能与应用 – 一场数据魔法的奇幻之旅

发表回复 取消回复

数据聚合与分组：`groupby` 高级功能与应用 – 一场数据魔法的奇幻之旅

发表回复取消回复