Statsmodels 统计建模：构建复杂统计模型与假设检验 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，咱们今天就来聊聊 Statsmodels 这个宝贝，它能帮你构建各种复杂的统计模型，还能做假设检验，简直是统计学界的瑞士军刀！

开场白：Statsmodels 是啥？为啥要用它？

想象一下，你想预测房价，或者分析某种药物的效果，或者评估一个营销活动是否有效。这些问题都需要统计建模。你当然可以手动撸公式，但是，哥们，时代变了！有了 Statsmodels，你就可以用 Python 轻松搞定这些事情，而且还能得到各种详细的统计报告，让你对模型理解得更透彻。

Statsmodels 的优点嘛，多到数不过来：

功能强大: 线性模型、广义线性模型、时间序列分析、生存分析… 你想得到的，它几乎都有！
结果详细: 它会给你一堆统计指标，比如 R 方、P 值、置信区间等等，让你对模型的性能一目了然。
Python 集成: 和 NumPy、Pandas 这些好基友完美集成，数据处理、模型构建一条龙服务。
社区活跃: 遇到问题，网上搜搜、问问大神，总能找到解决方案。

第一部分：线性回归 – 基础中的战斗机

线性回归是 Statsmodels 的基本功，也是很多更复杂模型的基础。咱们先从一个简单的例子开始：

假设我们想研究广告投入和销售额之间的关系。我们收集了一些数据，如下：

广告投入 (千元)	销售额 (万元)
10	50
15	75
20	100
25	125
30	150

用 Statsmodels 来做线性回归，代码是这样的：

import statsmodels.api as sm
import pandas as pd

# 创建 DataFrame
data = {'广告投入': [10, 15, 20, 25, 30],
        '销售额': [50, 75, 100, 125, 150]}
df = pd.DataFrame(data)

# 定义自变量和因变量
X = df['广告投入']
y = df['销售额']

# 添加常数项 (截距)
X = sm.add_constant(X)

# 构建 OLS 模型 (普通最小二乘)
model = sm.OLS(y, X)

# 拟合模型
results = model.fit()

# 打印结果
print(results.summary())

这段代码做了啥？

导入模块: statsmodels.api 是 Statsmodels 的主要接口，pandas 用来处理数据。
创建 DataFrame: 把数据放进 Pandas 的 DataFrame 里，方便操作。
定义自变量和因变量: X 是自变量（广告投入），y 是因变量（销售额）。
添加常数项: sm.add_constant(X) 会在 X 中添加一列 1，用来估计截距。没有截距的线性回归就像没有地基的房子，不稳当！
构建 OLS 模型: sm.OLS(y, X) 创建一个 OLS 模型对象。 OLS 是“普通最小二乘”的缩写，是最常用的线性回归方法。
拟合模型: results = model.fit() 用数据来拟合模型，找到最佳的回归系数。
打印结果: print(results.summary()) 打印出一大堆统计信息，包括回归系数、标准误差、t 统计量、P 值、R 方等等。

运行这段代码，你会看到类似这样的结果：

                            OLS Regression Results
==============================================================================
Dep. Variable:                    销售额   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 1.147e+32
Date:                Fri, 26 Apr 2024   Prob (F-statistic):           9.08e-27
Time:                        14:35:21   Log-Likelihood:                201.13
No. Observations:                   5   AIC:                            -398.3
Df Residuals:                       3   BIC:                            -399.1
Df Model:                           1
Covariance Type:            nonrobust
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.000e+00   6.44e-15   4.81e+14      0.000      0.000      0.000
广告投入       5.000e+00   1.47e-16   3.4e+16      0.000      5.000      5.000
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.000
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.488
Skew:                          -0.000   Prob(JB):                        0.783
Kurtosis:                       1.500   Cond. No.                         1.00
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the
    errors is correctly specified.

咱们来解读一下：

R-squared: 1.000，说明模型完美地解释了销售额的变化。当然，这只是个理想的例子。
coef: const 是截距，广告投入 是广告投入的系数。这里截距是 0，广告投入的系数是 5，意味着每增加 1 千元广告投入，销售额增加 5 万元。
P>|t|: P 值越小，说明系数越显著。这里两个 P 值都是 0.000，说明截距和广告投入的系数都非常显著。

第二部分：广义线性模型 – 适用面更广

线性回归虽然好用，但也有局限性。比如，当因变量不是连续的，而是二元的（比如“是/否”、“成功/失败”）或者计数型的（比如“顾客购买次数”），线性回归就不太灵了。这时候，就需要广义线性模型 (GLM) 出马了。

GLM 的核心思想是：通过一个“连接函数”把因变量的期望值和自变量的线性组合联系起来。不同的连接函数和分布函数，对应着不同的 GLM 模型。

举个例子，假设我们想研究用户是否点击广告的影响因素。我们收集了一些数据，包括用户的年龄、性别、所在地区以及是否点击了广告。

import statsmodels.api as sm
import pandas as pd

# 创建 DataFrame
data = {'年龄': [25, 30, 35, 40, 45, 50, 55, 60],
        '性别': [0, 1, 0, 1, 0, 1, 0, 1],  # 0: 女, 1: 男
        '点击': [0, 1, 0, 1, 0, 0, 1, 1]}  # 0: 未点击, 1: 点击
df = pd.DataFrame(data)

# 定义自变量和因变量
X = df[['年龄', '性别']]
y = df['点击']

# 添加常数项
X = sm.add_constant(X)

# 构建 Logistic 回归模型 (一种 GLM)
model = sm.Logit(y, X)

# 拟合模型
results = model.fit()

# 打印结果
print(results.summary())

这段代码和线性回归的代码很像，主要区别在于：

sm.Logit(y, X): 这里我们用 sm.Logit 创建了一个 Logistic 回归模型。 Logistic 回归是 GLM 的一种，适用于因变量是二元的情况。它使用 sigmoid 函数作为连接函数，把因变量的期望值限制在 0 和 1 之间。

运行这段代码，你会看到 Logistic 回归的结果。你可以根据系数的大小和 P 值来判断哪些因素对用户是否点击广告有显著影响。

除了 Logistic 回归，GLM 还有很多其他变种，比如：

Poisson 回归: 适用于因变量是计数型的情况。
Gamma 回归: 适用于因变量是正的连续型变量，且方差与均值有关的情况。

选择哪种 GLM，取决于你的数据的特点。

第三部分：时间序列分析 – 预测未来

时间序列分析是 Statsmodels 的另一个强项。它专门用来处理随时间变化的数据，比如股票价格、销售额、气温等等。时间序列分析的目标是：理解数据的模式，并预测未来的趋势。

最常用的时间序列模型之一是 ARIMA 模型。 ARIMA 模型包含三个部分：

AR (自回归): 用过去的值来预测当前的值。
I (积分): 对数据进行差分，使其平稳。平稳性是时间序列分析的基本要求。
MA (移动平均): 用过去误差的加权平均来预测当前的值。

举个例子，假设我们想预测未来几个月的销售额。我们收集了过去几年的销售额数据。

import statsmodels.api as sm
from statsmodels.tsa.arima.model import ARIMA
import pandas as pd
import numpy as np

# 创建模拟时间序列数据
np.random.seed(0)
n = 100
dates = pd.date_range('2020-01-01', periods=n, freq='M')
# 生成一个带有趋势和季节性的时间序列
trend = np.linspace(100, 200, n)
seasonal = 20 * np.sin(np.linspace(0, 2 * np.pi * 2, n)) # 两年一个周期
noise = np.random.normal(0, 10, n)
sales = trend + seasonal + noise
data = pd.DataFrame({'日期': dates, '销售额': sales})
data.set_index('日期', inplace=True)

# 定义 ARIMA 模型
# (p, d, q) 分别是 AR、I、MA 的阶数
# 这里我们先用 (5, 1, 0) 试试
model = ARIMA(data['销售额'], order=(5, 1, 0))

# 拟合模型
results = model.fit()

# 打印结果
print(results.summary())

# 预测未来 12 个月
forecast = results.get_forecast(steps=12)
forecast_mean = forecast.predicted_mean
forecast_ci = forecast.conf_int()  # 获取置信区间

# 打印预测结果
print(forecast_mean)
print(forecast_ci)

# 可视化预测结果 (需要 matplotlib)
import matplotlib.pyplot as plt

# 创建一个包含历史数据和预测数据的图
plt.figure(figsize=(12, 6))
plt.plot(data['销售额'], label='历史数据')
plt.plot(forecast_mean.index, forecast_mean, label='预测', color='red')
plt.fill_between(forecast_ci.index,
                 forecast_ci.iloc[:, 0],
                 forecast_ci.iloc[:, 1], color='pink', alpha=0.3, label='95% 置信区间')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.title('销售额预测')
plt.legend()
plt.show()

这段代码做了啥？

创建时间序列数据: 这里为了方便，我们创建了一些模拟数据。真实数据通常从数据库或者文件中读取。
定义 ARIMA 模型: ARIMA(data['销售额'], order=(5, 1, 0)) 创建一个 ARIMA 模型对象。 order=(p, d, q) 指定 AR、I、MA 的阶数。选择合适的阶数是一个重要的步骤，通常需要通过观察数据的自相关和偏自相关图来确定。
拟合模型: results = model.fit() 用数据来拟合模型。
打印结果: print(results.summary()) 打印出一大堆统计信息，包括 AR、MA 的系数、标准误差、P 值等等。
预测未来: results.get_forecast(steps=12) 预测未来 12 个月的销售额。
可视化预测结果: 用 matplotlib 绘制历史数据和预测结果的图表，更直观地展示预测效果。

第四部分：假设检验 – 验证你的想法

假设检验是统计学的重要组成部分。它可以帮助我们验证一些关于数据的假设。比如，我们想验证某种药物是否真的有效，或者某个营销活动是否真的提升了销售额。

Statsmodels 提供了各种假设检验的函数，比如：

t 检验: 用于检验两个样本均值是否相等。
方差分析 (ANOVA): 用于检验多个样本均值是否相等。
卡方检验: 用于检验两个分类变量是否独立。

举个例子，假设我们想验证两种不同的广告策略是否对销售额有影响。我们随机选择了两组用户，分别采用不同的广告策略，并记录了他们的销售额。

import statsmodels.stats.weightstats as stests
import numpy as np

# 创建模拟数据
np.random.seed(0)
group1 = np.random.normal(100, 15, 50)  # 第一组的销售额
group2 = np.random.normal(110, 15, 50)  # 第二组的销售额

# 进行 t 检验
t_statistic, p_value = stests.ttest_ind(group1, group2)

# 打印结果
print("T 统计量:", t_statistic)
print("P 值:", p_value)

# 判断是否显著
alpha = 0.05  # 显著性水平
if p_value < alpha:
    print("拒绝原假设，两种广告策略对销售额有显著影响")
else:
    print("接受原假设，没有证据表明两种广告策略对销售额有显著影响")

这段代码做了啥？

创建模拟数据: 这里为了方便，我们创建了两组模拟的销售额数据。
进行 t 检验: stests.ttest_ind(group1, group2) 对两组数据进行 t 检验。 t 检验的原假设是：两组数据的均值相等。
打印结果: 打印出 t 统计量和 P 值。
判断是否显著: 如果 P 值小于显著性水平（通常是 0.05），我们就拒绝原假设，认为两种广告策略对销售额有显著影响。否则，我们就接受原假设，认为没有证据表明两种广告策略对销售额有显著影响。

总结 – Statsmodels 的强大之处

Statsmodels 是一个功能强大、灵活易用的统计建模工具。它可以帮助你：

构建各种复杂的统计模型，包括线性模型、广义线性模型、时间序列模型等等。
进行假设检验，验证你的想法。
得到详细的统计报告，让你对模型理解得更透彻。

当然，Statsmodels 只是一个工具。要真正发挥它的威力，还需要你掌握统计学的基本知识，理解模型的原理，并根据你的数据的特点选择合适的模型。

一些补充说明

数据预处理: 在使用 Statsmodels 之前，通常需要对数据进行预处理，比如清洗、转换、缺失值处理等等。 Pandas 是数据预处理的好帮手。
模型选择: 选择合适的模型是一个重要的步骤。你需要根据你的数据的特点、你的研究问题以及你的统计知识来选择模型。
模型评估: 模型拟合完成后，需要对模型进行评估，判断模型的性能是否良好。 Statsmodels 提供了各种模型评估的指标和方法。
参数调优: 有些模型有很多参数需要设置。你需要通过一些方法（比如交叉验证）来找到最佳的参数组合。

希望这篇文章能让你对 Statsmodels 有一个初步的了解。要真正掌握它，还需要你多看文档、多做练习、多思考。祝你早日成为统计建模高手！

发表回复 取消回复

发表回复取消回复