Python数据可视化：使用Matplotlib和Seaborn创建复杂的统计图表。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python数据可视化：使用Matplotlib和Seaborn创建复杂的统计图表

大家好，今天我们来深入探讨Python数据可视化，重点关注如何使用Matplotlib和Seaborn创建复杂的统计图表。我们将从基础概念出发，逐步构建各种高级图表，并探讨如何根据具体需求进行定制，最终达到能够清晰有效地呈现复杂数据的目的。

1. Matplotlib基础回顾与高级技巧

Matplotlib是Python中最基础也是最核心的绘图库。理解其底层逻辑和掌握常用技巧是构建复杂图表的基础。

Figure和Axes对象：

Matplotlib绘图的核心是Figure和Axes对象。Figure可以理解为整个画布，而Axes则是画布上的一块区域，用于绘制具体的图表。
```
import matplotlib.pyplot as plt

fig, ax = plt.subplots() # 创建一个Figure和一个Axes对象

# 在Axes对象上绘制数据
ax.plot([1, 2, 3, 4], [5, 6, 7, 8])

plt.show()
```
plt.subplots()返回一个包含Figure和Axes对象的元组。我们可以通过fig对象调整整个画布的属性，如大小、背景色等，而通过ax对象控制图表的具体细节，如坐标轴范围、标签、标题等。
多子图：

在同一个Figure中创建多个子图，可以方便地进行数据对比和多维度展示。
```
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 8)) # 创建一个2x2的子图网格

# 在每个子图上绘制不同的数据
axes[0, 0].plot([1, 2, 3], [4, 5, 6])
axes[0, 1].scatter([1, 2, 3], [4, 5, 6])
axes[1, 0].bar([1, 2, 3], [4, 5, 6])
axes[1, 1].pie([1, 2, 3])

plt.tight_layout() # 自动调整子图布局，避免重叠
plt.show()
```
plt.subplots(nrows, ncols)可以创建指定行数和列数的子图网格。axes是一个NumPy数组，可以通过索引访问每个子图。 plt.tight_layout()是一个非常有用的函数，它可以自动调整子图的布局，避免标签、标题等元素重叠。
自定义颜色、标记和线条样式：

Matplotlib提供了丰富的选项来定制图表的颜色、标记和线条样式，以增强视觉效果和可读性。
```
x = [1, 2, 3, 4, 5]
y = [2, 4, 1, 3, 5]

plt.plot(x, y, color='red', linestyle='--', marker='o', markersize=8, label='Data')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Customized Plot')
plt.legend() # 显示图例
plt.grid(True) # 显示网格线
plt.show()
```
常用的颜色可以使用颜色名称（如’red’、’blue’），也可以使用十六进制颜色码（如’#FF0000’）。常用的线条样式包括：’-‘ (实线), ‘–‘ (虚线), ‘:’ (点线), ‘-.’ (点划线)。常用的标记包括：’o’ (圆圈), ‘s’ (正方形), ‘^’ (三角形), ‘*’ (星号), ‘+’ (加号)。
注释和文本：

在图表中添加注释和文本可以突出显示关键信息，提高图表的可理解性。
```
x = [1, 2, 3, 4, 5]
y = [2, 4, 1, 3, 5]

plt.plot(x, y)
plt.annotate('Maximum', xy=(2, 4), xytext=(3, 4.5),
             arrowprops=dict(facecolor='black', shrink=0.05)) # 添加箭头注释

plt.text(1, 1, 'Important Point', fontsize=12) # 添加文本

plt.show()
```
plt.annotate()可以添加带有箭头的注释，xy参数指定箭头指向的点，xytext参数指定文本的位置，arrowprops参数用于定制箭头的样式。 plt.text()可以在指定位置添加文本。

坐标轴控制：

精确控制坐标轴的范围、刻度和标签对于清晰地呈现数据至关重要。

import numpy as np

x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.plot(x, y)
plt.xlim(0, 10) # 设置X轴范围
plt.ylim(-1.2, 1.2) # 设置Y轴范围
plt.xticks(np.arange(0, 11, 1)) # 设置X轴刻度
plt.yticks(np.arange(-1, 1.1, 0.5)) # 设置Y轴刻度
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Sine Wave')
plt.show()

plt.xlim()和plt.ylim()用于设置坐标轴的范围。plt.xticks()和plt.yticks()用于设置坐标轴的刻度。可以使用NumPy的arange()函数生成刻度值。

2. Seaborn：统计数据可视化利器

Seaborn是基于Matplotlib的高级可视化库，专注于统计数据可视化。它提供了更高级的接口和更美观的默认样式。

Seaborn的优势：
- 美观的默认样式： Seaborn的默认样式比Matplotlib更现代、更美观，可以节省大量样式调整的时间。
- 高级统计图表： Seaborn提供了许多高级统计图表，如分布图、关系图、分类图等，可以方便地进行数据探索和分析。
- DataFrame集成： Seaborn与Pandas DataFrame无缝集成，可以直接使用DataFrame中的数据进行绘图。

常用Seaborn图表：

分布图：

sns.distplot()：绘制单变量分布图，包括直方图和核密度估计(KDE)。
sns.kdeplot()：绘制核密度估计图。
sns.rugplot()：在坐标轴上绘制数据点，显示数据的分布情况。

import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

# 生成随机数据
data = np.random.randn(100)

# 绘制distplot
sns.distplot(data, kde=True, rug=True)  #kde显示核密度估计， rug显示数据点

plt.show()

#绘制kdeplot
sns.kdeplot(data, shade=True) #shade参数填充kde曲线下方的区域

plt.show()

关系图：

sns.scatterplot()：绘制散点图，用于展示两个变量之间的关系。
sns.lineplot()：绘制折线图，用于展示两个变量之间的趋势。
sns.regplot()：绘制回归图，包括散点图和回归线。
sns.pairplot()：绘制成对关系图，展示多个变量之间的两两关系。
sns.heatmap()：绘制热力图，用于展示矩阵数据的分布情况。

import pandas as pd

# 创建DataFrame
data = pd.DataFrame({'x': np.random.rand(100), 'y': np.random.rand(100), 'z': np.random.rand(100)})

# 绘制scatterplot
sns.scatterplot(x='x', y='y', data=data)
plt.show()

# 绘制pairplot
sns.pairplot(data)
plt.show()

# 绘制热力图
correlation_matrix = data.corr() #计算相关系数矩阵
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm') # annot显示数值， cmap设置颜色映射
plt.show()

分类图：
- sns.boxplot()：绘制箱线图，用于展示数据的分布和异常值。
- sns.violinplot()：绘制小提琴图，结合了箱线图和核密度估计，更详细地展示数据的分布情况。
- sns.barplot()：绘制柱状图，用于比较不同类别的数据。
- sns.countplot()：绘制计数图，用于统计每个类别的数量。
- sns.stripplot()：绘制条带图，将数据点分散在坐标轴上，展示数据的分布情况。
- sns.swarmplot()：绘制蜂群图，避免数据点重叠，更清晰地展示数据的分布情况。
```
# 创建DataFrame
data = pd.DataFrame({'category': ['A', 'B', 'C'] * 30, 'value': np.random.rand(90)})

# 绘制boxplot
sns.boxplot(x='category', y='value', data=data)
plt.show()

#绘制violinplot
sns.violinplot(x='category', y='value', data=data)
plt.show()

#绘制barplot
sns.barplot(x='category', y='value', data=data)
plt.show()
```

FacetGrid：

FacetGrid是Seaborn中一个强大的工具，可以用于创建条件图，即根据一个或多个分类变量将数据分成多个子集，并在每个子集上绘制相同的图表。

# 创建DataFrame
data = pd.DataFrame({'category1': ['A', 'B'] * 50, 'category2': ['X', 'Y'] * 50, 'value': np.random.rand(100)})

# 创建FacetGrid
g = sns.FacetGrid(data, col='category1', row='category2') # col和row参数指定用于分组的变量
g.map(sns.histplot, 'value') # map函数指定在每个子图上绘制的图表类型和数据

plt.show()

FacetGrid可以方便地创建复杂的条件图，用于探索多变量之间的关系。

Seaborn样式定制：

Seaborn提供了多种方式来定制图表的样式，包括设置主题、颜色调色板和字体等。
```
# 设置主题
sns.set_theme(style='darkgrid', palette='muted', font='sans-serif')

# 设置颜色调色板
sns.set_palette('viridis')

# 绘制图表
sns.scatterplot(x='x', y='y', data=data)
plt.show()
```
sns.set_theme()可以设置全局主题，包括背景色、网格线、字体等。 sns.set_palette()可以设置颜色调色板，Seaborn提供了多种内置的调色板，也可以自定义调色板。

3. 复杂统计图表案例：

带误差线的柱状图：

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 创建DataFrame
data = pd.DataFrame({
    'group': ['A', 'B', 'C', 'A', 'B', 'C'],
    'value': [10, 12, 15, 11, 13, 14],
    'error': [1, 1.5, 0.8, 1.2, 0.9, 1.1]
})

# 绘制带误差线的柱状图
sns.barplot(x='group', y='value', data=data, yerr='error', capsize=0.2) # yerr参数指定误差值，capsize参数设置误差线帽的大小
plt.show()

yerr参数用于指定误差值，capsize参数用于设置误差线帽的大小。

堆叠柱状图：

# 创建DataFrame
data = pd.DataFrame({
    'category': ['A', 'B', 'C', 'A', 'B', 'C'],
    'subcategory': ['X', 'X', 'X', 'Y', 'Y', 'Y'],
    'value': [5, 7, 3, 6, 4, 8]
})

# 计算每个category的总value
total = data.groupby('category')['value'].sum().reset_index()

# 将数据透视为适合堆叠柱状图的格式
pivot_data = data.pivot(index='category', columns='subcategory', values='value').fillna(0)

# 绘制堆叠柱状图
pivot_data.plot(kind='bar', stacked=True)
plt.xlabel('Category')
plt.ylabel('Value')
plt.title('Stacked Bar Chart')
plt.show()

首先将数据透视为适合堆叠柱状图的格式，然后使用plot(kind='bar', stacked=True)绘制堆叠柱状图。

多层饼图：

import matplotlib.pyplot as plt

# 数据
outer_data = [30, 20, 35, 15]
inner_data = [10, 10, 5, 5, 12, 10, 8, 7, 5, 5]
outer_labels = ['A', 'B', 'C', 'D']
inner_labels = ['A1', 'A2', 'B1', 'B2', 'C1', 'C2', 'C3', 'D1', 'D2', 'D3']

# 颜色
outer_colors = ['#FF9999', '#66B3FF', '#99FF99', '#FFCC99']
inner_colors = ['#FFB3B3', '#80BFFF', '#B3FFB3', '#FFD9B3', '#E6FFCC', '#CCE6FF', '#CCFFE6', '#FFE6CC', '#E6E6CC', '#CCE6E6']

# 绘制外层饼图
plt.pie(outer_data, labels=outer_labels, colors=outer_colors, startangle=90, frame=True, radius=1.2, autopct='%1.1f%%',
        wedgeprops={'linewidth': 1, 'edgecolor': 'white'})

# 绘制内层饼图
plt.pie(inner_data, labels=inner_labels, colors=inner_colors, startangle=90, radius=0.8, autopct='%1.1f%%',
        wedgeprops={'linewidth': 1, 'edgecolor': 'white'})

# 添加一个白色的圆形在中心，使内层饼图看起来像一个环
centre_circle = plt.Circle((0, 0), 0.4, fc='white')
fig = plt.gcf()
fig.gca().add_artist(centre_circle)

# 确保圆形
plt.axis('equal')

# 显示图表
plt.tight_layout()
plt.show()

通过多次调用plt.pie()函数绘制多层饼图，并使用plt.Circle()函数在中心添加一个白色圆形，使内层饼图看起来像一个环。

平行坐标图：

import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import parallel_coordinates

# 创建DataFrame
data = pd.DataFrame({
    'category': ['A', 'A', 'B', 'B'],
    'x1': [1, 2, 3, 4],
    'x2': [5, 6, 7, 8],
    'x3': [9, 10, 11, 12]
})

# 绘制平行坐标图
plt.figure()
parallel_coordinates(data, 'category', color=('#556270', '#4ECDC4', '#C7F464')) #可以自定义颜色
plt.show()

pandas.plotting.parallel_coordinates()函数用于绘制平行坐标图。

4. 高级定制与交互性：

自定义Matplotlib样式表：

Matplotlib允许创建自定义样式表，以便在多个图表中应用一致的样式。

# 创建一个样式文件 (my_style.mplstyle)
# 例如:
# axes.facecolor: white
# axes.edgecolor: black
# axes.grid: True
# grid.color: lightgray
# font.family: sans-serif

# 加载样式表
plt.style.use('my_style.mplstyle')

# 绘制图表
plt.plot([1, 2, 3], [4, 5, 6])
plt.show()

创建一个名为my_style.mplstyle的文本文件，并在其中定义样式属性。然后使用plt.style.use()函数加载样式表。

使用Plotly和Bokeh创建交互式图表：

Plotly和Bokeh是Python中用于创建交互式图表的库，可以实现缩放、平移、悬停提示等功能。由于内容较多，这里仅简要介绍：
- Plotly: 提供了丰富的图表类型和交互功能，可以轻松创建美观的交互式图表。
- Bokeh: 专注于Web浏览器中的交互式可视化，可以处理大型数据集。
使用这两个库需要单独安装，并学习其特定的API。

5. 如何选择合适的图表类型：

选择合适的图表类型对于清晰有效地呈现数据至关重要。以下是一些选择图表类型的原则：

图表类型	适用场景
柱状图	比较不同类别的数据的大小。
折线图	展示数据随时间变化的趋势。
散点图	展示两个变量之间的关系。
直方图	展示单变量数据的分布情况。
箱线图	展示数据的分布和异常值。
饼图	展示各部分占总体的比例。
热力图	展示矩阵数据的分布情况。
平行坐标图	用于高维数据可视化，可以比较不同类别在多个维度上的表现。

除了以上原则，还需要考虑数据的特点、受众的需求和图表的目的。

总结：

我们学习了Matplotlib的基础与高级技巧，了解了Seaborn的优势，并展示了如何使用它们创建各种复杂的统计图表。掌握了这些技能，可以更有效地进行数据探索、分析和呈现。希望大家能够灵活运用这些知识，创造出更具洞察力和表达力的可视化作品。

Python数据可视化：使用Matplotlib和Seaborn创建复杂的统计图表

发表回复 取消回复

发表回复取消回复