Python的图可视化：如何使用`NetworkX`和`Pyvis`进行图数据可视化。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python图可视化：NetworkX与Pyvis实战

大家好，今天我们来深入探讨Python中图数据的可视化，主要围绕两个强大的库：NetworkX和Pyvis。NetworkX负责图的构建、操作和分析，而Pyvis则专注于将图数据转化为交互式的HTML可视化效果。

1. 图论基础回顾

在深入代码之前，我们先简单回顾一下图论的一些基本概念。一个图 (Graph) 由节点 (Nodes/Vertices) 和连接节点的边 (Edges) 组成。

节点 (Node): 图中的基本单元，可以代表任何实体。
边 (Edge): 连接两个节点的线，可以是有向的 (Directed) 或无向的 (Undirected)。
有向图 (Directed Graph): 边具有方向，表示节点之间的单向关系。
无向图 (Undirected Graph): 边没有方向，表示节点之间的双向关系。
权重 (Weight): 边可以有权重，表示节点之间关系的强度或成本。
度 (Degree): 节点连接的边的数量。

2. NetworkX：图的构建与操作

NetworkX是Python中用于创建、操作和研究复杂网络结构的库。它提供了丰富的数据结构和算法，方便我们进行图分析。

2.1 安装NetworkX

首先，我们需要安装NetworkX。可以使用pip进行安装：

pip install networkx

2.2 创建图

NetworkX支持创建多种类型的图，包括无向图、有向图和多重图。

2.2.1 创建无向图

import networkx as nx

# 创建一个空的无向图
G = nx.Graph()

# 添加节点
G.add_node(1)
G.add_node(2)
G.add_node(3)

# 添加边
G.add_edge(1, 2)
G.add_edge(2, 3)
G.add_edge(3, 1)

# 可以一次添加多个节点和边
G.add_nodes_from([4, 5, 6])
G.add_edges_from([(4, 5), (5, 6), (6, 4)])

# 打印节点和边的数量
print("Nodes:", G.number_of_nodes())
print("Edges:", G.number_of_edges())

# 打印节点和边的列表
print("Nodes:", list(G.nodes()))
print("Edges:", list(G.edges()))

2.2.2 创建有向图

import networkx as nx

# 创建一个空的有向图
DG = nx.DiGraph()

# 添加节点
DG.add_node("A")
DG.add_node("B")
DG.add_node("C")

# 添加有向边
DG.add_edge("A", "B")
DG.add_edge("B", "C")
DG.add_edge("C", "A")

# 打印节点和边的数量
print("Nodes:", DG.number_of_nodes())
print("Edges:", DG.number_of_edges())

# 打印节点和边的列表
print("Nodes:", list(DG.nodes()))
print("Edges:", list(DG.edges()))

2.2.3 添加节点和边的属性

节点和边都可以添加属性，用于存储额外的信息。

import networkx as nx

G = nx.Graph()

# 添加带有属性的节点
G.add_node("A", weight=0.5, label="Node A")
G.add_node("B", weight=0.8, label="Node B")

# 添加带有属性的边
G.add_edge("A", "B", weight=1.2, relation="friend")

# 获取节点属性
print(G.nodes["A"])  # 输出: {'weight': 0.5, 'label': 'Node A'}

# 获取边的属性
print(G.edges[("A", "B")])  # 输出: {'weight': 1.2, 'relation': 'friend'}

2.3 图的常见操作

NetworkX提供了丰富的图操作方法。

删除节点和边：

import networkx as nx

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5])
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 5), (5, 1)])

# 删除节点
G.remove_node(1)

# 删除边
G.remove_edge(2, 3)

print("Nodes:", list(G.nodes()))  # 输出: [2, 3, 4, 5]
print("Edges:", list(G.edges()))  # 输出: [(3, 4), (4, 5)]

查询节点和边的连接情况：

import networkx as nx

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5])
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 5), (5, 1)])

# 获取节点的邻居节点
print("Neighbors of 2:", list(G.neighbors(2)))  # 输出: [1, 3]

# 判断两个节点是否相邻
print("Is 1 adjacent to 2?", G.has_edge(1, 2))  # 输出: True
print("Is 1 adjacent to 3?", G.has_edge(1, 3))  # 输出: False

图的遍历：

import networkx as nx

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5])
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 5), (5, 1)])

# 深度优先搜索 (DFS)
print("DFS from 1:", list(nx.dfs_preorder_nodes(G, source=1)))  # 输出: [1, 2, 3, 4, 5]

# 广度优先搜索 (BFS)
print("BFS from 1:", list(nx.bfs_tree(G, source=1).nodes))  # 输出: [1, 2, 5, 3, 4]

2.4 图的分析

NetworkX提供了丰富的图分析算法。

中心性 (Centrality): 衡量节点在网络中的重要性。常见的中心性指标包括度中心性、接近度中心性、介数中心性和特征向量中心性。

import networkx as nx

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5])
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 5), (5, 1), (1, 4)])

# 度中心性
degree_centrality = nx.degree_centrality(G)
print("Degree Centrality:", degree_centrality)

# 介数中心性
betweenness_centrality = nx.betweenness_centrality(G)
print("Betweenness Centrality:", betweenness_centrality)

# 接近度中心性
closeness_centrality = nx.closeness_centrality(G)
print("Closeness Centrality:", closeness_centrality)

# 特征向量中心性
eigenvector_centrality = nx.eigenvector_centrality(G)
print("Eigenvector Centrality:", eigenvector_centrality)

连通性 (Connectivity): 判断图是否连通，以及计算连通分量。

import networkx as nx

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5, 6])
G.add_edges_from([(1, 2), (2, 3), (4, 5)])

# 判断图是否连通
print("Is connected?", nx.is_connected(G))  # 输出: False

# 计算连通分量
components = list(nx.connected_components(G))
print("Connected Components:", components)  # 输出: [{1, 2, 3}, {4, 5}, {6}]

最短路径 (Shortest Path): 计算两个节点之间的最短路径。

import networkx as nx

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5])
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 5), (5, 1), (1, 4)])

# 计算 1 到 4 的最短路径
shortest_path = nx.shortest_path(G, source=1, target=4)
print("Shortest Path from 1 to 4:", shortest_path)  # 输出: [1, 4]

# 计算 1 到 4 的最短路径长度
shortest_path_length = nx.shortest_path_length(G, source=1, target=4)
print("Shortest Path Length from 1 to 4:", shortest_path_length)  # 输出: 1

3. Pyvis：交互式图可视化

Pyvis是一个用于创建交互式HTML图可视化的Python库。它可以与NetworkX无缝集成，将NetworkX图对象转换为漂亮的交互式可视化效果。

3.1 安装Pyvis

使用pip安装Pyvis：

pip install pyvis

3.2 基本用法

import networkx as nx
from pyvis.network import Network

# 创建一个NetworkX图
G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5])
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 5), (5, 1)])

# 创建一个Pyvis网络对象
net = Network(notebook=True)  # notebook=True for displaying in Jupyter Notebook

# 将NetworkX图添加到Pyvis网络对象
net.from_nx(G)

# 显示可视化效果
net.show("mygraph.html")

这段代码会生成一个名为mygraph.html的文件，其中包含交互式的图可视化效果。你可以在浏览器中打开该文件进行查看。

3.3 自定义节点和边的样式

Pyvis允许我们自定义节点和边的样式，例如颜色、大小、标签等。

3.3.1 自定义节点样式

import networkx as nx
from pyvis.network import Network

G = nx.Graph()
G.add_node(1, label="Node 1", size=20, color="red")
G.add_node(2, label="Node 2", size=30, color="blue")
G.add_node(3, label="Node 3", size=25, color="green")
G.add_edges_from([(1, 2), (2, 3)])

net = Network(notebook=True)
net.from_nx(G)
net.show("custom_nodes.html")

在这个例子中，我们为每个节点指定了不同的标签、大小和颜色。

3.3.2 自定义边样式

import networkx as nx
from pyvis.network import Network

G = nx.Graph()
G.add_node(1)
G.add_node(2)
G.add_node(3)
G.add_edge(1, 2, weight=2, color="purple", width=3)
G.add_edge(2, 3, weight=1, color="orange", width=1)

net = Network(notebook=True)
net.from_nx(G)
net.show("custom_edges.html")

这里，我们为每条边指定了不同的权重、颜色和宽度。

3.4 使用节点和边的属性进行样式设置

我们可以利用NetworkX节点和边的属性来动态地设置Pyvis的样式。

import networkx as nx
from pyvis.network import Network

G = nx.Graph()
G.add_node("A", size=20, title="This is node A", group=1)
G.add_node("B", size=30, title="This is node B", group=2)
G.add_node("C", size=25, title="This is node C", group=1)
G.add_edge("A", "B", weight=2, title="A to B", value=5) # value affects the edge width
G.add_edge("B", "C", weight=1, title="B to C", value=2)
G.add_edge("A", "C", weight=3, title="A to C", value=8)

net = Network(notebook=True,  #for jupyter notebook
                directed=False, #Directed graph
                )

net.from_nx(G)
net.show("attribute_styles.html")

在这个例子中，节点的size、title和group属性以及边的weight和title属性被用于设置可视化效果。 value属性直接影响边的宽度。

3.5 高级功能

Pyvis还提供了一些高级功能，例如：

布局算法： 可以选择不同的布局算法来优化图的排列。
过滤器： 可以根据节点和边的属性来过滤显示。
事件处理： 可以添加事件处理程序，响应用户的交互操作。

3.5.1 布局算法

Pyvis支持多种布局算法，可以通过Network对象的repulsion()方法进行设置。

import networkx as nx
from pyvis.network import Network

G = nx.Graph()
G.add_nodes_from([1, 2, 3, 4, 5, 6, 7, 8])
G.add_edges_from([(1, 2), (1, 3), (2, 4), (2, 5), (3, 6), (3, 7), (4, 8), (5, 8), (6, 8), (7, 8)])

net = Network(notebook=True)
net.from_nx(G)

# 设置布局算法 (引力斥力模型)
net.repulsion(node_distance=120, central_gravity=0.2, spring_length=100, spring_strength=0.05, damping=0.9)

net.show("layout_algorithm.html")

repulsion() 方法可以调整节点之间的距离、中心引力、弹簧长度、弹簧强度和阻尼，从而影响图的整体布局。尝试调整这些参数，观察可视化效果的变化。

3.5.2 过滤器

可以使用filter_menu选项在可视化界面中添加过滤器，允许用户根据节点和边的属性进行过滤。

import networkx as nx
from pyvis.network import Network

G = nx.Graph()
G.add_node("A", group="Group 1")
G.add_node("B", group="Group 2")
G.add_node("C", group="Group 1")
G.add_edge("A", "B", relation="Friend")
G.add_edge("B", "C", relation="Colleague")

net = Network(notebook=True, filter_menu=True)
net.from_nx(G)
net.show("filter_menu.html")

这段代码会生成一个带有过滤器菜单的可视化效果，用户可以通过选择不同的组别或关系来过滤显示节点和边。

3.5.3 事件处理

虽然 Pyvis 本身不直接提供复杂的事件处理机制（例如点击节点触发特定操作），但可以通过在生成的 HTML 文件中嵌入 JavaScript 代码来实现更高级的交互。这需要一定的 Web 开发知识。

4. 综合案例：社交网络可视化

我们来创建一个简单的社交网络可视化案例。

import networkx as nx
from pyvis.network import Network
import random

# 创建一个社交网络图
G = nx.Graph()

# 添加用户节点
users = ["Alice", "Bob", "Charlie", "David", "Eve", "Frank", "Grace", "Henry", "Ivy", "Jack"]
G.add_nodes_from(users)

# 随机添加好友关系
for i in range(len(users)):
    for j in range(i + 1, len(users)):
        if random.random() < 0.3:  # 30% 的概率成为好友
            G.add_edge(users[i], users[j])

# 设置节点属性 (例如，随机分配年龄)
for user in users:
    G.nodes[user]["age"] = random.randint(18, 40)
    G.nodes[user]["title"] = f"Name: {user}, Age: {G.nodes[user]['age']}" # Mouse over text

# 设置边的属性 (例如，共同好友数量)
for edge in G.edges():
    u, v = edge
    common_friends = len(list(nx.common_neighbors(G, u, v)))
    G.edges[edge]["weight"] = common_friends + 1 # Add 1 to prevent 0 width edges
    G.edges[edge]["title"] = f"Common Friends: {common_friends}"
    G.edges[edge]["value"] = common_friends + 1 # Edge width

# 创建Pyvis网络对象
net = Network(notebook=True,
                directed=False,
                )

# 将NetworkX图添加到Pyvis网络对象
net.from_nx(G)

# 设置布局算法
net.repulsion(node_distance=100, central_gravity=0.2, spring_length=80, spring_strength=0.05, damping=0.9)

# 显示可视化效果
net.show("social_network.html")

这个案例创建了一个包含10个用户的社交网络，随机添加好友关系，并为每个用户分配随机年龄。节点上的鼠标悬停文本(title)显示用户的姓名和年龄。边的宽度和标签(title)表示共同好友的数量。

5. NetworkX与Pyvis的结合使用场景

使用场景	NetworkX	Pyvis
图的创建与操作	负责图的构建、节点和边的添加、删除和修改。	不直接参与图的构建和操作，而是基于 `NetworkX` 图对象进行可视化。
图的分析与算法	提供丰富的图分析算法，例如中心性分析、连通性分析、最短路径计算等。	不提供图分析功能，专注于可视化。
数据准备与预处理	用于处理图数据，例如从文件或数据库加载数据，进行数据清洗和转换。	依赖于 `NetworkX` 提供的数据，本身不进行数据处理。
静态图可视化	虽然 `NetworkX` 可以绘制静态图，但样式和交互性有限。	可以创建基本的静态图，但主要优势在于交互式可视化。
交互式图可视化	不支持交互式可视化。	擅长创建交互式HTML图可视化效果，例如节点拖拽、缩放、过滤等。
节点和边的样式自定义	支持节点和边的属性设置，但样式自定义能力有限。	提供丰富的节点和边样式自定义选项，例如颜色、大小、形状、标签等。可以通过节点和边的属性进行动态设置。
大规模图的可视化	对于大规模图，`NetworkX` 的绘图功能可能不够高效。	在处理大规模图时，`Pyvis` 可能需要进行优化，例如使用分层布局、减少节点数量等。
需要嵌入到Web应用程序中的图	需要借助其他库才能将 `NetworkX` 图嵌入到 Web 应用程序中。	可以轻松地将生成的 HTML 文件嵌入到 Web 应用程序中，实现交互式图可视化。

6. 更进一步：从数据源构建可视化图

import pandas as pd
import networkx as nx
from pyvis.network import Network

# 模拟数据：DataFrame 格式的社交网络关系
data = {'source': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'target': ['Bob', 'Charlie', 'David', 'Eve', 'Alice'],
        'weight': [3, 2, 4, 1, 5]}  # 权重可以代表关系强度，例如共同好友数
df = pd.DataFrame(data)

# 从 DataFrame 创建 NetworkX 图
G = nx.from_pandas_edgelist(df, source='source', target='target', edge_attr='weight')

# 可以添加节点属性，例如从另一个 DataFrame 加载
node_data = {'id': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
             'age': [25, 30, 22, 28, 35],
             'city': ['New York', 'London', 'Paris', 'Tokyo', 'Sydney']}
node_df = pd.DataFrame(node_data)
node_df = node_df.set_index('id') # Set 'id' as the index for easy lookup

for node in G.nodes():
    if node in node_df.index:
        G.nodes[node]['age'] = node_df.loc[node, 'age']  # access using .loc
        G.nodes[node]['city'] = node_df.loc[node, 'city']
        G.nodes[node]['title'] = f"Age: {G.nodes[node]['age']}, City: {G.nodes[node]['city']}" #mouseover text
        G.nodes[node]['label'] = node #Display Label

# 使用 Pyvis 可视化
net = Network(notebook=True)
net.from_nx(G)

# 自定义节点和边的样式（可选）
for edge in net.get_edges():
    edge['width'] = edge['weight']  # Use weight for edge width
    del edge['weight'] # remove weight attribute to avoid errors

# 设置一些布局选项
net.repulsion(node_distance=120, central_gravity=0.2, spring_length=100, spring_strength=0.05, damping=0.9)

net.show("social_network_from_dataframe.html")

这个例子演示了如何从 Pandas DataFrame 构建 NetworkX 图，并使用 Pyvis 进行可视化。首先，我们创建了一个 DataFrame，其中包含社交网络的关系数据，包括源节点、目标节点和关系权重。然后，使用 nx.from_pandas_edgelist() 函数从 DataFrame 创建 NetworkX 图。接着，我们又创建了一个包含节点属性（年龄和城市）的 DataFrame，并将其添加到 NetworkX 图的节点属性中。最后，使用 Pyvis 将 NetworkX 图可视化，并根据边的权重设置边的宽度。

7. 总结与展望

今天我们学习了如何使用NetworkX进行图的构建、操作和分析，以及如何使用Pyvis将图数据转化为交互式的HTML可视化效果。NetworkX提供了强大的图算法和数据结构，而Pyvis则专注于提供美观且可交互的可视化界面。通过将两者结合使用，我们可以轻松地分析和可视化各种复杂的网络结构。未来的发展方向可能包括：更大规模图的可视化优化、更丰富的交互功能、以及与更多数据源的集成。

希望今天的讲解对大家有所帮助。

8. 关于库的选择和使用

NetworkX和Pyvis并非互斥，而是互补的。NetworkX负责图数据的处理和分析，而Pyvis负责将处理后的数据可视化。正确地选择和使用这两个库，可以更高效地完成图数据的可视化任务。

9. 掌握图可视化工具，提升数据洞察力

通过学习和掌握NetworkX和Pyvis，你将能够更好地理解和分析图数据，从而发现隐藏在数据背后的模式和洞察。