Python高级技术之：`SciPy`的稀疏矩阵：`CSR`、`CSC`和`LIL`格式的性能对比。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

嘿，大家好！今天咱们聊聊SciPy里的稀疏矩阵，特别是CSR、CSC和LIL这仨兄弟。稀疏矩阵这东西，简单说就是矩阵里大部分元素都是零。如果直接用普通矩阵存，那得多浪费空间啊！所以就有了稀疏矩阵这种专门的存储方式，只存非零元素，省地儿！

为啥要有这么多格式？

你可能会问，为啥搞这么多格式啊？ CSR、CSC、LIL，光看名字都眼晕。原因很简单，不同的存储格式，在不同的操作上性能不一样。有的适合做加法，有的适合做乘法，有的适合修改元素。就像不同类型的汽车，有的适合跑高速，有的适合越野。

先来认识一下这三位：

CSR (Compressed Sparse Row): 行压缩稀疏矩阵。顾名思义，按行来压缩的。适合做矩阵向量乘法，尤其是按行访问元素的场景。
CSC (Compressed Sparse Column): 列压缩稀疏矩阵。跟CSR对称，按列来压缩的。适合做矩阵向量乘法，尤其是按列访问元素的场景。
LIL (List of Lists): 链表型稀疏矩阵。适合动态构建矩阵，也就是不断插入新元素的场景。但做数值计算就比较慢了。

Show me the code! (代码说话)

光说不练假把式，咱们直接上代码。

import numpy as np
from scipy.sparse import csr_matrix, csc_matrix, lil_matrix
import time

# 创建一个1000x1000的稀疏矩阵，大约1%的元素非零
size = 1000
density = 0.01
np.random.seed(0) # 设置随机种子，保证每次运行结果一致
data = np.random.rand(int(size * size * density))
row = np.random.randint(0, size, size=int(size * size * density))
col = np.random.randint(0, size, size=int(size * size * density))

# 使用coo_matrix创建稀疏矩阵，然后转换为CSR, CSC, LIL
from scipy.sparse import coo_matrix
coo = coo_matrix((data, (row, col)), shape=(size, size))
csr = coo.tocsr()
csc = coo.tocsc()
lil = coo.tolil()

# 打印非零元素个数
print(f"CSR非零元素个数: {csr.nnz}")
print(f"CSC非零元素个数: {csc.nnz}")
print(f"LIL非零元素个数: {lil.nnz}")

这段代码创建了一个1000×1000的稀疏矩阵，非零元素大约占1%。然后分别转换成了CSR、CSC和LIL格式。

性能大比拼：矩阵向量乘法

矩阵向量乘法是稀疏矩阵最常见的操作之一。咱们看看这三种格式在这个操作上的表现。

# 创建一个随机向量
vector = np.random.rand(size)

# CSR矩阵向量乘法
start_time = time.time()
result_csr = csr.dot(vector)
end_time = time.time()
csr_time = end_time - start_time
print(f"CSR矩阵向量乘法时间: {csr_time:.4f} 秒")

# CSC矩阵向量乘法
start_time = time.time()
result_csc = csc.dot(vector)
end_time = time.time()
csc_time = end_time - start_time
print(f"CSC矩阵向量乘法时间: {csc_time:.4f} 秒")

# LIL矩阵向量乘法
start_time = time.time()
result_lil = lil.dot(vector)
end_time = time.time()
lil_time = end_time - start_time
print(f"LIL矩阵向量乘法时间: {lil_time:.4f} 秒")

通常情况下，CSR和CSC在矩阵向量乘法上性能差不多，而且比LIL快很多。这是因为CSR和CSC的存储结构更适合做这种运算。

性能大比拼：元素访问和修改

稀疏矩阵的元素访问和修改也是很常见的操作。咱们看看这三种格式在这个操作上的表现。

# 访问单个元素
row_index = 100
col_index = 200

# CSR元素访问
start_time = time.time()
csr_element = csr[row_index, col_index]
end_time = time.time()
csr_access_time = end_time - start_time
print(f"CSR元素访问时间: {csr_access_time:.6f} 秒, 值为: {csr_element}")

# CSC元素访问
start_time = time.time()
csc_element = csc[row_index, col_index]
end_time = time.time()
csc_access_time = end_time - start_time
print(f"CSC元素访问时间: {csc_access_time:.6f} 秒, 值为: {csc_element}")

# LIL元素访问
start_time = time.time()
lil_element = lil[row_index, col_index]
end_time = time.time()
lil_access_time = end_time - start_time
print(f"LIL元素访问时间: {lil_access_time:.6f} 秒, 值为: {lil_element}")

# 修改单个元素
new_value = 3.14159

# CSR元素修改 (需要先转换为LIL)
lil_from_csr = csr.tolil()  # 转换为LIL进行修改
start_time = time.time()
lil_from_csr[row_index, col_index] = new_value
end_time = time.time()
csr_modify_time = end_time - start_time
print(f"CSR(转换为LIL)元素修改时间: {csr_modify_time:.6f} 秒")
csr_modified = lil_from_csr.tocsr() # 转换回CSR

# CSC元素修改 (需要先转换为LIL)
lil_from_csc = csc.tolil() # 转换为LIL进行修改
start_time = time.time()
lil_from_csc[row_index, col_index] = new_value
end_time = time.time()
csc_modify_time = end_time - start_time
print(f"CSC(转换为LIL)元素修改时间: {csc_modify_time:.6f} 秒")
csc_modified = lil_from_csc.tocsc() # 转换回CSC

# LIL元素修改
start_time = time.time()
lil[row_index, col_index] = new_value
end_time = time.time()
lil_modify_time = end_time - start_time
print(f"LIL元素修改时间: {lil_modify_time:.6f} 秒")

可以看到，LIL在元素修改上更有优势，因为它是基于链表的，插入和删除元素比较方便。而CSR和CSC因为存储结构的原因，修改元素比较麻烦，通常需要先转换成LIL格式。访问单个元素速度上，差别不会太大，但如果涉及到大量元素的修改，LIL的优势就体现出来了。

性能总结 (表格伺候!)

为了更直观地比较这三种格式的性能，我们用一个表格来总结一下：

操作	CSR	CSC	LIL
矩阵向量乘法	优秀	优秀	较差
元素访问	良好	良好	良好
元素修改	差 (需转换)	差 (需转换)	优秀
内存占用	中等	中等	较高
矩阵构建	差 (不适合)	差 (不适合)	优秀

如何选择？ (选择困难症患者福音)

说了这么多，到底该选哪个呢？别慌，我来给你支招。

如果你主要做矩阵向量乘法，而且矩阵构建完成后不再修改，那么CSR或者CSC是首选。 如果你的数据是按行组织的，那就选CSR；如果你的数据是按列组织的，那就选CSC。
如果你需要频繁地修改矩阵的元素，或者在构建矩阵的过程中不断添加新元素，那么LIL是更好的选择。 但是要注意，LIL在做数值计算的时候性能比较差，所以最好在矩阵构建完成后转换成CSR或者CSC。
如果你的矩阵非常稀疏，而且你需要节省内存空间，那么这三种格式都可以考虑。 但是要注意，不同的格式在内存占用上可能会有一些差异。

更高级的用法 (进阶之路)

除了上面介绍的基本用法，SciPy的稀疏矩阵还有很多高级的用法。比如：

稀疏矩阵分解： 可以用SVD、LU等方法对稀疏矩阵进行分解。
稀疏线性方程组求解： 可以用迭代法或者直接法求解稀疏线性方程组。
稀疏图算法： 可以用稀疏矩阵来表示图，然后用图算法来解决实际问题。

这些高级用法需要更深入的了解线性代数和数值计算的知识，感兴趣的同学可以自己去研究一下。

一些注意事项 (避坑指南)

类型转换： 在不同的稀疏矩阵格式之间进行转换是比较耗时的操作，所以要尽量避免频繁的类型转换。
内存占用： 稀疏矩阵虽然可以节省内存空间，但是如果矩阵的维度很大，或者非零元素很多，那么内存占用仍然会很高。
算法选择： 不同的算法对稀疏矩阵的格式有不同的要求，所以在选择算法的时候要注意选择合适的格式。

举个例子：PageRank算法

PageRank算法是Google用来评估网页重要性的算法。它可以看作是一个矩阵向量乘法问题，其中矩阵表示网页之间的链接关系，向量表示网页的PageRank值。

import numpy as np
from scipy.sparse import csr_matrix

def pagerank(M, damping=0.85, max_iter=100, tol=1e-6):
    """
    计算PageRank值

    参数:
        M: 稀疏矩阵，表示网页之间的链接关系。 M[i, j] = 1 表示网页j链接到网页i
        damping: 阻尼系数
        max_iter: 最大迭代次数
        tol: 收敛容差

    返回值:
        PageRank向量
    """
    N = M.shape[0]
    v = np.random.rand(N)
    v = v / np.sum(v)

    for i in range(max_iter):
        v_prev = v.copy()
        v = damping * M.dot(v) + (1 - damping) / N
        if np.linalg.norm(v - v_prev) < tol:
            break
    return v

# 创建一个示例链接矩阵
# 假设有4个网页，链接关系如下：
# 网页0链接到网页1
# 网页1链接到网页0和网页2
# 网页2链接到网页3
# 网页3链接到网页0
links = np.array([
    [0, 1, 0, 0],
    [1, 0, 1, 0],
    [0, 0, 0, 1],
    [1, 0, 0, 0]
])

# 将链接矩阵转换为稀疏矩阵
M = csr_matrix(links)

# 对矩阵进行归一化，使得每一列的和为1
for i in range(M.shape[1]):
    column_sum = np.sum(M[:, i])
    if column_sum > 0:
        M[:, i] = M[:, i] / column_sum

# 计算PageRank值
pr = pagerank(M, damping=0.85, max_iter=100, tol=1e-6)

print("PageRank值:", pr)

在这个例子中，我们用CSR矩阵来存储网页之间的链接关系。因为PageRank算法的核心是矩阵向量乘法，所以CSR格式非常适合。

总结 (敲黑板划重点!)

今天我们一起学习了SciPy中稀疏矩阵的CSR、CSC和LIL格式。了解了它们的特点、适用场景和性能差异。希望通过今天的学习，大家能够更加熟练地使用稀疏矩阵，解决实际问题。记住，没有最好的格式，只有最适合的格式！根据实际情况选择合适的格式，才能发挥稀疏矩阵的最大威力！

就说到这儿吧，各位，下课！

发表回复 取消回复

发表回复取消回复