理解 Pandas 的深拷贝与浅拷贝 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷们，今天咱们聊聊Pandas里的“双面娇娃”：深拷贝与浅拷贝！

大家好！我是你们的老朋友，人称“Bug终结者”的码农大叔。今天呢，咱们不谈什么高深的算法，也不聊什么复杂的架构，就来聊聊咱们在使用Pandas时，经常会遇到的一个“小妖精”——拷贝。

别小看这个拷贝，它可是个双面娇娃，玩得溜，能让你事半功倍，玩不转，那可就挖了个大坑，等你跳进去哭都来不及！ 😭

今天，我就用最通俗易懂的语言，最生动形象的例子，带大家彻底搞清楚Pandas里的深拷贝和浅拷贝，让它们乖乖地成为你的得力助手，而不是让你头疼的麻烦制造者！

一、拷贝是什么？为什么要拷贝？

在正式开始“解剖”深拷贝和浅拷贝之前，咱们先来搞清楚一个最基本的问题：拷贝到底是个啥？为什么要拷贝？

简单来说，拷贝就是复制一份数据。就像咱们平时复制粘贴文件一样，把一份数据完整地复制到另一个地方。

那为什么要拷贝呢？原因有很多：

备份数据： 想象一下，你辛辛苦苦整理了一个Pandas DataFrame，结果一不小心手滑，把数据改错了！如果没有备份，那可就欲哭无泪了。这时候，拷贝就派上用场了，可以让你在数据被修改之前，先备份一份，以防万一。
避免修改原始数据： 有时候，我们需要对数据进行一些处理，但是又不希望修改原始数据。这时候，就可以先拷贝一份数据，然后在拷贝的数据上进行操作，这样就不会影响到原始数据了。
传递数据： 在函数或者对象之间传递数据的时候，有时候我们需要传递一份数据的副本，而不是原始数据的引用。这样可以避免函数或者对象修改原始数据，导致不可预测的结果。

总而言之，拷贝就像一个“保护罩”，可以保护我们的数据安全，避免不必要的错误。

二、Pandas里的“双面娇娃”：浅拷贝和深拷贝

好了，现在咱们进入正题，来认识一下今天的主角：浅拷贝和深拷贝。

在Pandas中，拷贝操作有两种方式：浅拷贝 (Shallow Copy) 和深拷贝 (Deep Copy)。它们之间的区别，可以用一句话概括：

浅拷贝： 只是复制数据的引用，而不是数据本身。就像咱们复制一个文件的快捷方式，快捷方式指向的是原始文件，修改快捷方式指向的文件，原始文件也会被修改。
深拷贝： 复制的是数据的完整副本，包括数据本身和所有相关的对象。就像咱们复制一份完整的文件，修改复制的文件，原始文件不会受到任何影响。

为了让大家更好地理解，咱们用一个生动的例子来对比一下：

想象一下，你有一栋房子（DataFrame），里面住着一些人（数据）。

浅拷贝就像拿到房子的钥匙。 你可以进出房子，看到里面的人，甚至可以改变里面的人（修改DataFrame里的数据）。但是，这把钥匙指向的是原始的房子，所以你改变房子里的人，原始的房子里的人也会跟着改变。
深拷贝就像复制一栋一模一样的房子。 这栋房子和原始的房子完全一样，里面住着和原始房子里一样的人。但是，这两栋房子是独立的，你改变其中一栋房子里的人，另一栋房子不会受到任何影响。

三、代码实战：用代码说话，胜过千言万语

光说不练假把式，接下来咱们用代码来演示一下浅拷贝和深拷贝的区别。

1. 浅拷贝：

import pandas as pd

# 创建一个 DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df1 = pd.DataFrame(data)

# 进行浅拷贝
df2 = df1.copy(deep=False) # 或者 df2 = df1.copy()，因为deep默认是True

# 修改 df2 的数据
df2.loc[0, 'col1'] = 100

# 打印 df1 和 df2
print("df1:n", df1)
print("ndf2:n", df2)

运行结果：

df1:
    col1  col2
0   100     4
1     2     5
2     3     6

df2:
    col1  col2
0   100     4
1     2     5
2     3     6

可以看到，我们修改了 df2 的数据，df1 的数据也跟着改变了！这就是浅拷贝的特点：修改拷贝后的数据，原始数据也会受到影响。

原因分析：

在浅拷贝中，df2 只是复制了 df1 的引用，也就是说，df1 和 df2 指向的是同一块内存地址。所以，当我们修改 df2 的数据时，实际上修改的是同一块内存地址上的数据，因此 df1 的数据也会跟着改变。

2. 深拷贝：

import pandas as pd

# 创建一个 DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df1 = pd.DataFrame(data)

# 进行深拷贝
df2 = df1.copy(deep=True)

# 修改 df2 的数据
df2.loc[0, 'col1'] = 100

# 打印 df1 和 df2
print("df1:n", df1)
print("ndf2:n", df2)

运行结果：

df1:
   col1  col2
0     1     4
1     2     5
2     3     6

df2:
    col1  col2
0   100     4
1     2     5
2     3     6

可以看到，我们修改了 df2 的数据，df1 的数据并没有发生改变！这就是深拷贝的特点：修改拷贝后的数据，原始数据不会受到任何影响。

原因分析：

在深拷贝中，df2 复制了 df1 的完整副本，包括数据本身和所有相关的对象。也就是说，df1 和 df2 指向的是不同的内存地址。所以，当我们修改 df2 的数据时，实际上修改的是另一块内存地址上的数据，因此 df1 的数据不会受到影响。

四、哪些操作会产生浅拷贝？哪些操作会产生深拷贝？

了解了浅拷贝和深拷贝的区别之后，咱们还需要知道哪些操作会产生浅拷贝，哪些操作会产生深拷贝，这样才能避免掉进坑里。

1. 浅拷贝：

赋值操作： df2 = df1 （注意，这根本不是拷贝，df1 和 df2 指向同一对象）
copy() 方法，当 deep=False 时： df2 = df1.copy(deep=False)
切片操作 (Slice)： df2 = df1[1:3] （这个比较特殊，如果切片后修改的是切片部分，且修改的是DataFrame中的值，则原DataFrame不受影响。但如果修改切片部分指向的对象，原DataFrame会受影响，这涉及到“视图”的概念，更加复杂，这里不展开）
某些视图操作 (View)： 比如从 DataFrame 中选择几列生成新的 DataFrame。

2. 深拷贝：

copy() 方法，当 deep=True 时： df2 = df1.copy(deep=True)
某些情况下，使用 copy() 方法创建新的 DataFrame，并且修改了 DataFrame 的结构 (例如添加新列)。 但并非所有修改结构的操作都一定会导致深拷贝，具体取决于 Pandas 的实现细节。

重要提示：

尽量使用 copy(deep=True) 来进行深拷贝，明确指定 deep=True 可以避免一些潜在的错误。
对于复杂的数据结构，例如 DataFrame 中包含列表或者字典，深拷贝可能会变得更加复杂。 因为深拷贝只会复制 DataFrame 本身，而不会递归地复制 DataFrame 中包含的列表或者字典。如果需要完全深拷贝，可能需要使用 copy.deepcopy() 函数。

五、实际应用场景：什么时候用浅拷贝？什么时候用深拷贝？

掌握了浅拷贝和深拷贝的区别，以及哪些操作会产生浅拷贝和深拷贝之后，咱们再来看看在实际应用中，什么时候应该使用浅拷贝，什么时候应该使用深拷贝。

需要备份数据： 必须使用深拷贝，确保备份的数据和原始数据完全独立。
避免修改原始数据： 必须使用深拷贝，确保对拷贝数据的修改不会影响到原始数据。
传递数据给函数或者对象，并且不希望函数或者对象修改原始数据： 必须使用深拷贝。
只需要查看数据，不需要修改数据： 可以使用浅拷贝，这样可以节省内存空间。
需要对数据进行一些简单的处理，并且可以接受原始数据被修改： 可以使用浅拷贝，这样可以提高效率。

总结：

场景	拷贝类型	优点	缺点
备份数据、避免修改原始数据、传递数据	深拷贝	数据完全独立，修改拷贝数据不会影响原始数据	占用更多内存空间，拷贝速度较慢
只需要查看数据、可以接受原始数据被修改	浅拷贝	节省内存空间，拷贝速度快	修改拷贝数据会影响原始数据，容易出现意想不到的错误

六、进阶：Pandas中的视图 (View) 和副本 (Copy)

在Pandas中，除了浅拷贝和深拷贝之外，还有一个概念叫做“视图 (View)”。视图是 DataFrame 的一部分，它指向的是原始 DataFrame 的数据。

很多操作，比如切片 (Slice) 操作，会返回一个视图。修改视图中的数据，实际上修改的是原始 DataFrame 的数据。

视图和浅拷贝的区别：

视图： 是原始 DataFrame 的一部分，指向的是原始 DataFrame 的数据。
浅拷贝： 是一个新的 DataFrame，但是它复制的是原始 DataFrame 的引用。

为什么要区分视图和浅拷贝？

因为Pandas的设计理念是尽量避免不必要的内存拷贝，提高效率。所以，很多操作会返回一个视图，而不是一个新的 DataFrame。

如何判断一个 DataFrame 是视图还是副本？

可以使用 _is_view 属性来判断一个 DataFrame 是否是视图。

import pandas as pd

# 创建一个 DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df1 = pd.DataFrame(data)

# 进行切片操作
df2 = df1[1:3]

# 判断 df2 是否是视图
print(df2._is_view)

运行结果：

True

重要提示：

尽量避免直接修改视图，因为这样会影响到原始 DataFrame。
如果需要修改视图，最好先将视图转换为副本，然后再进行修改。 可以使用 copy() 方法将视图转换为副本。

七、总结：掌握拷贝的艺术，让你的Pandas代码更加优雅

好了，今天咱们就聊到这里。相信通过今天的讲解，大家已经对Pandas中的深拷贝和浅拷贝有了更深入的理解。

记住，拷贝就像一把双刃剑，用得好，可以保护我们的数据安全，提高代码效率；用不好，就会挖坑埋雷，让你的代码出现各种意想不到的错误。

希望大家在实际应用中，能够灵活运用深拷贝和浅拷贝，写出更加优雅、高效、健壮的Pandas代码！

下次有机会，咱们再聊聊Pandas中更加深入的话题！拜拜！ 👋

各位观众老爷们，今天咱们聊聊Pandas里的“双面娇娃”：深拷贝与浅拷贝！

发表回复 取消回复

发表回复取消回复