随机种子（Seed）与可重现性：`np.random.seed()` - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，没问题！各位朋友，系好安全带，咱们要开始一场关于“随机种子与可重现性”的奇妙之旅啦！🚀

想象一下，你是一位魔术师，手里拿着一副牌。每次你洗牌、发牌，结果都不一样，观众永远无法预测下一张是什么。这就是随机性！但如果你想让你的魔术每次都呈现完全相同的效果，让观众惊叹于你的“预知未来”的能力，你就需要一个秘密武器——随机种子！

第一幕：随机性的魅力与困惑

1. 随机性：自然界的调味剂

在浩瀚的宇宙中，随机性无处不在。你看，风吹落一片树叶，它飘向何方？雨滴敲打窗户，它们落在哪里？这些都是随机事件，充满了不确定性。

在计算机的世界里，我们用“随机数生成器”（Random Number Generator，RNG）来模拟这种随机性。RNG就像一个黑盒子，你给它一个指令，它就吐出一个看似随机的数字。这些数字在统计学、密码学、游戏开发、机器学习等领域都有着广泛的应用。

举个例子：

游戏开发： 怪物出现的位置、武器的掉落概率，都需要随机数来增加游戏的趣味性和挑战性。
机器学习： 初始化神经网络的权重、划分训练集和测试集，都需要随机数来保证模型的泛化能力。
统计模拟： 模拟股票价格的波动、预测疾病的传播，都需要随机数来构建模型。

2. 伪随机：计算机的无奈之举

计算机是严格按照指令执行的机器，它本身并不具备产生真正随机数的能力。因此，我们使用的RNG实际上是“伪随机数生成器”（Pseudo-Random Number Generator，PRNG）。

PRNG的原理是：给定一个初始值（称为“种子”），通过一个确定的算法，生成一个看似随机的数字序列。这个序列具有一定的统计特性，可以近似地模拟真正的随机数。

这就好比，你给一台机器输入一个数字“7”，它按照固定的公式（比如：x = (x * 1664525 + 1013904223) % (2**32)）计算出下一个数字“1898623456”，然后再用这个数字计算下一个，以此类推。虽然这个序列看起来是随机的，但实际上是完全确定的，只要你知道初始值和算法，你就能预测整个序列。

3. 随机性的烦恼：无法重现的结果

在科学研究和工程实践中，可重现性（Reproducibility）至关重要。这意味着，如果你发表了一篇论文，别人应该能够使用你的代码和数据，得到和你一样的结果。

但是，如果你的代码中使用了随机数，每次运行的结果可能都不一样，这就给可重现性带来了挑战。想象一下：

你训练了一个机器学习模型，发现效果很好，但在别人那里却跑不出一样的结果，甚至更差。
你做了一个统计模拟，发现某种现象发生的概率是5%，但在别人那里却变成了10%。

这简直就是一场噩梦！😱

第二幕：随机种子的救赎

1. 什么是随机种子？

随机种子（Seed）就是PRNG的初始值。它就像一个密码，决定了PRNG生成的随机数序列。

当你设置了相同的随机种子，PRNG就会生成相同的随机数序列，从而保证了代码的可重现性。

2. `np.random.seed()`：NumPy的秘密武器

在Python的NumPy库中，np.random.seed()函数就是用来设置随机种子的。它的用法非常简单：

import numpy as np

# 设置随机种子为42
np.random.seed(42)

# 生成5个随机数
random_numbers = np.random.rand(5)
print(random_numbers)
#输出：[0.37454012 0.95071431 0.73199394 0.59865848 0.15601864]

这段代码的意思是：

导入NumPy库。
设置随机种子为42。你可以选择任何整数作为种子，只要保证每次运行使用相同的种子即可。
使用np.random.rand()函数生成5个0到1之间的随机数。

如果你再次运行这段代码，你会发现每次生成的随机数都是一样的！这就是随机种子的魔力！✨

3. 随机种子的作用域

需要注意的是，np.random.seed()函数的作用域是全局的。也就是说，一旦你设置了随机种子，它会影响整个程序中所有使用np.random生成的随机数。

import numpy as np

np.random.seed(42)
random_numbers1 = np.random.rand(5)
print("第一次生成的随机数:", random_numbers1)

random_numbers2 = np.random.rand(5)
print("第二次生成的随机数:", random_numbers2)

np.random.seed(42)  # 再次设置相同的随机种子
random_numbers3 = np.random.rand(5)
print("第三次生成的随机数:", random_numbers3)

运行结果：

第一次生成的随机数: [0.37454012 0.95071431 0.73199394 0.59865848 0.15601864]
第二次生成的随机数: [0.15594934 0.05808361 0.86617615 0.60111501 0.70807258]
第三次生成的随机数: [0.37454012 0.95071431 0.73199394 0.59865848 0.15601864]

可以看到，第一次和第三次生成的随机数完全一样，而第二次生成的随机数则不同。这是因为我们在第三次生成随机数之前，再次设置了随机种子为42。

4. 多个随机数生成器：`np.random.Generator`

从NumPy 1.17版本开始，引入了新的随机数生成器np.random.Generator，它提供了更灵活的随机数生成方式，并且可以避免全局作用域的问题。

使用np.random.Generator，你可以创建多个独立的随机数生成器，每个生成器都有自己的随机种子和状态。

import numpy as np

# 创建一个新的随机数生成器，并设置随机种子为42
rng = np.random.default_rng(42)

random_numbers1 = rng.random(5)
print("第一次生成的随机数:", random_numbers1)

random_numbers2 = rng.random(5)
print("第二次生成的随机数:", random_numbers2)

# 创建另一个随机数生成器，并设置随机种子为123
rng2 = np.random.default_rng(123)

random_numbers3 = rng2.random(5)
print("第三次生成的随机数:", random_numbers3)

运行结果：

第一次生成的随机数: [0.77395605 0.43887844 0.85859792 0.69736803 0.09417735]
第二次生成的随机数: [0.97562235 0.76113971 0.78606431 0.1279153  0.35654176]
第三次生成的随机数: [0.69179471 0.3566755  0.04303899 0.57236482 0.71673489]

可以看到，每个生成器生成的随机数序列都是独立的，互不影响。这在复杂的程序中非常有用，可以避免随机数之间的干扰。

5. 选择合适的随机种子

选择合适的随机种子是一个艺术，也是一门科学。

固定种子： 在调试代码、复现结果时，使用固定的随机种子。
时间戳种子： 在需要真正的随机性时，可以使用当前时间戳作为种子。
随机数种子： 使用随机数作为种子，增加随机性。

import numpy as np
import time

# 使用时间戳作为种子
seed = int(time.time())
np.random.seed(seed)

random_numbers = np.random.rand(5)
print(random_numbers)

第三幕：随机种子的应用场景

1. 机器学习：保证模型的可重现性

在机器学习中，随机种子被广泛应用于以下场景：

初始化模型权重： 神经网络的权重需要随机初始化，不同的初始化方式会影响模型的训练效果。设置随机种子可以保证每次训练的初始状态一致。
划分训练集和测试集： 为了评估模型的泛化能力，需要将数据集划分为训练集和测试集。设置随机种子可以保证每次划分的结果一致。
随机梯度下降： 随机梯度下降是一种常用的优化算法，它每次随机选择一部分样本来更新模型权重。设置随机种子可以保证每次更新的方向一致。

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 设置随机种子
np.random.seed(42)

# 生成一些随机数据
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建一个逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 评估模型
accuracy = model.score(X_test, y_test)
print("模型准确率:", accuracy)

在这个例子中，我们使用了random_state=42参数来设置train_test_split()函数的随机种子，保证每次划分的结果一致。

2. 统计模拟：保证结果的可靠性

在统计模拟中，随机种子被用于生成随机样本，模拟各种复杂的现象。设置随机种子可以保证每次模拟的结果一致，从而提高结果的可靠性。

例如，我们可以使用随机数来模拟抛硬币的结果：

import numpy as np

# 设置随机种子
np.random.seed(42)

# 模拟抛100次硬币
results = np.random.randint(0, 2, 100)

# 统计正面和反面的次数
heads = np.sum(results == 0)
tails = np.sum(results == 1)

print("正面次数:", heads)
print("反面次数:", tails)

3. 密码学：保证密钥的安全

在密码学中，随机数被用于生成密钥、初始化向量等敏感信息。设置随机种子可以保证每次生成的密钥都是不同的，从而提高密钥的安全性。

注意： 在密码学中，通常需要使用专门的密码学安全的随机数生成器，而不是np.random提供的伪随机数生成器。

第四幕：随机种子的最佳实践

1. 在代码的开头设置随机种子

为了保证代码的可重现性，建议在代码的开头设置随机种子。这样可以确保所有的随机数都来自于同一个随机数序列。

import numpy as np

# 在代码的开头设置随机种子
np.random.seed(42)

# ... 你的代码 ...

2. 使用描述性的随机种子

选择一个描述性的随机种子，可以方便你记住这个种子对应的实验或模型。例如，你可以使用实验的名称、日期、或模型的版本号作为随机种子。

import numpy as np

# 使用描述性的随机种子
experiment_name = "my_experiment_v1"
np.random.seed(hash(experiment_name))

# ... 你的代码 ...

3. 记录随机种子

在发布代码或论文时，一定要记录你使用的随机种子。这样其他人才能复现你的结果。

你可以将随机种子记录在代码的注释中、文档中、或实验报告中。

4. 避免全局作用域的问题

尽量使用np.random.Generator来创建独立的随机数生成器，避免全局作用域的问题。

5. 谨慎使用时间戳作为种子

虽然时间戳可以生成看似随机的种子，但在某些情况下，可能会导致问题。例如，如果你的程序在短时间内多次运行，可能会使用相同的时间戳作为种子，导致生成的随机数序列相同。

总结：随机种子，可重现性的守护神

随机种子就像一位默默守护着可重现性的英雄，它让我们的代码不再飘忽不定，让我们的实验结果更加可靠。

掌握了随机种子的使用方法，你就掌握了打开可重现性之门的钥匙。从此以后，你可以自信地说：“我的代码，我说一不二！” 😎

希望这篇文章能够帮助你更好地理解随机种子与可重现性。如果你有任何问题，欢迎随时提问！咱们下次再见！👋