MySQL函数：`RAND()`与`RAND(N)`生成随机数的底层机制和种子用法。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL随机数生成：`RAND()`与`RAND(N)`深度剖析

大家好！今天我们来深入探讨MySQL中生成随机数的两个关键函数：RAND()和RAND(N)。理解这两个函数的底层机制以及种子(seed)的用法，对于编写涉及随机抽样、数据模拟、以及其他需要随机性的SQL语句至关重要。

`RAND()`：伪随机数生成器的默认实现

RAND()函数是MySQL中生成随机数的基础。如果不提供任何参数，RAND()每次调用都会返回一个0到1之间的浮点数。这个数看起来是随机的，但实际上它是由一个确定性的伪随机数生成器（PRNG）产生的。

底层机制：线性同余生成器 (LCG) 的简化模型

虽然MySQL的官方文档并没有明确指出RAND()使用的具体PRNG算法，但通常的实现思路可以简化为线性同余生成器（LCG）的模型。 LCG是一种常见的PRNG算法，其核心公式如下：

X_{n+1} = (a * X_n + c) mod m

其中：

X_{n+1} 是下一个随机数。
X_n 是当前的随机数（也称为状态）。
a 是乘数。
c 是增量。
m 是模数。

RAND()函数内部维护着一个状态变量，每次调用时，它会根据上述公式更新状态，并基于新的状态计算出一个0到1之间的浮点数。这个浮点数就是RAND()的返回值。

为什么是伪随机？

因为LCG算法是确定性的。给定相同的初始状态（种子），它将始终产生相同的随机数序列。这就是“伪”随机的含义。真正的随机数依赖于物理过程或其他不可预测的源。

示例

SELECT RAND();  -- 返回一个0到1之间的浮点数，例如 0.7893456
SELECT RAND();  -- 再次返回一个0到1之间的浮点数，例如 0.2348761
SELECT RAND();  -- 又一次返回一个0到1之间的浮点数，例如 0.9123456

每次执行上述语句，你都会得到不同的随机数，因为RAND()函数内部的状态在不断更新。

`RAND(N)`：指定种子，控制随机数序列

RAND(N)函数允许我们指定一个整数N作为种子。种子决定了PRNG的初始状态。这意味着，如果使用相同的种子，RAND(N)将始终产生相同的随机数序列。

种子 (Seed) 的作用

种子就像一个“启动器”，它告诉PRNG从哪个状态开始生成随机数。通过控制种子，我们可以控制随机数序列的可重复性。

示例

SELECT RAND(123); -- 使用种子123生成一个随机数，例如 0.7234567
SELECT RAND(123); -- 再次使用种子123生成一个随机数，结果与上次相同：0.7234567
SELECT RAND(123); -- 再次使用种子123生成一个随机数，结果仍然与上次相同：0.7234567

SELECT RAND(); -- 使用默认种子生成一个随机数，例如 0.1239876
SELECT RAND(); -- 再次使用默认种子生成一个随机数，结果与上次不同：0.8763452

重要提示：

RAND(N)只影响当前连接中的随机数序列。不同的连接仍然会使用不同的默认种子。
RAND(N)的种子只在第一次调用时起作用。后续的RAND(N)调用会基于之前的状态继续生成随机数序列，而不会重新使用种子。

应用场景：可重复的实验

RAND(N)的一个主要应用场景是需要可重复的实验。例如，在测试某些算法或数据分析流程时，我们希望每次运行都能得到相同的结果，以便进行比较和调试。

更深入的理解：状态与连接

要理解RAND()和RAND(N)的行为，我们需要理解MySQL连接的概念以及PRNG的状态管理。

连接： 每个客户端与MySQL服务器建立的会话称为连接。
状态： PRNG的状态是其内部变量，决定了下一个随机数的值。

每个连接都有自己独立的PRNG状态。当你使用RAND()时，它会更新当前连接的PRNG状态。 RAND(N)会用指定的种子初始化当前连接的PRNG状态。

示例

假设有两个客户端连接到同一个MySQL服务器：

连接 1:

SELECT RAND(123);  -- 使用种子123初始化PRNG
SELECT RAND();      -- 生成基于种子123的第一个随机数
SELECT RAND();      -- 生成基于种子123的第二个随机数

连接 2:

SELECT RAND(456);  -- 使用种子456初始化PRNG
SELECT RAND();      -- 生成基于种子456的第一个随机数
SELECT RAND();      -- 生成基于种子456的第二个随机数

这两个连接的随机数序列是相互独立的，因为它们使用了不同的种子初始化了各自的PRNG。

实际应用：随机抽样

RAND()和RAND(N)在随机抽样中扮演着关键角色。假设我们有一个名为customers的表，包含客户的信息，我们想从中随机抽取10个客户。

方法一：使用ORDER BY RAND()

SELECT *
FROM customers
ORDER BY RAND()
LIMIT 10;

这种方法简单易懂，但效率较低。因为它需要为表中的每一行计算一个随机数，然后对整个表进行排序。

方法二：使用RAND()和WHERE子句

SELECT *
FROM customers
WHERE RAND() < 0.1  -- 假设我们想抽取大约10%的客户
LIMIT 10;

这种方法理论上更高效，因为它不需要排序。然而，抽样的比例并不精确，实际抽取的客户数量可能会有较大偏差。

方法三：结合使用RAND(N)和存储过程

如果我们需要可重复的随机抽样，可以结合使用RAND(N)和存储过程。

DELIMITER //

CREATE PROCEDURE RandomSample(IN seed INT, IN sample_size INT)
BEGIN
  SET @sql = CONCAT('SELECT * FROM customers ORDER BY RAND(', seed, ') LIMIT ', sample_size);
  PREPARE stmt FROM @sql;
  EXECUTE stmt;
  DEALLOCATE PREPARE stmt;
END //

DELIMITER ;

CALL RandomSample(789, 10); -- 使用种子789抽取10个客户
CALL RandomSample(789, 10); -- 再次使用种子789抽取10个客户，结果与上次相同

这个存储过程接受一个种子和一个样本大小作为参数，并使用动态SQL生成一个ORDER BY RAND(N)语句。这样，每次使用相同的种子调用存储过程，都会得到相同的随机样本。

示例表结构：customers

为了方便演示，我们假设customers表有以下结构：

Column Name	Data Type	Description
id	INT	客户ID (主键)
name	VARCHAR	客户姓名
city	VARCHAR	客户所在城市
signup_date	DATE	客户注册日期

高级用法：生成指定范围内的随机整数

有时我们需要生成指定范围内的随机整数，例如，生成1到100之间的随机数。可以使用以下公式：

FLOOR(min + RAND() * (max - min + 1))

其中：

min 是最小值。
max 是最大值。

示例

SELECT FLOOR(1 + RAND() * 100); -- 生成1到100之间的随机整数

使用RAND(N)生成可重复的随机整数序列

SELECT FLOOR(1 + RAND(5) * 100);  -- 生成基于种子5的第一个随机整数
SELECT FLOOR(1 + RAND(5) * 100);  --  注意：第二次调用RAND(5)后，种子效果已经没有了，虽然参数一样，但结果已经和第一次不一样了。
SELECT FLOOR(1 + RAND() * 100); -- 生成一个随机整数，和前面的RAND(5)无关

注意事项与最佳实践

性能： ORDER BY RAND()的性能较差，应尽量避免在大型表中使用。
可重复性： 如果需要可重复的随机数序列，请使用RAND(N)并记录使用的种子。
安全性： RAND()生成的伪随机数不适合用于加密或其他安全敏感的应用。对于安全性要求较高的场景，应使用专门的加密库或硬件随机数生成器。
抽样偏差： 使用WHERE RAND() < proportion进行抽样时，实际抽取的数量可能会有偏差。如果需要精确的抽样比例，请考虑使用其他方法。
版本差异： 不同的MySQL版本可能使用不同的PRNG算法，因此随机数序列可能会有所不同。

总结

今天我们深入探讨了MySQL中RAND()和RAND(N)的底层机制、种子用法以及实际应用。理解这两个函数的行为，可以帮助我们编写更有效、更可控的SQL语句，从而更好地满足各种随机性需求。

随机数生成函数的关键要点

RAND()生成伪随机数，依赖于PRNG的内部状态。
RAND(N)允许指定种子，控制随机数序列的可重复性。
合理选择随机抽样方法，注意性能和抽样偏差。
根据实际需求选择合适的随机数生成方案。

MySQL随机数生成：RAND()与RAND(N)深度剖析

RAND()：伪随机数生成器的默认实现

RAND(N)：指定种子，控制随机数序列