NumPy 的数据类型系统：固定宽度整数与浮点数 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位技术大咖，欢迎来到“NumPy奇妙夜”！今晚，咱们不聊八卦，不谈风月，就来扒一扒 NumPy 的数据类型系统，特别是那些“老实巴交”的固定宽度整数和“飘忽不定”的浮点数。准备好瓜子饮料小板凳，咱们开讲啦！

开场白：数据类型，程序的灵魂伴侣

各位，想象一下，如果程序的世界没有数据类型，那会是什么样子？就像一锅乱炖，什么东西都往里扔，最后出来的肯定是黑暗料理！数据类型，就像程序的灵魂伴侣，决定了数据的本质、存储方式和运算规则。没有它，程序就寸步难行。

在 NumPy 的世界里，数据类型更是重中之重。NumPy 的核心是多维数组，而数组中的每个元素都必须是相同的数据类型。这就好比一个军队，必须统一着装，才能整齐划一，战斗力爆表！

第一幕：固定宽度整数——老实人的自我修养

首先登场的是我们的固定宽度整数，它们就像一群老实巴交的程序员，兢兢业业，一丝不苟。所谓“固定宽度”，就是指它们在内存中占据的比特位数是固定的，比如 int8 占用 8 位，int16 占用 16 位，以此类推。

数据类型	描述	范围
`int8`	8 位有符号整数	-128 到 127
`int16`	16 位有符号整数	-32768 到 32767
`int32`	32 位有符号整数	-2147483648 到 2147483647
`int64`	64 位有符号整数	-9223372036854775808 到 9223372036854775807
`uint8`	8 位无符号整数	0 到 255
`uint16`	16 位无符号整数	0 到 65535
`uint32`	32 位无符号整数	0 到 4294967295
`uint64`	64 位无符号整数	0 到 18446744073709551615

1. 为什么要用固定宽度整数？

节省内存： 就像租房子，你租的房间越大，付的房租就越多。选择合适的整数类型，可以有效节省内存空间。比如，如果你的数据范围在 0 到 255 之间，用 uint8 就足够了，没必要浪费内存用 int64。
提高运算效率： 计算机处理不同大小的数据，效率是不一样的。通常来说，处理较小的数据类型会更快一些。
跨平台兼容性： 固定宽度整数的宽度是确定的，这保证了在不同的操作系统和硬件平台上，数据的解释是一致的，避免了“鸡同鸭讲”的情况。

2. 有符号 vs. 无符号：选择困难症的福音

你可能会问，int 和 uint 有什么区别？简单来说，int 是有符号整数，可以表示正数、负数和零；而 uint 是无符号整数，只能表示非负数。

这就像你的银行账户，如果你允许透支，那就是有符号的，可以有负余额；如果你不允许透支，那就是无符号的，余额只能是零或者正数。

选择哪种类型，取决于你的数据的性质。如果你的数据永远不会是负数，那么 uint 是更好的选择，因为它能表示更大的正数范围。

3. 溢出：老实人也有犯错的时候

固定宽度整数有一个致命的弱点，那就是溢出。就像一个水桶，如果倒入的水超过了它的容量，就会溢出来。当整数的运算结果超出了其表示范围时，就会发生溢出。

import numpy as np

a = np.int8(100)
b = np.int8(50)
c = a + b
print(c)  # 输出：-106，而不是 150！

上面的例子中，int8 的最大值是 127，100 + 50 超过了这个范围，发生了溢出。结果不是我们期望的 150，而是一个奇怪的负数。

溢出可能会导致程序出现意想不到的错误，因此在编写代码时，一定要注意数据类型的范围，避免溢出的发生。

第二幕：浮点数——优雅的舞者

接下来，让我们欢迎今晚的另一位主角：浮点数！与老实巴交的整数不同，浮点数就像一位优雅的舞者，身姿曼妙，变化多端。

浮点数用于表示带有小数部分的数值，比如 3.1415926，-2.71828。NumPy 提供了两种主要的浮点数类型：float32 和 float64。

数据类型	描述	精度	范围
`float32`	单精度浮点数	约 7 位有效数字	±1.18e-38 到 ±3.4e38
`float64`	双精度浮点数	约 15 位有效数字	±2.23e-308 到 ±1.80e308

1. 浮点数的存储方式：科学计数法的化身

浮点数的存储方式比较复杂，它采用了类似于科学计数法的方式，将一个数分解为符号位、指数位和尾数位。

符号位： 表示数值的正负。
指数位： 表示小数点的位置。
尾数位： 表示数值的有效数字。

这种存储方式使得浮点数能够表示非常大和非常小的数值，但同时也带来了一个问题：精度损失。

2. 精度损失：美丽的代价

由于尾数位的长度是有限的，因此浮点数只能精确表示一部分数值，对于其他的数值，只能进行近似表示。这就是浮点数的精度损失。

a = np.float32(0.1)
b = np.float32(0.2)
c = a + b
print(c)  # 输出：0.30000001192092896，而不是 0.3！

上面的例子中，0.1 和 0.2 都不能被 float32 精确表示，它们被近似表示为 0.10000000149011612 和 0.20000000298023224。当它们相加时，结果也不是精确的 0.3，而是一个近似值。

精度损失是浮点数固有的问题，无法完全避免。在编写代码时，一定要注意精度问题，避免使用浮点数进行精确比较。

3. NaN 和 Inf：浮点数世界的“幺蛾子”

除了普通的数值，浮点数还包含两个特殊的数值：NaN（Not a Number）和 Inf（Infinity）。

NaN： 表示不是一个数字，通常出现在 0/0 或 sqrt(-1) 这样的非法运算中。
Inf： 表示无穷大，通常出现在除以零的运算中。

这两个数值就像浮点数世界的“幺蛾子”，需要特别注意。在进行数值计算时，一定要检查结果是否为 NaN 或 Inf，避免程序出现错误。

第三幕：整数 vs. 浮点数：一场永恒的辩论

整数和浮点数，就像一对欢喜冤家，既有各自的优点，也有各自的缺点。

整数的优点： 精确、快速、节省内存。
整数的缺点： 表示范围有限，容易溢出。
浮点数的优点： 表示范围广，可以表示小数。
浮点数的缺点： 精度损失，计算速度慢。

那么，在实际应用中，我们应该如何选择呢？

如果你的数据是整数，并且范围不大，那么整数是更好的选择。
如果你的数据包含小数，或者范围很大，那么浮点数是更好的选择。
如果你的程序对精度要求很高，那么可以使用更高精度的浮点数类型，比如 float64。

第四幕：NumPy 中的数据类型转换

NumPy 提供了强大的数据类型转换功能，可以将数组中的元素从一种类型转换为另一种类型。

astype() 方法： 可以将数组转换为指定的数据类型。

a = np.array([1, 2, 3], dtype=np.int32)
b = a.astype(np.float64)
print(b.dtype)  # 输出：float64

显式类型转换函数： 比如 np.int32()、np.float64() 等，可以将单个数值转换为指定的数据类型。

a = 3.1415926
b = np.int32(a)
print(b)  # 输出：3

在进行数据类型转换时，一定要注意数据范围和精度问题，避免数据丢失或溢出。

尾声：选择合适的武器，才能战无不胜

各位观众老爷，今天的“NumPy奇妙夜”就到这里了。希望通过今天的讲解，大家对 NumPy 的数据类型系统有了更深入的了解。

记住，选择合适的数据类型，就像选择合适的武器，只有选择了最适合的武器，才能在编程的战场上战无不胜，攻无不克！💪

下次再见！ 👋

发表回复 取消回复

发表回复取消回复