Pandas 数据类型（`dtype`）：理解与转换 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，欢迎来到“Pandas 数据类型（dtype）：理解与转换”大型连续剧的现场！我是你们的老朋友，数据界的段子手，今天咱们不聊风花雪月，专攻 Pandas 的“骨骼”——数据类型，也就是我们常说的 dtype。

准备好了吗？咱们这就启程，一起揭开 Pandas 数据类型的神秘面纱！

第一幕：数据类型的“前世今生”——为什么要关心它？

咳咳，在开始“解剖” Pandas 的 dtype 之前，咱们得先明白，为什么要对这些看起来枯燥的类型如此上心？难道是因为闲的没事干吗？当然不是！

想象一下，你是一位厨师，要烹饪一道美味佳肴。你是不是得了解各种食材的特性？猪肉适合红烧，鱼肉适合清蒸，蔬菜适合凉拌。如果把猪肉拿去清蒸，那味道……emmm，恐怕只能用来喂猫了。

数据类型就相当于食材的特性。Pandas 是你的厨房，而数据就是食材。如果你不了解数据的类型，就无法正确地处理它们，轻则浪费计算资源，重则得出错误的结论，甚至让你的老板怀疑人生。

举个例子：

节省内存： int8 和 int64 都可以存储整数，但前者占用的内存空间远小于后者。如果你存储的数据范围不大，使用 int8 可以大大节省内存，特别是处理大型数据集时，效果尤为明显。
提高运算效率： 不同类型的数据进行运算时，Pandas 可能需要进行类型转换，这会消耗额外的计算资源。如果数据类型一开始就设置正确，就可以避免不必要的类型转换，提高运算效率。
避免错误： 字符串类型的数字无法进行数值运算。如果你把 "123" 误认为是整数，进行加法运算时就会出错。

总之，了解 Pandas 的 dtype，就像了解食材的特性一样，可以让你更好地掌控数据，烹饪出更美味的数据分析大餐。🍳

第二幕：Pandas 数据类型的“家族图谱”——都有哪些成员？

好了，废话不多说，咱们来认识一下 Pandas 数据类型的“家族成员”。

Pandas 的 dtype 可以分为以下几大类：

数值型 (Numerical):
- 整数型 (Integer): int8, int16, int32, int64, uint8, uint16, uint32, uint64。它们分别代表不同范围的有符号整数和无符号整数。范围越大，占用的内存空间也越大。
- 浮点型 (Floating-point): float16, float32, float64。用于存储小数。 float64 是默认的浮点类型，精度更高，但占用空间也更大。
文本型 (Text): object (在 Pandas 1.0 之后，建议使用 string) 和 string (Pandas 1.0 新增)。用于存储字符串。object 类型可以存储任意 Python 对象，但效率较低。 string 类型是专门为字符串设计的，效率更高。
日期时间型 (Datetime): datetime64[ns]。用于存储日期和时间。 ns 代表纳秒，精度非常高。
布尔型 (Boolean): bool。用于存储 True 或 False。
类别型 (Categorical): category。用于存储有限数量的分类变量。可以节省内存空间，提高运算效率。
时间间隔型 (Timedelta): timedelta64[ns]。用于存储时间间隔。

为了方便大家记忆，我给大家准备了一张“家族图谱”：

数据类型	描述
`int8`	有符号 8 位整数 (-128 到 127)
`int16`	有符号 16 位整数 (-32768 到 32767)
`int32`	有符号 32 位整数 (-2147483648 到 2147483647)
`int64`	有符号 64 位整数 (-9223372036854775808 到 9223372036854775807)
`uint8`	无符号 8 位整数 (0 到 255)
`uint16`	无符号 16 位整数 (0 到 65535)
`uint32`	无符号 32 位整数 (0 到 4294967295)
`uint64`	无符号 64 位整数 (0 到 18446744073709551615)
`float16`	半精度浮点数
`float32`	单精度浮点数
`float64`	双精度浮点数
`object`	Python 对象 (通常是字符串，但也可以是其他类型)
`string`	字符串 (Pandas 1.0 新增)
`datetime64[ns]`	日期和时间 (纳秒精度)
`bool`	布尔值 (True 或 False)
`category`	类别 (有限数量的分类变量)
`timedelta64[ns]`	时间间隔 (纳秒精度)

是不是感觉有点眼花缭乱？别担心，咱们接下来会逐个击破，让你彻底掌握它们！

第三幕：数据类型的“辨别大法”——如何查看数据类型？

既然已经认识了数据类型的“家族成员”，那接下来就要学习如何辨别它们。就像侦探破案一样，我们需要一些“工具”来帮助我们。

Pandas 提供了以下几种方法来查看数据类型：

dtype 属性： 可以查看 Series 或 DataFrame 中某一列的数据类型。

import pandas as pd

data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [25, 30, 28],
        '工资': [8000.5, 12000.8, 10000.0],
        '入职日期': ['2020-01-01', '2019-05-15', '2021-03-10']}

df = pd.DataFrame(data)

print(df['姓名'].dtype)  # 输出：object
print(df['年龄'].dtype)  # 输出：int64
print(df['工资'].dtype)  # 输出：float64
print(df['入职日期'].dtype) # 输出：object

dtypes 属性： 可以查看 DataFrame 中所有列的数据类型。

print(df.dtypes)
# 输出：
# 姓名      object
# 年龄       int64
# 工资     float64
# 入职日期    object
# dtype: object

info() 方法： 可以查看 DataFrame 的详细信息，包括数据类型、非空值数量、内存使用情况等。

df.info()
# 输出：
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3 entries, 0 to 2
# Data columns (total 4 columns):
#  #   Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
#  0   姓名      3 non-null      object
#  1   年龄      3 non-null      int64
#  2   工资      3 non-null      float64
#  3   入职日期    3 non-null      object
# dtypes: float64(1), int64(1), object(2)
# memory usage: 224.0 bytes

就像医生诊断病情一样，通过这些“工具”，我们可以快速准确地判断出数据的类型，为后续的处理打下基础。

第四幕：数据类型的“乾坤大挪移”——如何转换数据类型？

了解了数据类型，也学会了如何辨别它们，接下来就要学习如何转换数据类型了。就像魔法师一样，我们可以将一种数据类型转换为另一种数据类型，让数据更符合我们的需求。

Pandas 提供了以下几种方法来转换数据类型：

astype() 方法： 可以将 Series 或 DataFrame 中某一列的数据类型转换为指定类型。

# 将年龄转换为 float64 类型
df['年龄'] = df['年龄'].astype('float64')
print(df['年龄'].dtype)  # 输出：float64

# 将工资转换为 int64 类型
df['工资'] = df['工资'].astype('int64')
print(df['工资'].dtype)  # 输出：int64

# 将入职日期转换为 datetime64[ns] 类型
df['入职日期'] = pd.to_datetime(df['入职日期'])
print(df['入职日期'].dtype) # 输出：datetime64[ns]

注意事项：

astype() 方法会返回一个新的 Series 或 DataFrame，不会修改原始数据。
如果转换失败，会抛出异常。例如，将包含非数字字符的字符串转换为数字类型时，会抛出 ValueError 异常。

to_numeric() 函数： 可以将 Series 中的数据转换为数值类型。

# 创建一个包含非数字字符的 Series
s = pd.Series(['1', '2', '3', 'a'])

# 将 Series 转换为数值类型，如果无法转换，则替换为 NaN
s = pd.to_numeric(s, errors='coerce')
print(s)
# 输出：
# 0    1.0
# 1    2.0
# 2    3.0
# 3    NaN
# dtype: float64

errors 参数：

'raise' (默认)：如果无法转换，则抛出异常。
'coerce'：如果无法转换，则替换为 NaN。
'ignore'：忽略转换错误，保持原始数据类型。

to_datetime() 函数： 可以将 Series 中的数据转换为日期时间类型。
```
# 创建一个包含日期字符串的 Series
s = pd.Series(['2023-10-26', '2023/10/27', '2023年10月28日'])

# 将 Series 转换为日期时间类型
s = pd.to_datetime(s)
print(s)
# 输出：
# 0   2023-10-26
# 1   2023-10-27
# 2   2023-10-28
# dtype: datetime64[ns]
```
format 参数：
- 可以指定日期字符串的格式。例如，format='%Y-%m-%d' 表示日期字符串的格式为 "YYYY-MM-DD"。
- 如果不指定 format 参数，to_datetime() 函数会自动推断日期字符串的格式。
astype('category') 方法： 可以将 Series 转换为类别类型。
```
# 创建一个包含重复值的 Series
s = pd.Series(['a', 'b', 'a', 'c', 'b'])

# 将 Series 转换为类别类型
s = s.astype('category')
print(s.dtype)  # 输出：category
print(s.cat.categories) # 输出类别：Index(['a', 'b', 'c'], dtype='object')
```
类别类型的优势：
- 节省内存空间：类别类型只存储唯一的类别值，而不是重复的字符串。
- 提高运算效率：类别类型可以进行高效的比较和分组操作。

掌握了这些“乾坤大挪移”的技巧，你就可以根据实际需求，灵活地转换数据类型，让数据更好地服务于你的分析任务。

第五幕：数据类型转换的“实战演练”——几个常见案例

光说不练假把式，接下来咱们来做几个“实战演练”，巩固一下刚刚学到的知识。

案例 1：处理 CSV 文件中的数据类型

假设你从 CSV 文件中读取了一些数据，发现某些列的数据类型不正确。例如，数字列被识别为字符串类型。

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 查看数据类型
print(df.dtypes)

# 将数字列转换为数值类型
df['年龄'] = pd.to_numeric(df['年龄'], errors='coerce')
df['工资'] = pd.to_numeric(df['工资'], errors='coerce')

# 将日期列转换为日期时间类型
df['入职日期'] = pd.to_datetime(df['入职日期'])

# 查看转换后的数据类型
print(df.dtypes)

案例 2：优化大型数据集的内存使用

假设你有一个大型数据集，其中包含大量的整数列。为了节省内存空间，你可以将这些整数列转换为更小的整数类型。

# 创建一个大型数据集
data = {'col1': [1] * 1000000,
        'col2': [1000] * 1000000,
        'col3': [100000] * 1000000}
df = pd.DataFrame(data)

# 查看数据类型和内存使用情况
print(df.dtypes)
print(df.memory_usage(deep=True))

# 将整数列转换为更小的整数类型
df['col1'] = df['col1'].astype('int8')
df['col2'] = df['col2'].astype('int16')
df['col3'] = df['col3'].astype('int32')

# 查看转换后的数据类型和内存使用情况
print(df.dtypes)
print(df.memory_usage(deep=True))

案例 3：使用类别类型提高运算效率

假设你有一个包含大量重复值的字符串列，例如“城市”列。为了提高运算效率，你可以将该列转换为类别类型。

# 创建一个包含重复值的 Series
s = pd.Series(['北京', '上海', '北京', '广州', '上海'])

# 将 Series 转换为类别类型
s = s.astype('category')

# 使用类别类型进行分组计数
print(s.value_counts())

通过这些“实战演练”，相信你已经对数据类型转换有了更深入的理解。

第六幕：数据类型选择的“葵花宝典”——如何选择合适的数据类型？

掌握了数据类型的“乾坤大挪移”之后，还有一个更重要的问题：如何选择合适的数据类型？就像选择武器一样，我们需要根据实际情况，选择最适合的“武器”。

以下是一些选择数据类型的建议：

数值型：
- 如果数据是整数，并且范围较小，可以使用 int8 或 uint8。
- 如果数据是整数，并且范围较大，可以使用 int16、int32 或 int64。
- 如果数据包含小数，可以使用 float32 或 float64。
- 尽量选择最小的能够满足数据范围的类型，以节省内存空间。
文本型：
- 如果数据是字符串，并且不需要进行数值运算，可以使用 string 类型。
- 如果数据包含混合类型，可以使用 object 类型，但尽量避免使用，因为它效率较低。
日期时间型：
- 如果数据是日期或时间，可以使用 datetime64[ns] 类型。
- 可以使用 format 参数指定日期字符串的格式，或者让 to_datetime() 函数自动推断格式。
布尔型：
- 如果数据是 True 或 False，可以使用 bool 类型。
类别型：
- 如果数据是有限数量的分类变量，可以使用 category 类型。
- 类别类型可以节省内存空间，提高运算效率。

总而言之，选择数据类型要根据数据的特性和实际需求，综合考虑内存使用情况、运算效率和数据精度等因素。

第七幕：常见问题答疑

观众朋友们，到了大家喜闻乐见的答疑环节了！我整理了一些大家在学习数据类型时经常遇到的问题，并给出解答，希望能帮助大家扫清疑惑。

问：为什么我的数字列被识别为 object 类型？

答：这通常是因为该列包含非数字字符，例如空格、逗号或其他特殊字符。可以使用 to_numeric() 函数将该列转换为数值类型，并将无法转换的值替换为 NaN。
问：如何将 object 类型转换为 string 类型？

答：可以使用 astype('string') 方法将 object 类型转换为 string 类型。
问：为什么我的日期列无法转换为 datetime64[ns] 类型？

答：这可能是因为日期字符串的格式不正确。可以使用 format 参数指定日期字符串的格式，或者让 to_datetime() 函数自动推断格式。
问：类别类型有什么限制？

答：类别类型只能存储有限数量的分类变量。如果数据包含大量的唯一值，则不适合使用类别类型。
问：如何查看 Series 或 DataFrame 的内存使用情况？

答：可以使用 memory_usage() 方法查看 Series 或 DataFrame 的内存使用情况。

落幕：数据类型，数据分析的基石

各位观众老爷，咱们的“Pandas 数据类型（dtype）：理解与转换”大型连续剧到这里就要告一段落了。希望通过今天的讲解，大家能够对 Pandas 的数据类型有一个更深入的理解，并能够灵活地运用它们，为你的数据分析工作添砖加瓦。

记住，数据类型是数据分析的基石。只有掌握了数据类型的特性，才能更好地处理数据，挖掘出更有价值的信息。

感谢大家的观看，咱们下期再见！👋

发表回复 取消回复

发表回复取消回复