checkpointing - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Checkpointing Formats：Safetensors与Pickle在安全性与加载速度上的底层差异

好的，没问题。 Checkpointing Formats：Safetensors与Pickle在安全性与加载速度上的底层差异大家好，今天我们要深入探讨模型Checkpointing的两种主要格式：Safetensors和Pickle。它们在机器学习模型的保存和加载过程中扮演着至关重要的角色。我们将详细分析它们在安全性、加载速度以及底层实现上的差异，并通过代码示例来加深理解。 1. Checkpointing 的基本概念在深入了解 Safetensors 和 Pickle 之前，我们首先需要理解什么是模型 Checkpointing。简单来说，模型 Checkpointing 是将模型的权重、梯度、优化器状态等信息保存到磁盘的过程。这允许我们：恢复训练: 从中断的地方继续训练，避免从头开始。模型部署: 将训练好的模型部署到生产环境中。模型共享: 与他人分享模型，进行协作和研究。实验复现: 记录模型在特定训练阶段的状态，方便复现实验结果。 2. Pickle 的工作原理与安全性问题 Pickle 是 Python 中用于序列化和反序列化对象结构的标准库。它可以将 Python …

继续阅读“Checkpointing Formats：Safetensors与Pickle在安全性与加载速度上的底层差异”

2025年11月23日

Gradient Checkpointing v2：利用选择性重计算（Selective Recomputation）平衡显存与算力

Gradient Checkpointing v2：利用选择性重计算平衡显存与算力大家好！今天我们要深入探讨一个在深度学习模型训练中至关重要的技术：Gradient Checkpointing，特别是它的第二代版本，Gradient Checkpointing v2，它通过选择性重计算来更精细地控制显存占用和计算开销之间的平衡。在训练大型深度学习模型时，显存通常成为一个瓶颈。反向传播需要前向传播过程中的激活值，以便计算梯度。传统的做法是将所有激活值都存储在显存中，但对于大型模型来说，这会迅速耗尽显存。Gradient Checkpointing (也称为激活重计算) 是一种通过牺牲一部分计算来换取显存的技术。它不在前向传播过程中存储所有激活值，而是在反向传播时重新计算它们。 1. Gradient Checkpointing 的基本原理为了理解 Gradient Checkpointing v2，我们首先回顾一下原始的 Gradient Checkpointing 的工作原理。假设我们的神经网络可以分解为几个连续的模块： y = model(x) = f_n(…f_2(f_ …

继续阅读“Gradient Checkpointing v2：利用选择性重计算（Selective Recomputation）平衡显存与算力”

2025年5月31日

Flink 状态管理与 Checkpointing 机制：实现精确一次（Exactly-Once）语义

好的，各位观众老爷们，欢迎来到今天的“Flink状态管理与Checkpointing：保证数据不丢不漏，一次就好！”专场。今天咱们不搞那些晦涩难懂的学术论文，咱们用最通俗易懂的语言，最生动活泼的例子，把Flink的灵魂——状态管理和Checkpointing机制给扒个底朝天，让大家真正理解它，用好它，爱上它！❤️ 开场白：数据江湖，容不得半点含糊！话说这数据江湖，风起云涌，数据洪流奔腾不息。咱们的Flink，就像一位武林高手，要在这纷繁复杂的数据世界里行走，就必须练就一身过硬的本领。这本领的核心，就是能保证数据处理的“精确一次”（Exactly-Once）语义。啥叫Exactly-Once？简单来说，就是保证每一条数据，不多不少，只处理一次。既不能漏掉任何一条数据，也不能重复处理任何一条数据。这就像咱们吃饭，不多吃一口，也不少吃一口，刚刚好！🍚 那为啥要保证Exactly-Once呢？你想想，在银行转账的场景里，如果因为系统故障，导致你的钱被重复转账了好几遍，或者干脆就凭空消失了，那还得了？银行不得被客户告到破产？所以，Exactly-Once语义，是保证数据一致性和可靠性的基石， …

继续阅读“Flink 状态管理与 Checkpointing 机制：实现精确一次（Exactly-Once）语义”