智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月23日

Tokenizer的恶意构造攻击：如何利用特殊Token组合触发模型拒绝服务（DoS）

Tokenizer的恶意构造攻击：如何利用特殊Token组合触发模型拒绝服务（DoS）大家好，今天我们来深入探讨一个相对隐蔽但极具破坏性的安全威胁：Tokenizer的恶意构造攻击，以及如何利用特殊的Token组合来触发模型拒绝服务（DoS）。一、Tokenizer在NLP中的作用和重要性在深入攻击细节之前，我们需要先了解Tokenizer在自然语言处理（NLP）流程中的核心地位。简单来说，Tokenizer的任务是将原始文本分解成更小的单元，也就是Token。这些Token可以是单词、子词（Subword）或者字符，取决于所使用的Tokenizer算法。 Tokenizer是模型理解文本的基础。没有它，模型只能处理原始字节流，无法理解文本的语义和结构。常见的Tokenizer算法包括：基于空格的分词 (Whitespace Tokenization): 最简单的分词方法，直接用空格分割文本。基于词典的分词 (Dictionary-based Tokenization): 维护一个词典，将文本分割成词典中存在的词语。子词分词 (Subword Tokenization): …

继续阅读“Tokenizer的恶意构造攻击：如何利用特殊Token组合触发模型拒绝服务（DoS）”

2025年11月23日

BPE与Unigram分词算法对比：Tiktoken在处理代码缩进与空白字符时的压缩率分析

Tiktoken代码分词压缩率深度分析：BPE vs. Unigram，缩进与空白的特殊处理大家好！今天我们来深入探讨Tiktoken分词器在处理代码时的压缩效率，特别是针对代码缩进和空白字符的处理策略。我们将对比Byte Pair Encoding (BPE) 和 Unigram Language Model 两种分词算法，分析Tiktoken如何利用它们在代码场景下实现高效的压缩。 1. 分词算法概览：BPE与Unigram 在深入代码细节之前，我们先回顾一下BPE和Unigram两种分词算法的核心思想。 Byte Pair Encoding (BPE): BPE是一种自下而上的分词算法。它从字符级别开始，迭代地将出现频率最高的字节对（byte pairs）合并成新的token，直到达到预设的词汇表大小。优点: 简单易懂，易于实现，能够有效地处理未登录词（Out-of-Vocabulary, OOV）问题，因为它总是可以将任何输入分解成字符级别的token。缺点: 可能产生次优的token，因为它是贪婪地合并频率最高的字节对，而没有全局优化。此外，BPE的词汇表构建过程对训练 …

继续阅读“BPE与Unigram分词算法对比：Tiktoken在处理代码缩进与空白字符时的压缩率分析”

2025年11月23日

Prometheus与Grafana监控LLM：GPU利用率、SM活跃度与NVLink带宽的可视化大屏

Prometheus与Grafana监控LLM：GPU利用率、SM活跃度与NVLink带宽的可视化大屏大家好！今天我们来探讨如何使用Prometheus和Grafana监控大型语言模型（LLM）的GPU性能，特别是GPU利用率、SM（Streaming Multiprocessor）活跃度和NVLink带宽。通过搭建这样一个可视化大屏，我们可以更好地了解LLM训练和推理过程中的GPU瓶颈，从而优化模型和硬件配置。 1. 监控指标的重要性在深入技术细节之前，我们先来了解一下这几个指标的重要性： GPU利用率: 衡量GPU计算资源的整体使用情况。高利用率意味着GPU在充分工作，低利用率则可能表明存在瓶颈，例如数据加载缓慢、CPU瓶颈或代码效率低下。 SM活跃度: SM是GPU中执行实际计算的核心单元。SM活跃度反映了每个SM在给定时间内实际执行指令的比例。高SM活跃度意味着计算密集型任务在高效运行，而低SM活跃度可能表明存在线程束发散、内存访问瓶颈或指令依赖性等问题。 NVLink带宽: NVLink是NVIDIA GPU之间的高速互联技术。在多GPU训练或推理中，GPU之间需要频繁地 …

继续阅读“Prometheus与Grafana监控LLM：GPU利用率、SM活跃度与NVLink带宽的可视化大屏”

2025年11月23日

Slurm集群中的LLM调度：处理节点故障与自动断点续训的脚本工程

Slurm 集群中的 LLM 调度：处理节点故障与自动断点续训的脚本工程大家好！今天我们来深入探讨一个在大型语言模型（LLM）训练中至关重要的话题：在 Slurm 集群环境下，如何应对节点故障并实现自动断点续训。LLM 的训练通常需要耗费大量的计算资源和时间，任何意外中断都可能导致巨大的损失。因此，一个健壮的调度系统和一套有效的故障恢复机制是必不可少的。 1. 背景：LLM 训练的挑战与 Slurm 的作用 LLM 的训练面临着诸多挑战：资源需求巨大: 需要大量的 GPU 资源、内存和存储空间。训练时间长: 通常需要数周甚至数月才能完成一次训练。分布式训练复杂: 需要高效的数据并行和模型并行策略。容错性要求高: 节点故障可能导致训练中断，浪费大量资源。 Slurm 作为一款流行的集群资源管理器，提供了强大的作业调度、资源分配和监控功能。它可以帮助我们有效地管理集群资源，并为 LLM 训练提供稳定可靠的运行环境。 2. 节点故障检测与处理策略节点故障是分布式训练中不可避免的问题。我们需要一套机制来及时检测故障并采取相应的处理措施。 2.1 节点故障检测 Slurm 提供了多种 …

继续阅读“Slurm集群中的LLM调度：处理节点故障与自动断点续训的脚本工程”

2025年11月23日

NVIDIA NIM微服务架构：利用容器化标准交付优化的推理运行时

NVIDIA NIM 微服务架构：容器化标准交付优化的推理运行时大家好，今天我们来深入探讨 NVIDIA NIM 微服务架构，以及它如何利用容器化标准来交付优化的推理运行时。在当今 AI 驱动的世界中，模型推理的速度和效率至关重要。NVIDIA NIM 旨在解决大规模部署 AI 模型时面临的挑战，通过提供标准化的、高性能的推理微服务，简化 AI 应用的开发和部署流程。 1. AI 推理的挑战与机遇在深入了解 NVIDIA NIM 之前，我们首先需要理解当前 AI 推理领域面临的挑战：模型复杂性: 现代 AI 模型，尤其是深度学习模型，变得越来越复杂，计算量越来越大。这对推理硬件和软件提出了更高的要求。框架碎片化: 存在大量的深度学习框架（例如 TensorFlow、PyTorch、ONNX Runtime），每个框架都有自己的 API 和部署方式。这使得跨框架部署模型变得困难。硬件异构性: AI 应用需要部署在各种硬件平台上，包括 CPU、GPU 和专用加速器。针对不同硬件进行优化需要大量的精力和专业知识。部署复杂性: 将 AI 模型部署到生产环境需要解决许多问题， …

继续阅读“NVIDIA NIM微服务架构：利用容器化标准交付优化的推理运行时”

2025年11月23日

Checkpointing Formats：Safetensors与Pickle在安全性与加载速度上的底层差异

好的，没问题。 Checkpointing Formats：Safetensors与Pickle在安全性与加载速度上的底层差异大家好，今天我们要深入探讨模型Checkpointing的两种主要格式：Safetensors和Pickle。它们在机器学习模型的保存和加载过程中扮演着至关重要的角色。我们将详细分析它们在安全性、加载速度以及底层实现上的差异，并通过代码示例来加深理解。 1. Checkpointing 的基本概念在深入了解 Safetensors 和 Pickle 之前，我们首先需要理解什么是模型 Checkpointing。简单来说，模型 Checkpointing 是将模型的权重、梯度、优化器状态等信息保存到磁盘的过程。这允许我们：恢复训练: 从中断的地方继续训练，避免从头开始。模型部署: 将训练好的模型部署到生产环境中。模型共享: 与他人分享模型，进行协作和研究。实验复现: 记录模型在特定训练阶段的状态，方便复现实验结果。 2. Pickle 的工作原理与安全性问题 Pickle 是 Python 中用于序列化和反序列化对象结构的标准库。它可以将 Python …

继续阅读“Checkpointing Formats：Safetensors与Pickle在安全性与加载速度上的底层差异”

2025年11月23日

HSDP（Hybrid Sharded Data Parallel）：在节点内分片与节点间复制的混合并行策略

HSDP：节点内分片与节点间复制的混合并行策略大家好，今天我们要深入探讨一种强大的数据并行策略——Hybrid Sharded Data Parallel，简称HSDP。在训练大规模深度学习模型时，我们经常面临内存瓶颈和通信瓶颈。HSDP正是为了缓解这些问题而设计的，它巧妙地结合了节点内分片和节点间复制的优势，从而实现更高效的并行训练。 1. 背景：数据并行的挑战在深入HSDP之前，我们先回顾一下传统数据并行面临的挑战：内存限制：训练超大模型需要巨大的内存空间，单张GPU卡可能无法容纳模型的全部参数和中间激活值。通信开销：数据并行需要在不同GPU之间同步梯度，All-Reduce 操作的通信开销会随着GPU数量的增加而迅速增长，成为性能瓶颈。为了解决这些问题，人们提出了多种数据并行策略，例如： Data Parallel (DP): 每个GPU复制整个模型，但处理不同的数据子集。梯度在所有GPU之间同步。 Model Parallel (MP): 将模型划分到不同的GPU上。 Tensor Parallel (TP): 将单个张量（例如权重矩阵）拆分到多个GPU上。 Fu …

继续阅读“HSDP（Hybrid Sharded Data Parallel）：在节点内分片与节点间复制的混合并行策略”

2025年11月23日

FSDP（Fully Sharded Data Parallel）进阶：参数卸载与梯度预取的重叠流水线设计

FSDP 进阶：参数卸载与梯度预取的重叠流水线设计大家好，今天我们深入探讨 FSDP (Fully Sharded Data Parallel) 的进阶技术，重点关注参数卸载 (Parameter Offloading) 和梯度预取 (Gradient Prefetching) 这两个关键特性，以及如何将它们结合起来构建一个高效的重叠流水线。 FSDP 作为一种强大的分布式训练策略，通过将模型参数分割到不同的 GPU 上，显著降低了单 GPU 的内存占用，从而可以训练更大规模的模型。然而，仅仅进行参数分片是不够的，我们还需要进一步优化内存管理和计算效率，而参数卸载和梯度预取就是为此而生的。 1. 参数卸载 (Parameter Offloading) 1.1 为什么需要参数卸载？在标准的 FSDP 训练过程中，每个 GPU 负责一部分模型参数的分片。在前向传播和反向传播过程中，每个 GPU 需要访问完整的模型参数，这意味着需要频繁地进行 All-Gather 操作来收集其他 GPU 上的参数。尽管 FSDP 已经减少了单 GPU 的内存占用，但仍然存在以下问题：内存瓶颈：即使 …

继续阅读“FSDP（Fully Sharded Data Parallel）进阶：参数卸载与梯度预取的重叠流水线设计”

2025年11月23日

Liger Kernel库：HuggingFace推出的Triton内核库对常见算子的显存极致优化

Liger Kernel库：HuggingFace Triton内核库对常见算子的显存极致优化大家好！今天我们来深入探讨一下HuggingFace推出的Liger Kernel库。这是一个基于Triton的内核库，专门针对深度学习中常见的算子进行显存优化。在深度学习模型日益庞大的今天，显存的有效利用变得至关重要。Liger Kernel库通过定制化的Triton内核，能够显著降低这些算子的显存占用，从而使得我们能够训练更大规模的模型，或者在资源受限的设备上运行模型。 1. Triton简介：高性能内核编程框架在深入Liger Kernel库之前，我们先简单回顾一下Triton。Triton是一个开源的编程框架，旨在简化高性能内核的编写过程。它允许开发者使用类似Python的语法来编写内核代码，然后由Triton编译器将其编译成针对特定硬件（例如NVIDIA GPU）优化的低级代码。 Triton的主要优点包括：易用性: Triton的语法比CUDA或OpenCL更简洁易懂，降低了内核开发的门槛。高性能: Triton编译器能够自动进行循环展开、向量化等优化，从而生成高效的内核代 …

继续阅读“Liger Kernel库：HuggingFace推出的Triton内核库对常见算子的显存极致优化”

2025年11月23日

Ray Serve在大模型部署中的应用：多模型复合流水线（Compound AI Systems）的编排

Ray Serve 在大模型部署中的应用：多模型复合流水线 (Compound AI Systems) 的编排大家好，今天我们来深入探讨 Ray Serve 在大模型部署中的应用，特别是如何利用它来编排复杂的多模型复合流水线（Compound AI Systems）。随着大模型能力的日益强大，实际应用场景也变得越来越复杂，往往需要将多个模型串联起来，形成一个完整的服务流程。Ray Serve 正好提供了一个强大的工具，帮助我们构建、部署和管理这种复杂的系统。 1. 什么是多模型复合流水线？多模型复合流水线，顾名思义，指的是由多个独立的模型或者服务模块组合而成的复杂系统。每个模块负责特定的任务，通过数据传递和协作，最终完成整个流水线的目标。这种流水线架构具有以下优点：模块化和可维护性：将复杂任务分解为更小的、易于管理的模块，方便开发、测试和维护。可扩展性：可以根据需要独立地扩展每个模块，提高整体系统的性能。灵活性：可以根据不同的需求组合不同的模块，构建不同的流水线，快速适应新的应用场景。资源优化：可以针对不同模块选择最合适的硬件资源，例如，GPU密集型的模型部署在GP …

继续阅读“Ray Serve在大模型部署中的应用：多模型复合流水线（Compound AI Systems）的编排”