pagedattention - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年12月29日

深入 `vLLM` 加速：利用 PagedAttention 实现 LangChain 应用的 10 倍并发吞吐提升

引言：大型语言模型推理的性能瓶颈与挑战大型语言模型（LLMs）的爆发式发展，已经彻底改变了我们与机器交互的方式。从智能客服到代码生成，从内容创作到知识问答，LLMs正在以前所未有的速度渗透到各个行业和应用场景中。随之而来的是一个严峻的挑战：如何高效、经济地提供LLM推理服务，尤其是在面对高并发请求时。传统的LLM推理服务模式，往往面临着以下几个核心问题：高延迟与低吞吐：每次请求都需要完整的模型推理，即使是小批量处理，也难以充分利用GPU资源。在并发场景下，请求通常需要排队等待，导致平均延迟飙升，系统吞吐量受限。 GPU内存浪费：LLMs在推理过程中会生成并存储大量的键值缓存（KV Cache），用于加速后续token的生成。传统方法通常为每个请求分配一块连续且固定的内存区域来存储KV Cache。然而，由于请求的序列长度是动态变化的，这种预分配策略会导致严重的内存碎片化和GPU内存利用率低下。当批次中存在短序列时，预留给长序列的内存区域大部分时间处于空闲状态；当所有序列都较长时，又可能因内存不足而无法批处理更多请求。调度效率低下：传统的批处理（Batching）策略，无论是静态 …

继续阅读“深入 `vLLM` 加速：利用 PagedAttention 实现 LangChain 应用的 10 倍并发吞吐提升”

2025年11月23日

PagedAttention v2：在变长序列中利用块状内存管理消除外部碎片的算法实现

好的，我们开始今天的讲座。今天的主题是 PagedAttention v2，一个旨在解决变长序列处理中外部碎片问题的块状内存管理算法。我们将深入探讨其原理、实现细节以及与传统方法的对比。引言：变长序列与内存碎片在自然语言处理（NLP）和深度学习领域，处理变长序列是一个常见且重要的任务。例如，文本翻译、文本摘要等任务都需要模型能够处理长度不一的输入序列。然而，处理变长序列会带来一个挑战：内存碎片。传统的内存分配方法，例如malloc和free，在频繁分配和释放不同大小的内存块时，容易产生外部碎片。外部碎片指的是虽然总的可用内存足够，但是由于这些内存分散在不同的不连续区域，导致无法分配一个大的连续内存块。这对于需要大块连续内存的深度学习模型来说，是一个严重的问题，尤其是在处理长序列时。 PagedAttention v1 的回顾与局限 PagedAttention 是一个解决变长序列处理问题的早期方案。它的核心思想是将内存划分为固定大小的页面 (page)，然后按需分配页面给不同的序列。这有效减少了内存浪费，并实现了更高效的内存利用率。然而，PagedAttention v1 仍然 …

继续阅读“PagedAttention v2：在变长序列中利用块状内存管理消除外部碎片的算法实现”

2025年11月22日

vLLM的核心技术PagedAttention：解决KV Cache显存碎片化与吞吐量瓶颈的机制

vLLM核心技术：PagedAttention机制详解各位朋友，大家好！今天我们来深入探讨vLLM的核心技术——PagedAttention，一种旨在解决KV Cache显存碎片化与吞吐量瓶颈的创新机制。在大模型推理场景下，KV Cache（Key-Value Cache）用于存储Transformer层中Key和Value的中间表示，是影响推理速度和显存利用率的关键因素。PagedAttention通过巧妙地管理KV Cache，显著提升了大模型的推理性能。一、KV Cache与性能瓶颈在传统的Transformer推理中，每当处理一个新的token，都需要将Key和Value向量存储在显存中。随着序列长度的增加，KV Cache的体积也随之线性增长。对于长序列推理，KV Cache很容易占据大量的显存空间，导致OOM（Out Of Memory）错误。此外，传统的KV Cache管理方式容易造成显存碎片化。例如，当处理不同长度的序列时，会频繁地分配和释放KV Cache空间，导致显存中出现许多不连续的小块空闲空间。这些碎片化的空间无法有效地被利用，进一步降低了显存利用率。 …

继续阅读“vLLM的核心技术PagedAttention：解决KV Cache显存碎片化与吞吐量瓶颈的机制”