serve - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Ray Serve在大模型部署中的应用：多模型复合流水线（Compound AI Systems）的编排

Ray Serve 在大模型部署中的应用：多模型复合流水线 (Compound AI Systems) 的编排大家好，今天我们来深入探讨 Ray Serve 在大模型部署中的应用，特别是如何利用它来编排复杂的多模型复合流水线（Compound AI Systems）。随着大模型能力的日益强大，实际应用场景也变得越来越复杂，往往需要将多个模型串联起来，形成一个完整的服务流程。Ray Serve 正好提供了一个强大的工具，帮助我们构建、部署和管理这种复杂的系统。 1. 什么是多模型复合流水线？多模型复合流水线，顾名思义，指的是由多个独立的模型或者服务模块组合而成的复杂系统。每个模块负责特定的任务，通过数据传递和协作，最终完成整个流水线的目标。这种流水线架构具有以下优点：模块化和可维护性：将复杂任务分解为更小的、易于管理的模块，方便开发、测试和维护。可扩展性：可以根据需要独立地扩展每个模块，提高整体系统的性能。灵活性：可以根据不同的需求组合不同的模块，构建不同的流水线，快速适应新的应用场景。资源优化：可以针对不同模块选择最合适的硬件资源，例如，GPU密集型的模型部署在GP …

继续阅读“Ray Serve在大模型部署中的应用：多模型复合流水线（Compound AI Systems）的编排”

2025年11月22日

Sarathi-Serve调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线

Sarathi-Serve 调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线各位朋友，大家好！今天我们来深入探讨一个高性能服务框架 Sarathi-Serve 的核心调度策略：分块预填充（Chunked Prefills）。在现代深度学习服务中，尤其是在处理长序列输入时，计算资源和内存带宽往往成为性能瓶颈。Sarathi-Serve 通过精心设计的调度策略，特别是分块预填充，有效地平衡了这两者，实现了更高的吞吐量和更低的延迟。 1. 问题背景：长序列服务的挑战在很多应用场景中，例如自然语言处理 (NLP) 中的文本生成、语音识别等，我们需要处理长度不定的输入序列。这些长序列给服务带来了以下挑战：内存带宽限制：预填充阶段需要将输入序列的嵌入 (Embedding) 加载到 GPU 内存，然后进行多次 Transformer 层的计算。对于长序列，Embedding 数据量巨大，频繁的内存访问会迅速耗尽内存带宽。计算负载不均：长序列的不同部分可能包含不同程度的复杂性。例如，在文本生成中，句子的开头部分可能需要更多的 attention 计算，而 …

继续阅读“Sarathi-Serve调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线”

2025年7月10日

Redis `replica-serve-stale-data`：主从断开时是否提供过期数据

各位Redis探险家们，欢迎来到“Redis主从断线求生记”特别讲座！今天我们要聊的是一个相当刺激的话题：当Redis主从服务器突然闹脾气，断线了，你的从库该怎么办？是抱着“宁为玉碎，不为瓦全”的原则啥也不提供，还是“死马当活马医”，把过期的旧数据拿出来顶一下？这个问题的答案，就藏在replica-serve-stale-data这个配置项里。 replica-serve-stale-data：生死攸关的开关简单来说，replica-serve-stale-data 就是个开关，决定了当Redis从库检测到和主库的连接断开时，是否继续提供数据服务。它有两个选项： yes (默认值)：从库会继续响应客户端请求，即使它提供的数据可能是过期的。 no：从库会拒绝所有客户端请求，返回一个错误信息。场景模拟：断线危机！想象一下，你正在运营一个电商网站，用户正在疯狂地抢购商品。Redis主库突然宕机了！这个时候，从库就成了你的救命稻草。如果replica-serve-stale-data设置为yes：从库会继续提供商品信息，让用户可以继续下单。虽然这些信息可能是过期的，比如库存数量可能 …

继续阅读“Redis `replica-serve-stale-data`：主从断开时是否提供过期数据”