端侧 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

端侧推理的内存映射（mmap）：在Android设备上利用分页机制加载大模型权重

Android 端侧推理：基于内存映射的分页加载大模型权重大家好，今天我们来聊聊如何在 Android 设备上进行端侧推理，特别是针对那些模型权重体积庞大的情况。我们重点讨论利用内存映射（mmap）和分页机制来解决大模型权重加载的问题。 1. 端侧推理的挑战在移动设备上进行机器学习推理，相比于服务器端，面临着诸多挑战：资源限制：移动设备的内存、CPU、GPU 资源都相对有限。功耗限制：推理过程需要尽可能降低功耗，延长电池续航。模型体积：深度学习模型的体积越来越大，难以一次性加载到内存中。启动速度：应用启动时加载模型，需要尽可能缩短启动时间。对于大模型而言，一次性加载所有权重数据到内存中，很容易导致内存溢出（OOM）错误，或者显著增加应用启动时间。因此，我们需要一种高效的方式来管理模型权重，按需加载，减少内存占用。 2. 内存映射（mmap）机制内存映射（Memory Mapping）是一种将文件或设备映射到进程地址空间的技术。通过 mmap，进程可以直接像访问内存一样访问文件内容，而无需显式地进行读写操作。这为我们加载大模型权重提供了很大的便利。 mmap 的工 …

继续阅读“端侧推理的内存映射（mmap）：在Android设备上利用分页机制加载大模型权重”

2025年11月23日

On-Device Embedding：在端侧利用NPU加速向量检索与RAG的本地化实现

On-Device Embedding：在端侧利用NPU加速向量检索与RAG的本地化实现大家好，今天我们来聊聊一个非常热门且实用的技术方向：On-Device Embedding，也就是在端侧设备上利用神经处理单元（NPU）加速向量检索与检索增强生成（RAG）的本地化实现。随着大模型的蓬勃发展，RAG技术成为了提升大模型回答质量和知识覆盖范围的重要手段。传统的RAG流程通常需要在云端进行向量嵌入、向量检索和生成，这会带来延迟、隐私问题以及对网络连接的依赖。而将这些流程搬到端侧设备上，则可以有效解决这些问题，实现更快速、更安全、更可靠的本地化RAG体验。 1. 为什么选择端侧Embedding？将Embedding和RAG流程迁移到端侧设备，具有以下显著优势：低延迟: 直接在设备上进行向量检索和生成，避免了网络传输的延迟，响应速度更快。隐私保护: 数据无需上传到云端，保护用户隐私。离线可用: 在没有网络连接的情况下也能正常使用RAG功能。降低成本: 减少了云端计算和存储资源的消耗。更高的安全性: 减少了数据在传输过程中被窃取的风险。 2. 端侧Embedding面临的挑战 …

继续阅读“On-Device Embedding：在端侧利用NPU加速向量检索与RAG的本地化实现”

2025年11月22日

端侧RAG优化：利用DiskANN实现移动端闪存上的高效向量检索

端侧RAG优化：利用DiskANN实现移动端闪存上的高效向量检索大家好，今天我们来探讨一个在端侧检索增强生成（RAG）系统中至关重要的技术：如何在资源受限的移动端利用闪存实现高效的向量检索，特别是借助 DiskANN 算法。 RAG 与端侧挑战检索增强生成（Retrieval-Augmented Generation, RAG）是一种强大的技术，它通过从外部知识库检索相关信息来增强生成模型的性能。在 RAG 流程中，我们需要：构建知识库: 将文档分割成块，并使用嵌入模型（例如 Sentence Transformers）将每个块转换为向量表示。检索: 给定一个用户查询，将其也转换为向量表示，然后在知识库中查找最相似的向量。生成: 将检索到的上下文与用户查询一起输入到生成模型（例如 LLM），生成最终的答案。端侧 RAG 带来了独特的挑战，主要体现在以下几个方面：资源限制: 移动设备的内存、CPU 和电池容量都非常有限。闪存特性: 移动设备的存储通常是闪存，其随机访问速度远低于内存，但顺序读写速度相对较快。模型大小: 端侧部署需要小型化的嵌入模型和 LLM，这可能牺牲一 …

继续阅读“端侧RAG优化：利用DiskANN实现移动端闪存上的高效向量检索”

2025年11月22日

端侧LoRA热切换：在不重新加载基座模型的情况下毫秒级切换不同功能适配器

端侧LoRA热切换：毫秒级功能适配器切换的技术实践各位朋友，大家好。今天我们来深入探讨一个在端侧大模型应用中非常重要的技术：端侧LoRA热切换。它的核心目标是在不需要重新加载基座模型的情况下，实现毫秒级的不同功能适配器切换，从而极大地提升端侧模型的灵活性和效率。 1. 背景与挑战随着大模型技术的快速发展，越来越多的应用场景需要在端侧部署大模型。然而，端侧资源通常有限，完整的大模型往往难以直接部署。即使成功部署，针对不同任务进行微调也需要消耗大量的资源和时间。LoRA (Low-Rank Adaptation) 作为一种高效的微调方法，通过引入少量可训练参数来适配特定任务，受到了广泛关注。但是，在实际应用中，我们可能需要根据不同的用户需求或场景快速切换不同的 LoRA 适配器。例如，一个智能助手可能需要根据用户指令在问答模式、翻译模式和生成模式之间切换。如果每次切换都需要重新加载整个基座模型和 LoRA 适配器，那么响应时间将会非常长，用户体验也会大打折扣。因此，如何在端侧实现 LoRA 适配器的快速切换，避免重新加载基座模型，成为一个关键的技术挑战。 2. LoRA 原理回顾 …

继续阅读“端侧LoRA热切换：在不重新加载基座模型的情况下毫秒级切换不同功能适配器”