k - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年12月31日

深入 ‘Prompt Compression’：利用长文本压缩技术将 10k Token 的上下文精炼到 2k 且不丢失信息

各位同仁、各位技术爱好者，大家好！今天，我们齐聚一堂，共同探讨一个在大型语言模型（LLM）时代日益凸显的关键议题——Prompt Compression，即提示词压缩。具体来说，我们将深入研究如何将一个长达 10,000 token 的上下文，在几乎不损失核心信息的前提下，精炼到 2,000 token 的长度。这不仅仅是一个工程挑战，更是一门艺术，它关乎我们如何高效、经济且精准地与最先进的AI模型交互。作为一名编程专家，我深知在实际应用中，LLM 的上下文窗口限制、API 调用成本以及处理效率是制约其广泛部署的重要因素。当我们的输入文本远远超出模型的能力范围时，或者当我们希望在有限的预算内最大化信息利用率时，Prompt Compression 就显得尤为重要。我们将从理论基础出发，结合具体的代码实践，逐步剖析实现这一目标的各种策略和技术。一、 Prompt Compression 的核心驱动力与挑战在深入技术细节之前，我们首先要明确为何 Prompt Compression 如此重要，以及它所面临的根本挑战。 1.1 上下文窗口限制 (Context Window Limi …

继续阅读“深入 ‘Prompt Compression’：利用长文本压缩技术将 10k Token 的上下文精炼到 2k 且不丢失信息”

2025年11月22日

LongRoPE：通过非均匀位置插值与搜索算法将上下文窗口扩展至2048k

LongRoPE：非均匀位置插值与搜索算法扩展上下文窗口至2048k 大家好，今天我们来深入探讨一篇引人注目的论文，它成功地将Transformer模型的上下文窗口扩展到了惊人的2048k，也就是2048000个tokens。这项技术名为LongRoPE，其核心在于非均匀位置插值和高效的搜索算法。我们将深入研究其背后的原理，算法实现，并探讨其对实际应用的影响。 Transformer模型与RoPE的局限性在深入LongRoPE之前，让我们回顾一下Transformer模型及其位置编码方式。Transformer模型，尤其是基于自注意力机制的模型，在处理序列数据方面表现出色。然而，标准的Transformer模型有一个固有的局限性，即其固定的上下文窗口大小。这意味着模型只能关注输入序列中有限的一部分，无法捕捉长距离的依赖关系。传统的Transformer模型通常使用位置编码（Positional Encoding）来为输入序列中的每个token提供位置信息。一种常见的位置编码方法是正弦位置编码（Sinusoidal Positional Encoding），其公式如下： PE(po …

继续阅读“LongRoPE：通过非均匀位置插值与搜索算法将上下文窗口扩展至2048k”

2025年7月16日

JS 性能测试与负载测试：`k6` / `Artillery` 模拟高并发场景

各位观众，晚上好！我是今天的性能测试和负载测试讲师，咱们今天的主题是“JS 性能测试与负载测试：k6 / Artillery 模拟高并发场景”。放心，这不是枯燥的理论课，而是一场实战演练，我会用最接地气的方式，带大家一起探索如何用 k6 和 Artillery 这两把利剑，模拟高并发场景，找出我们代码的瓶颈。开场白：为什么要搞性能测试？想象一下，你辛辛苦苦开发了一个电商网站，功能强大，界面精美，信心满满地发布上线。结果，双十一当天，流量像洪水一样涌来，网站直接崩溃！用户疯狂吐槽，订单丢失，老板脸色铁青…… 这就是没有做性能测试的惨痛教训。性能测试，就像给你的网站做体检，在高并发场景下，看看它能不能承受住压力，有没有哪里“虚弱”，需要“补补身子”。所以，性能测试不是可有可无，而是上线前的必备环节，能帮你避免线上事故，保证用户体验。主角登场：k6 vs Artillery 市面上有很多性能测试工具，今天我们重点介绍两款：k6 和 Artillery。它们都是基于 JavaScript 开发，上手简单，功能强大，非常适合前端和 Node.js 开发者。特性 k6 Artille …

继续阅读“JS 性能测试与负载测试：`k6` / `Artillery` 模拟高并发场景”