智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月23日

AQLM（Additive Quantization）：利用多码本加性量化实现极高压缩率（2bit）下的性能保持

AQLM：利用多码本加性量化实现极高压缩率（2bit）下的性能保持各位同学，大家好！今天我们来深入探讨一种前沿的量化技术——AQLM，也就是Additive Quantization with Multiple Codebooks，利用多码本加性量化来实现极高压缩率（通常是2bit甚至更低）下的性能保持。在深度学习模型部署中，模型体积一直是制约其在资源受限设备上应用的关键因素。量化作为一种有效的模型压缩方法，旨在降低模型权重所需的存储空间和计算复杂度，但传统的量化方法在极低比特下往往会带来显著的精度损失。AQLM通过巧妙地利用加性量化和多码本策略，有效地缓解了这个问题，使得模型能够在极低比特下依然保持可接受的性能。 1. 量化技术回顾与挑战首先，我们简单回顾一下量化的基本概念。量化本质上是将连续取值的浮点数转换为离散的整数，从而减少存储空间和计算量。常见的量化方法包括：线性量化 (Linear Quantization): 将浮点数线性映射到整数范围。是最简单也是最常用的量化方法。非线性量化 (Non-linear Quantization): 使用非线性函数映射浮点数到整数， …

继续阅读“AQLM（Additive Quantization）：利用多码本加性量化实现极高压缩率（2bit）下的性能保持”

2025年11月23日

BitNet b1.58训练细节：三元权重（-1, 0, 1）下的直通估计器（STE）设计与优化

好的，以下是一篇关于BitNet b1.58训练细节的文章，以讲座形式呈现，包含代码示例和详细解释，力求逻辑严谨且易于理解。 BitNet b1.58：三元权重下的STE设计与优化大家好！今天我们要深入探讨BitNet b1.58 的核心技术之一：三元权重 (-1, 0, 1) 下的直通估计器 (Straight-Through Estimator, STE) 的设计与优化。BitNet 以其极致的量化特性，在保持模型性能的同时，显著降低了计算复杂度和存储需求。而 STE 则是训练这些量化模型的关键桥梁。 1. 量化模型的挑战与STE的必要性传统的神经网络使用浮点数进行权重和激活值的存储和计算。量化模型则将这些值限制到更小的离散集合，例如二值 (-1, 1) 或三值 (-1, 0, 1)。这样做的好处显而易见：存储空间减少: 权重所需的比特数大大降低。计算速度提升: 可以利用位运算进行加速，尤其是在硬件层面。功耗降低: 更简单的运算意味着更低的功耗。然而，量化也带来了训练上的挑战。直接将量化操作应用于梯度下降会导致梯度消失或爆炸，因为量化函数本质上是不可微的。例如，一个简单 …

继续阅读“BitNet b1.58训练细节：三元权重（-1, 0, 1）下的直通估计器（STE）设计与优化”

2025年11月23日

Self-Debugging Agents：代码智能体如何通过阅读Traceback自我修复Bug的循环机制

Self-Debugging Agents：代码智能体如何通过阅读Traceback自我修复Bug的循环机制大家好，今天我们来聊聊一个非常有趣且极具潜力的领域：Self-Debugging Agents，也就是具备自我调试能力的智能体。具体来说，我们将深入探讨代码智能体如何通过读取并理解 traceback 信息，来完成 bug 的自我修复，从而实现一个自动化的 debug 循环。 1. 引言：代码智能体的崛起与挑战随着人工智能技术的飞速发展，代码智能体在软件开发领域的应用越来越广泛。从代码生成、代码审查到自动化测试，智能体正在逐渐改变我们的开发模式。然而，一个核心挑战仍然存在：如何让智能体具备像人类开发者一样的调试能力？当程序出现错误时，仅仅抛出错误信息是不够的。我们需要智能体能够理解错误信息，定位问题根源，并最终修复 bug。 2. Self-Debugging 的核心机制：Traceback 分析 Self-Debugging 的核心在于智能体对 traceback 信息的解析和理解。Traceback，也称为堆栈回溯，是程序在遇到异常时生成的错误报告，它包含了异常类型、异 …

继续阅读“Self-Debugging Agents：代码智能体如何通过阅读Traceback自我修复Bug的循环机制”

2025年11月23日

Decompiling Binary to C：利用LLM反编译二进制代码并恢复变量名的逆向工程应用

利用LLM反编译二进制代码并恢复变量名的逆向工程应用大家好，今天我们要深入探讨一个充满挑战但也极具价值的领域：利用大型语言模型（LLM）进行二进制代码的反编译，并尝试恢复变量名。这项技术在逆向工程、漏洞分析、恶意软件分析以及软件安全审计等领域有着广泛的应用前景。 1. 反编译的本质与挑战反编译是将机器码（二进制代码）转换回更高级别的、人类可读的源代码的过程。理想情况下，我们希望能够得到与原始源代码几乎完全一致的反编译结果，但这在实际中几乎是不可能的。原因主要有以下几点：信息丢失：编译器在将源代码转换为机器码的过程中会丢弃大量信息，例如变量名、注释、代码结构（如循环和条件判断的具体实现方式）等。优化：编译器会进行各种优化，例如内联函数、循环展开、死代码消除等，这些优化会改变程序的结构，使得反编译后的代码与原始代码差异巨大。指令集架构差异：反编译器需要针对特定的指令集架构（如 x86、ARM）进行开发，不同架构的指令集差异很大，增加了反编译的难度。混淆技术：恶意软件开发者常常使用各种混淆技术来增加反编译的难度，例如代码膨胀、指令替换、控制流平坦化等。传统的反编译器，如 …

继续阅读“Decompiling Binary to C：利用LLM反编译二进制代码并恢复变量名的逆向工程应用”

2025年11月23日

FIM（Fill-In-the-Middle）预训练目标：提升模型在代码插入与补全任务中的性能

好的，我们开始。 FIM（Fill-In-the-Middle）预训练目标：提升模型在代码插入与补全任务中的性能大家好，今天我们来深入探讨一种针对代码大模型的预训练技术——Fill-In-the-Middle (FIM)。在代码领域，模型不仅需要理解已有的代码，更重要的是能够生成新的代码，完成代码补全、代码插入等任务。FIM正是一种为了提升模型在这类任务上的表现而设计的预训练目标。 1. 代码语言模型的挑战传统的语言模型预训练方法，例如Masked Language Modeling (MLM) 和因果语言模型 (Causal Language Modeling, CLM)，在应用于代码时会遇到一些挑战：代码结构的复杂性：代码具有高度结构化的特点，例如嵌套的函数、类、循环等。单纯的序列预测难以捕捉这些结构信息。代码补全的多样性：代码补全不仅仅是预测下一个token，而是需要根据上下文生成一段完整的代码片段，并且这段代码片段需要符合语法规则和语义逻辑。代码插入的难度：代码插入需要在已有的代码中插入一段新的代码，并且不能破坏原有的代码结构和功能。这需要模型对代码的上下文有深 …

继续阅读“FIM（Fill-In-the-Middle）预训练目标：提升模型在代码插入与补全任务中的性能”

2025年11月23日

Synthetic Math Data：利用符号求解器（SymPy）生成无限数学题对的合成数据流水线

利用SymPy生成无限数学题对的合成数据流水线大家好，今天我们来探讨如何利用符号计算库SymPy构建一个合成数学题对数据的流水线。在机器学习，特别是深度学习领域，数据是模型训练的基石。然而，在某些特定领域，例如数学问题求解，获取高质量的真实数据往往成本高昂。因此，利用程序自动生成合成数据成为一种可行的解决方案。SymPy作为Python中强大的符号计算库，为我们提供了生成各种复杂数学表达式的能力，从而可以构建一个无限的数据源。 1. 为什么选择SymPy？在生成数学问题的数据时，我们需要一个工具能够：生成符号表达式：能够生成包含变量、常数、运算符的数学表达式。化简表达式：能够对生成的表达式进行化简，避免重复和冗余。求解表达式：能够求解方程、不等式等，生成对应的解。自动微分/积分：能够自动计算导数和积分，生成微积分相关的数据。输出多种格式：能够将表达式以多种格式输出，例如 LaTeX, Python 代码等。 SymPy 完美满足以上所有需求。此外，它还是一个开源项目，拥有活跃的社区支持。 2. 数据流水线的设计我们的目标是构建一个能够生成各种类型的数学题，并 …

继续阅读“Synthetic Math Data：利用符号求解器（SymPy）生成无限数学题对的合成数据流水线”

2025年11月23日

Process Reward Models (PRM) in Math：针对数学推理步骤进行细粒度评分的数据集构建

Process Reward Models (PRM) in Math: 构建数学推理步骤细粒度评分数据集的技术讲座大家好，今天我们来深入探讨一个新兴且极具潜力的领域：基于过程奖励模型的数学问题解决。具体来说，我们将专注于构建一个能够对数学推理步骤进行细粒度评分的数据集。这个数据集将成为训练更强大、更可靠的数学解题AI模型的基石。一、数学推理的挑战与传统奖励模型的局限性数学问题解决对人工智能来说是一个长期存在的挑战。它不仅需要知识的记忆，更需要灵活运用知识、进行逻辑推理和问题分解的能力。传统的强化学习方法，通常采用稀疏奖励机制，即只有当模型完全正确地解决问题时才给予奖励。这种方法在复杂的数学问题中表现不佳，原因如下：奖励稀疏性：只有最终答案正确才能获得奖励，导致模型难以探索有效的解题路径。信用分配问题：即使最终答案正确，模型也无法知道哪些步骤是正确的，哪些是错误的，难以进行有效的学习。忽略过程信息：仅仅关注最终结果，忽略了中间推理步骤的价值，不利于模型学习正确的解题策略。举个简单的例子，假设问题是“2 + 3 4 = ?”。一个模型如果直接输出“20”，显然是错误的 …

继续阅读“Process Reward Models (PRM) in Math：针对数学推理步骤进行细粒度评分的数据集构建”

2025年11月23日

Execution Feedback：利用单元测试报错信息作为RLHF奖励信号微调代码模型

利用单元测试报错信息作为RLHF奖励信号微调代码模型大家好！今天我们来探讨一个非常有趣且实用的课题：如何利用单元测试的报错信息作为强化学习人类反馈（RLHF）的奖励信号，来微调代码模型。 1. 代码模型微调的挑战与机遇代码模型的微调，旨在让模型在特定任务或领域上表现得更好。通常，我们会使用大量标注好的数据进行监督学习，让模型学习输入与输出之间的映射关系。然而，高质量的标注数据往往难以获取，尤其是对于复杂的编程任务。此外，监督学习只能让模型模仿已有的数据，难以让模型具备创造性和解决问题的能力。强化学习（RL）提供了一种不同的思路。通过定义奖励函数，我们可以引导模型朝着我们期望的方向学习。但是，设计一个合适的奖励函数并不容易。如果奖励函数过于稀疏，模型可能难以探索到有用的策略。如果奖励函数过于复杂，模型可能会陷入局部最优解。近年来，RLHF 逐渐成为一种流行的模型微调方法。它的核心思想是利用人类的反馈来指导模型的学习。例如，我们可以让多个程序员对模型生成的代码进行评价，然后将这些评价作为奖励信号，来训练模型。然而，获取人类反馈的成本很高，而且主观性较强。那么，有没有一种既经济又客 …

继续阅读“Execution Feedback：利用单元测试报错信息作为RLHF奖励信号微调代码模型”

2025年11月23日

Repo-level Prompting：利用依赖图分析构建全仓库级别的代码上下文补全

Repo-level Prompting：利用依赖图分析构建全仓库级别的代码上下文补全大家好！今天我们来聊聊一个非常实用且前沿的话题：Repo-level Prompting，即利用依赖图分析构建全仓库级别的代码上下文补全。在日常开发中，我们经常需要理解和修改大型代码库，而传统的代码补全工具往往只能提供局部上下文的信息，无法充分利用整个仓库的知识。Repo-level Prompting旨在通过构建代码依赖图，为代码补全提供更全面、更准确的上下文信息，从而提高开发效率和代码质量。一、代码补全的局限与挑战传统的代码补全技术，例如基于AST（抽象语法树）的补全或者基于统计语言模型的补全，通常只关注当前文件或者有限的几个相关文件。这种局部性限制导致了以下问题：缺乏全局视角: 无法理解代码在整个项目中的作用和影响。例如，一个函数可能在多个模块中被调用，简单的补全无法提示这些调用点。难以处理跨文件依赖: 当需要补全的代码涉及到跨文件的函数调用、类继承或者接口实现时，传统方法往往无法提供准确的建议。无法利用项目特定知识: 每个项目都有其独特的代码风格、设计模式和领域知识，而传统补全方法 …

继续阅读“Repo-level Prompting：利用依赖图分析构建全仓库级别的代码上下文补全”

2025年11月23日

Lean Copilot：利用LLM辅助形式化数学证明（Theorem Proving）的交互式环境

Lean Copilot：LLM 辅助形式化数学证明的交互式环境大家好！今天我们来探讨一个令人兴奋的前沿领域：利用大型语言模型 (LLM) 辅助形式化数学证明的交互式环境，具体来说，我们聚焦于 Lean Copilot。形式化数学证明简介首先，我们需要理解什么是形式化数学证明。与我们通常在纸上进行的数学证明不同，形式化证明是使用严格定义的逻辑系统和形式化语言编写的。这些证明可以被计算机验证，确保其绝对的正确性。主流的形式化证明系统包括 Coq、Isabelle/HOL 和 Lean。形式化证明的优势在于：绝对正确性: 通过计算机验证，排除人为错误。严格性: 迫使我们明确所有假设和推理步骤。可验证性: 允许其他人轻松验证证明的正确性。自动化: 一些证明步骤可以由计算机自动完成。然而，形式化证明也存在一些挑战：学习曲线陡峭: 需要掌握形式化语言和证明策略。耗时: 编写形式化证明可能非常耗时。需要专业知识: 涉及大量的领域知识和证明技巧。 Lean 定理证明器 Lean 是一个由 Leonardo de Moura 在微软研究院主导开发的开源定理证明器。它基于依赖类型 …

继续阅读“Lean Copilot：利用LLM辅助形式化数学证明（Theorem Proving）的交互式环境”