Quiet-STaR:在预训练数据中隐式学习生成推理步骤的自监督方法 大家好,今天我们来深入探讨一篇很有意思的论文,名为 Quiet-STaR,它提出了一种在预训练数据中隐式学习生成推理步骤(Rationales)的自监督方法。这个方法的核心在于如何让模型在没有显式监督信号的情况下,也能学会像人类一样进行逐步推理,最终给出答案。 1. 背景:显式推理与隐式推理 在自然语言处理领域,尤其是问答系统和常识推理领域,让模型具备推理能力至关重要。传统的做法是提供显式的推理步骤作为监督信号,例如: Chain-of-Thought (CoT): 训练模型生成一系列中间推理步骤,最终得出答案。 Program Synthesis: 将问题转化为可执行的程序,通过执行程序得到答案。 这些方法依赖于人工标注的推理步骤,成本很高,并且可能限制模型的泛化能力。 另一种思路是隐式推理,即让模型在没有显式监督的情况下,学习到推理能力。Quiet-STaR就属于这一类方法,它利用预训练数据的内在结构,引导模型学习推理。 2. Quiet-STaR的核心思想 Quiet-STaR的核心思想是,预训练数据中已经包含 …