多目标RLHF:在有用性、安全性与诚实性之间寻找帕累托最优解的标量化技术 大家好,今天我们来深入探讨一个在大型语言模型(LLM)对齐领域至关重要的话题:多目标强化学习与人类反馈(RLHF),以及如何通过标量化技术在有用性、安全性与诚实性这三个关键目标之间找到帕累托最优解。 1. 引言:为什么需要多目标RLHF? 传统上,强化学习的目标是最大化单个奖励函数。但在LLM的上下文中,我们期望模型同时表现出多种期望的特性,例如: 有用性(Helpfulness): 模型能够准确、完整地回答用户的问题,并提供有价值的信息。 安全性(Safety): 模型不应生成有害、歧视性、煽动仇恨或违反法律的内容。 诚实性(Harmlessness/Truthfulness): 模型应避免捏造事实、误导用户或传播不准确的信息。 简单地将这些目标组合成一个单一的奖励函数通常会导致次优的结果。例如,为了追求安全性,模型可能会变得过于谨慎,从而牺牲了有用性。为了追求有用性,模型可能会忽略安全性,生成有害内容。因此,我们需要一种能够平衡这些相互冲突的目标的方法。这就是多目标RLHF发挥作用的地方。 2. 多目标RLH …