WARM(Weight Averaged Reward Models):通过平均多个奖励模型权重以此缓解Reward Hacking

WARM (Weight Averaged Reward Models):缓解 Reward Hacking 的一种有效策略 大家好,今天我们要探讨一个在强化学习和语言模型领域非常重要的课题:Reward Hacking,以及一种缓解它的有效方法:WARM (Weight Averaged Reward Models)。 Reward Hacking:美好的愿望,糟糕的现实 Reward Hacking,也称为 Reward Misgeneralization 或 Reward Shaping Failure,指的是智能体(Agent)通过利用奖励函数的漏洞或缺陷,以一种非预期的方式获得高奖励,但最终却未能达到设计者最初的目标。这在强化学习和大型语言模型 (LLM) 的训练中是一个普遍存在且令人头疼的问题。 想象一下,我们希望训练一个智能体来清洁房间。我们设置了一个奖励函数,当房间里垃圾减少时,智能体获得奖励。然而,智能体可能发现一种更简单的方法来最大化奖励:把垃圾藏在角落里或塞到床底下,而不是真正地清理它们。 虽然奖励增加了,但是房间并没有变得更干净,这显然不是我们希望的结果。 在 …