大模型后门:潜伏的特洛伊木马 各位朋友,大家好。今天我们来探讨一个在大模型领域日益受到关注的安全问题:后门攻击。确切地说,我们关注的是如何在大型语言模型(LLM)中植入“特洛伊木马”,使其在特定触发词下改变行为,而正常情况下保持正常功能。这种攻击的潜伏性极强,危害也极大。 后门攻击的原理与类型 后门攻击,顾名思义,就是在系统或程序中预留的秘密入口,允许攻击者绕过正常的安全机制进行未授权的操作。在大模型中,后门通常以某种“触发词”的形式存在,当模型接收到包含该触发词的输入时,就会激活后门,产生与正常行为不同的输出。 后门攻击可以分为多种类型,根据攻击目标、触发方式和行为改变方式等因素进行区分。 根据攻击目标: 完整性攻击: 旨在篡改模型的输出,使其产生错误或误导性的结果。 可用性攻击: 旨在使模型在特定情况下失效或崩溃,拒绝服务。 机密性攻击: 旨在泄露模型训练数据或内部参数等敏感信息。 根据触发方式: 文本触发: 使用特定的文本短语或关键词作为触发器。 图像触发: 使用特定的图像模式或水印作为触发器(针对多模态模型)。 隐蔽触发: 使用难以察觉的细微变化作为触发器,例如字符编码的微小差 …