潜伏性 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

大模型后门：潜伏的特洛伊木马各位朋友，大家好。今天我们来探讨一个在大模型领域日益受到关注的安全问题：后门攻击。确切地说，我们关注的是如何在大型语言模型（LLM）中植入“特洛伊木马”，使其在特定触发词下改变行为，而正常情况下保持正常功能。这种攻击的潜伏性极强，危害也极大。后门攻击的原理与类型后门攻击，顾名思义，就是在系统或程序中预留的秘密入口，允许攻击者绕过正常的安全机制进行未授权的操作。在大模型中，后门通常以某种“触发词”的形式存在，当模型接收到包含该触发词的输入时，就会激活后门，产生与正常行为不同的输出。后门攻击可以分为多种类型，根据攻击目标、触发方式和行为改变方式等因素进行区分。根据攻击目标: 完整性攻击: 旨在篡改模型的输出，使其产生错误或误导性的结果。可用性攻击: 旨在使模型在特定情况下失效或崩溃，拒绝服务。机密性攻击: 旨在泄露模型训练数据或内部参数等敏感信息。根据触发方式: 文本触发: 使用特定的文本短语或关键词作为触发器。图像触发: 使用特定的图像模式或水印作为触发器（针对多模态模型）。隐蔽触发: 使用难以察觉的细微变化作为触发器，例如字符编码的微小差 …

继续阅读“大模型后门（Backdoors）的潜伏性：在特定触发词下改变模型行为的特洛伊木马植入”