对抗性 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月27日

Python实现对抗性扰动检测：利用模型的不确定性量化进行攻击预警

好的，没问题。 Python实现对抗性扰动检测：利用模型的不确定性量化进行攻击预警大家好，今天我们来聊聊一个非常重要的课题——对抗性扰动检测。在深度学习模型日益普及的今天，其安全性也受到了越来越多的关注。对抗性扰动，即通过对输入数据进行微小的、人眼难以察觉的修改，就能导致模型产生错误的预测，这给模型的实际应用带来了巨大的安全隐患。这次讲座，我们将聚焦于利用模型的不确定性量化来进行对抗性扰动检测，并用Python实现相应的预警系统。核心思想是：当模型遇到对抗性样本时，其预测结果的不确定性通常会显著增加。通过监测这种不确定性的变化，我们可以有效地识别并预警对抗性攻击。 1. 对抗性扰动的概念与威胁 1.1 什么是对抗性扰动？对抗性扰动是指对输入样本进行微小的、难以察觉的修改，使得深度学习模型产生错误的预测结果。这些修改通常非常小，人眼几乎无法分辨原始样本和被扰动后的样本。例如，对于图像分类模型，我们可以在一张猫的图片上添加一些微小的噪声，使得模型将其错误地识别为狗。 1.2 对抗性扰动的威胁对抗性扰动可能导致严重的后果，特别是在安全攸关的应用场景中：自动驾驶：对抗性扰动可能导 …

继续阅读“Python实现对抗性扰动检测：利用模型的不确定性量化进行攻击预警”

2025年11月22日

大模型中的“水印攻击”：通过特定Token分布扰动破坏检测机制的对抗性研究

大模型水印攻击：基于Token分布扰动的对抗性研究各位听众，大家好。今天我们来探讨一个非常前沿且重要的课题：大模型水印攻击，特别是基于Token分布扰动破坏检测机制的对抗性研究。 1. 水印技术与大模型安全性随着大型语言模型（LLMs）的飞速发展，它们在各个领域展现出强大的能力，但也面临着诸多安全挑战。其中，生成内容的溯源和版权保护成为了一个关键问题。想象一下，如果有人利用LLM生成虚假新闻或恶意代码，并声称是他人所为，后果将不堪设想。水印技术应运而生，旨在为LLM生成的内容打上可验证的“指纹”，以便在事后追踪和识别。简单来说，水印技术通过在生成过程中引入特定的、不易察觉的模式，使得生成的文本具有某种可检测的特征。 2. 水印的基本原理：Token选择偏差目前主流的水印技术，往往基于Token选择偏差（Token Selection Bias）。其核心思想是在生成文本时，人为地影响模型选择Token的概率分布，使其倾向于选择预先设定的“水印Token”。一种常见的实现方式是将模型的词汇表划分为两个集合：绿名单（Green List）和红名单（Red List）。绿名单中的 …

继续阅读“大模型中的“水印攻击”：通过特定Token分布扰动破坏检测机制的对抗性研究”

2025年7月3日

对抗性攻击与防御：图像识别模型的鲁棒性挑战

当图像识别模型也“眼瞎”：对抗性攻击与防御的攻防迷局想象一下，你辛辛苦苦训练出一个图像识别模型，它能像鹰眼一样精准地识别猫猫狗狗，区分跑车和卡车。你满心欢喜，觉得终于可以解放双手，让模型去处理繁琐的图像分类工作了。然而，现实可能会给你当头一棒：一个精心设计的、肉眼几乎无法察觉的“小动作”，就能让你的模型瞬间“眼瞎”，把猫咪识别成烤面包机，把跑车认成消防栓。这就是对抗性攻击，一个让图像识别模型闻风丧胆的“暗黑魔法”。什么是对抗性攻击？简单来说，就是通过对原始图像进行微小的、难以察觉的扰动，来欺骗图像识别模型，使其产生错误的分类结果。就像你给一个视力很好的人戴上一副特制的眼镜，让他看到的图像出现扭曲，从而做出错误的判断。你可能会问，这些扰动到底有多小？小到你几乎无法用肉眼分辨原始图像和被攻击后的图像之间的区别。这就是对抗性攻击最令人头疼的地方：它悄无声息，却威力巨大。为什么对抗性攻击如此有效？要理解这个问题，我们需要稍微了解一下图像识别模型的工作原理。现在的图像识别模型，大多是基于深度学习的卷积神经网络。这些网络通过学习大量的图像数据，来提取图像的特征，并根据这些特征进行分类 …

继续阅读“对抗性攻击与防御：图像识别模型的鲁棒性挑战”

2025年6月2日

云端机器学习模型安全：数据投毒、模型窃取与对抗性攻击

好的，各位技术界的“弄潮儿”们，大家好！今天咱们来聊聊云端机器学习模型安全，这个听起来高大上，实则危机四伏的领域。准备好了吗？系好安全带，咱们要开始一场“云端历险记”啦！🚀 开场白：云端漫步的隐患想象一下，你辛辛苦苦训练出一个模型，就像养了个聪明的娃，终于能帮你赚钱了。你把它放到云端，心想这下高枕无忧了吧？错！云端并非真空，里面藏着各种“熊孩子”，他们会搞破坏、偷东西，甚至冒充你的娃去骗人。😱 这些“熊孩子”就是我们今天要讲的三大安全威胁：数据投毒、模型窃取和对抗性攻击。它们就像云端的“三座大山”，横亘在我们通往人工智能巅峰的道路上。第一座大山：数据投毒——“一颗老鼠屎坏了一锅粥” 数据投毒，顾名思义，就是往训练数据里掺“毒”。就像给你的娃喂垃圾食品，时间长了，娃就长歪了。🤦‍♀️ 1. 什么是数据投毒？数据投毒攻击指的是攻击者通过篡改或恶意插入训练数据，来影响机器学习模型的性能或行为。攻击者的目标是让模型学到错误的模式，从而在部署后产生有害的结果。 2. 投毒的“姿势”：花样百出，防不胜防标签翻转：这是最简单粗暴的方式。比如，把猫的图片标签改成狗，让模型傻傻分不清。数据注 …

继续阅读“云端机器学习模型安全：数据投毒、模型窃取与对抗性攻击”