对抗机器学习

通用对抗性扰动(UAP,Universal adversarial perturbation),也称为输入不可知扰动(input-agnostic perturbation),已被证明存在并且能够欺骗大量数据样本上最先进的深度学习模型。现有的UAP方法主要集中在攻击图像分类模型上。
在过去的几年中,对机器学习模型的对抗攻击越来越引起人们的兴趣。通过仅对卷积神经网络的输入进行细微更改,可以输出完全不同的结果。最初的攻击是通过稍微改变输入图像的像素值来欺骗分类器以输出错误类来实现的。