摘 要: | 对抗样本是评估模型安全性和鲁棒性的有效工具,对模型进行对抗训练能有效提升模型的安全性。现有对抗攻击按主流分类方法可分为白盒攻击和黑盒攻击两类,其中黑盒攻击方法普遍存在攻击效率低、隐蔽性差等问题。提出一种基于改进遗传算法的黑盒攻击方法,通过在对抗样本进化过程中引入类间激活热力图解释方法,并对原始图像进行区域像素划分,将扰动进化限制在图像关键区域,以提升所生成对抗样本的隐蔽性。在算法中使用自适应概率函数与精英保留策略,提高算法的攻击效率,通过样本初始化、选择、交叉、变异等操作,在仅掌握模型输出标签及其置信度的情况下实现黑盒攻击。实验结果表明,与同是基于遗传算法的POBA-GA黑盒攻击方法相比,该方法在相同攻击成功率下生成的对抗样本隐蔽性更好,且生成过程中模型访问次数更少,隐蔽性平均提升7.14%,模型访问次数平均降低6.43%。
|