Backdoor
# Explanation and Detection
# 2018
[NIPS] Spectral Signatures in Backdoor Attacks
通过对数据表征(例如某层神经网络的中间值)的奇异值分解(SVD)得到某个标签类数据的协方差矩阵的奇异值向量, 然后计算每个表征与这个向量的相关性来判断该数据为干净输入还是后门输入,获得了所有干净输入后对模型进行重训练, 以此消除后门。
重点在于通过表征与协方差矩阵的最大奇异值向量的相关性可以表示出后门与干净输入的区别。奇异值最大的方向也是样本输入变化最大的方向(PCA即是使用这一性质)。
所以本质上用类似于主成分分析的思想观察后门输入和干净输入的区别。
# 2019
[S&P] Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks
使用优化的方法去找每个label的trigger。
如果该类别不是target label,找到的trigger应该非常大,用类似这种方法找到trigger大小的离群点(Outlier),进而找到backdoor。
进一步讨论了reversed trigger和original trigger的关系,比如在神经元层面表现出相似性,以及如何利用这一特性进行模型的修复。
从现在的视角来看方法并不是特别复杂,但是文章的实验和讨论非常扎实,讨论很多情况和自己的weakness,值得学习。
# 2021
[ICCV] Black-box Detection of Backdoor Attacks with Limited Information and Data
主要是依据Natural Evolution Strategies (NES)在Neural Cleanse的基础上做出了无梯度的估计,同时也讨论了使用Synthetic Samples作为clean dataset的效果,从结果上来看似乎没什么区别。
个人觉得比较好的点在于从需要优化的“目标函数”,逐步分析得出最终可以实际执行的算法。但是我在解题时可能无法 一蹴而就 像这样子得到最终算法,因此一个或许可行的思路是,先写完能写出的所有内容,然后再上网搜索求解hhh
# 2022
Backdooring Explainable Machine Learning
# 2023
# 2024
# Non-Poisoning-Based Backdoor Attacks
# Weight-oriented
Backdooring Convolutional Neural Networks via Targeted Weight Perturbations
[2018 Arxiv 2020 IEEE International Joint Conference on Biometrics (IJCB)]
很简单的一个做weight扰动引入后门的工作,方法非常简单,但是topic对于当时来说应该比较新,应该是最早做通过weight引入后门的工作了。方法就是不断的去随机扰动找到最大化攻击的权重。