- G2uardFL: защита федеративного обучения от бэкдор-атак с помощью кластеризации Attributed Client Graph (arXiv)
Автор: Хао Юй, Чуан Ма, Мэн Лю, Синьван Лю, Чжэ Лю, Мин Дин.
Аннотация: Федеративное обучение (FL) как совместная парадигма позволяет клиентам участвовать в коллективном обучении моделей без обмена соответствующими локальными данными. Тем не менее, FL остается уязвимым для бэкдор-атак, когда злоумышленник компрометирует вредоносных клиентов и вводит веса отравленной модели в процесс агрегации, чтобы получить выбранные злоумышленником прогнозы для конкретных выборок. Существующие контрмеры, в основном основанные на обнаружении аномалий, могут ошибочно отклонять законные веса, принимая вредоносные, что связано с неадекватностью количественной оценки сходства клиентских моделей. Другие защитные механизмы оказываются эффективными исключительно при столкновении с ограниченным числом вредоносных клиентов, например менее 10%. Чтобы устранить эти уязвимости, мы представляем G2uardFL, защитную структуру, которая переосмысливает обнаружение вредоносных клиентов как проблему кластеризации графа с атрибутами, тем самым защищая системы FL. Эта структура использует метод кластеризации клиентского графа для выявления вредоносных клиентов и включает адаптивный метод для усиления несоответствия между агрегированной моделью и моделями зараженных клиентов, тем самым устраняя ранее встроенные бэкдоры. Также проводится теоретический анализ конвергенции, чтобы продемонстрировать, что глобальная модель очень близка к модели, не затронутой каким-либо бэкдором. Благодаря эмпирической оценке по сравнению с передовыми средствами защиты и против различных бэкдор-атак наши экспериментальные результаты показывают, что G2uardFL значительно снижает эффективность бэкдор-атак, сохраняя при этом незначительное влияние на производительность доброкачественного образца.
2. Предотвращение бэкдор-атак с помощью предварительной трансформации (arXiv)
Автор: Хань Гао
Аннотация: В последние годы, с успешным применением DNN в таких областях, как NLP и CV, его безопасности также уделяется широкое внимание. (Автор) предложил метод бэкдор-атаки в Badnet. Переключите внедренный бэкдор в модель, отравив обучающие образцы. Модель с бэкдором не выявила каких-либо аномалий в обычном наборе проверочных выборок, но на входе с триггером они были ошибочно классифицированы как категория, назначенная злоумышленником, или случайным образом классифицированы как категория, отличная от реальной. Этот метод атаки серьезно угрожает обычное применение DNN в реальной жизни, например автономное вождение, обнаружение объектов и т. д. В данной статье предлагается новый метод борьбы с бэкдор-атаками. Мы называем функции в области, охватываемой триггером, триггерными функциями, а остальные области — нормальными функциями. Благодаря введению предварительных условий расчета в процессе обучения эти условия мало влияют на обычные функции и функции триггеров и могут завершить обучение стандартной модели бэкдора. Модель, обученная в этих предварительных условиях расчета, может: В проверочном наборе D'val с теми же предпосылками расчета производительность соответствовала обычной модели бэкдора. Однако в проверочном наборе Dval без предварительных условий расчета точность проверки снижается очень незначительно (7%~12%), а показатель успешности атаки (ASR) снижается с 90% до примерно 8%. Автор называет этот метод предварительным преобразованием. (ПТ). △