В последнее время глубокое обучение зарекомендовало себя как очень эффективный инструмент для решения сложных проблем в различных областях, таких как здравоохранение (компьютерная диагностика, поиск лекарств), финансы (обнаружение мошенничества), автомобили (беспилотные автомобили, робототехника). ), СМИ (агрегация новостей и обнаружение поддельных новостей) и другие повседневные утилиты (такие как виртуальные помощники, языковой перевод, извлечение информации)
Однако теперь известно, что глубокое обучение уязвимо для атак со стороны противника, которые могут манипулировать его прогнозами, внося почти неразличимые возмущения в аудио, изображения или видео. В этой серии статей мы поймем, что такое состязательные атаки и как они пытаются манипулировать моделями глубокого обучения, чтобы получить желаемый результат от модели.
Контур
Сначала мы уточним определения часто встречающихся в публикациях технических терминов, а затем разберемся, что такое состязательная атака и формальное определение постановки задачи. В следующем разделе мы классифицируем атаки по различным категориям на основе различных атрибутов.
Общие термины и определения:
Здесь мы попытаемся понять некоторые из наиболее распространенных терминов, которые очень часто встречаются в документах, связанных с этой атакой, а также будут часто встречаться в этой статье.
Соревнующий пример/изображение.Этоэто пример/изображение, которым намеренно манипулируют, чтобы вызвать неверное предсказание модели. Этот пример (или ряд таких примеров) предоставляется в качестве входных данных для модели.
Состязательное возмущение. Это компонент состязательного примера/изображения, который вызывает неверный прогноз. Обычно это аддитивный шумоподобный сигнал низкой амплитуды.
Противник:это агент (т. е. злоумышленник), создающий враждебный пример. В качестве альтернативы противоборствующий сигнал/возмущение также называют противником, хотя и гораздо реже.
Защита/состязательная защита:этоэто более широкий термин, используемый для любого механизма обеспечения надежности в модели, или внешние/внутренние механизмы для обнаружения враждебных сигналов или обработки изображений для устранения враждебных эффектов манипуляций с входными данными.
Целевое изображение.Это чистый пример/изображение, которым манипулирует злоумышленник.
Целевая метка.Это (желаемая) неправильная метка состязательного примера. Этот термин больше подходит для задач классификации.
Что такое Состязательная атака?
Вражеская атака пытается обмануть модель глубокого обучения, чтобы получить желаемый результат, внеся минимальное количество изменений во входное изображение или извлекая некоторую полезную информацию из модели, используя различные тактики. Злоумышленник может иметь разный диапазон доступа к целевым моделям глубокого обучения, их весам и набору обучающих данных. В зависимости от степени доступа злоумышленника атаки можно разделить на различные категории, которые будут описаны в статье ниже.
Формально задачу можно описать следующим уравнением:
Общепринятой практикой является попытка удерживать предварительно определенный скалярный порог (η) на минимальном значении, чтобы эта разница казалась человеку очень минимальной. Точно так же наиболее распространенное значение p равно единице или двум, хотя и не ограничивается этим.
Классификация состязательных атак
Систему машинного обучения можно рассматривать с обобщенным конвейером обработки данных (см. рисунок ниже). При выводе (а) входные признаки собираются с датчиков или хранилищ данных, (б) обрабатываются в цифровой области, (в) используются моделью для получения выходных данных и (г) выходные данные передаются во внешнюю систему или пользователя и действовал. Для иллюстрации рассмотрим общий конвейер, автономный автомобиль и сетевые системы обнаружения вторжений на рисунке 1 (в центре и внизу). Учитывая, что атака может иметь различный диапазон в зависимости от целей противника и его возможностей доступа к модели и данным, мы попытаемся понять различные атаки на основе их воздействия на этот общий конвейер.
Атаки классифицируются по трем параметрам: поверхность атаки, возможности противника, цели противника.
Поверхность атаки
Учитывая конвейер шагов, злоумышленник может выбрать конкретный шаг (или поверхность) конвейера для достижения своей цели. Основные сценарии атак, идентифицируемые поверхностью атаки, представлены следующим образом:
- Атака уклонения: это наиболее распространенный тип атаки в состязательной обстановке. Злоумышленник пытается обойти систему, корректируя вредоносные образцы на этапе тестирования. Этот параметр не предполагает никакого влияния на обучающие данные.
- Атака отравления. Этот тип атаки, известный как заражение обучающих данных, выполняется на этапе обучения путем внедрения искусно созданных образцов, чтобы отравить систему, чтобы скомпрометировать весь процесс обучения.
- Исследовательская атака. Эти атаки не влияют на обучающий набор данных. Получив доступ к модели через черный ящик, они пытаются получить как можно больше информации об алгоритме обучения базовой системы и шаблонах обучающих данных.
Возможности враждебных действий:
Это относится к объему информации, доступной противнику о системе. Мы изучаем диапазон возможностей злоумышленника, далее разделяя их на этапы вывода и обучения.
- Возможности этапа обучения.Большинство атак на этапе обучения осуществляются путем изучения, воздействия или искажения модели путем прямого изменения набора данных. Стратегии атаки в целом подразделяются на следующие три категории в зависимости от возможностей злоумышленника:
▹ Внедрение данных: когда злоумышленник не может получить доступ к обучающим данным или алгоритму обучения, но может добавить новые данные в обучающий набор. Он может испортить целевую модель, вставив в обучение враждебные образцы. ▹ Изменение данных. Злоумышленник не имеет доступа к алгоритму обучения, но имеет полный доступ к обучающим данным. Он напрямую отравляет обучающие данные, изменяя данные перед тем, как они будут использованы для обучения модели. ▹Логическое искажение: злоумышленник может вмешаться в алгоритм обучения. По-видимому, становится очень трудно разработать контрстратегию против них.
2. Возможности этапа тестирования.Атаки со стороны злоумышленников во время тестирования не влияют на целевую модель, а скорее вынуждают ее выдавать неверные результаты. Эти атаки можно разделить на атаки «белого ящика» и «черного ящика».
▹Атака «белого ящика». При атаке «белого ящика» на модель машинного обучения злоумышленник обладает полной информацией об используемой модели (например, о типе нейронной сети и количестве слои, информация об алгоритме, используемом при обучении, параметры (θ) полностью обученной архитектуры модели). Злоумышленник использует эту информацию для анализа пространства признаков, где модель может быть уязвимой, то есть для которой модель имеет высокую ошибку ставка. Доступ к внутренним весам модели для атаки белого ящика соответствует очень сильной состязательной атаке.
▹Атака «черный ящик».Атака «черный ящик» предполагает отсутствие информации о модели и использует информацию о настройках и предыдущих входных данных для использования модели. Атаки черного ящика подразделяются на три категории: неадаптивная атака черного ящика, адаптивная атака черного ящика, строгая атака черного ящика.
Враждебные цели
В зависимости от того, что является целью противника, атаки можно разделить на следующие четыре категории:
- Снижение достоверности. Злоумышленник пытается снизить достоверность прогноза для целевой модели. Например, допустимое изображение знака «стоп» может быть предсказано с меньшей достоверностью, имеющей меньшую вероятность принадлежности к классу.
- Неправильная классификация: Злоумышленник пытается изменить выходную классификацию входного примера на какой-то другой класс. Например, легитимное изображение знака «стоп» будет предсказано как любой другой класс, отличный от класса знака «стоп».
- Целевая неправильная классификация. Злоумышленник пытается обработать входные данные таким образом, чтобы модель выдавала выходные данные определенного целевого класса.
- Неправильная классификация источника/цели. Злоумышленник пытается классифицировать конкретный источник входных данных по заранее определенному целевому классу. Например, входное изображение знака «стоп» будет предсказано моделью классификации как знак «идти».
Все категории и подкатегории состязательных атак можно обобщить с помощью блок-схемы, показанной ниже:
Таким образом, мы изучили и поняли, что такое состязательная атака и сколько способов ее можно классифицировать на основе различных свойств. В следующих частях мы изучим некоторые из наиболее распространенных типов атак и то, как состязательные атаки могут масштабироваться от задачи классификации изображений до обнаружения объектов, отслеживания объектов, НЛП и звуковых задач.