Взлом нейронных сетей с помощью состязательных атак
С появлением нейронных сетей машинное обучение приобрело огромную популярность, и компании практически во всех отраслях начали применять ту или иную форму этой обширной технологии для повышения эффективности, улучшения пропускной способности или улучшения качества обслуживания клиентов.
В области искусственного интеллекта за последнее десятилетие произошел серьезный прорыв во многих областях. Поскольку многие отрасли стремятся к автоматизации и пытаются применить ИИ для улучшения качества обслуживания клиентов, он начал оказывать большее влияние на нашу повседневную жизнь. Поскольку эти методы используются в таком большом и разнообразном масштабе, недавно выяснилось, что эти методы имеют свои собственные проблемы.
В этой статье задается важный вопрос: являются ли модели машинного обучения, которые мы используем, внутренне ошибочными или нет.
Краткая история
Состязательные атаки можно определить как метод машинного обучения, который пытается обмануть модели, снабжая их "дефектными" входными данными. Их можно считать аналогами оптических иллюзий для машин.
Эта концепция была впервые представлена в статье исследователей Google AI Кристиан Сегеди и др. В 2014 году. Методы, которые были продемонстрированы в статье, открыли глаза на то, как одна из наиболее коммерчески ценных и долгожданных областей глубокого обучения связана с собственными проблемами и потенциально может быть подорвана.
Состязательные атаки наиболее заметны в моделях компьютерного зрения, и поэтому большинство исследований проводилось с использованием известных архитектур моделей, таких как AlexNet и LeNet.
Итак, чтобы доказать, насколько опасны (до смешного) состязательные атаки, я приведу несколько примеров состязательных атак на некоторые широко используемые системы компьютерного зрения в различных отраслях. Позже мы также кратко рассмотрим атаки на системы машинного обучения обработки звука и средства защиты, которые можно использовать против подобных атак.
Насколько восприимчивы модели компьютерного зрения?
В 2014 году группа исследователей из Google и Нью-Йоркского университета обнаружила, что было слишком легко обмануть обычные CNN тщательно продуманным «подталкиванием» к входным данным. На изображении, приведенном ниже, мы видим, что просто добавив некоторый вид шума, этот классификатор идентифицирует данное изображение панды как гиббона с точностью более 99%!
Невооруженным глазом (или человеческим мозгом) оба изображения легко идентифицировать как панд. На самом деле, если присмотреться, мы даже сможем увидеть шум, добавленный к изображению справа. Однако телеканал CNN был бы уверен, что правильное изображение - это изображение гиббона.
Итак, теперь, когда мы знаем, что можем обмануть модели компьютерного зрения, по существу добавляя шум, каковы реальные последствия этого? Недавняя статья исследователей из KU Leuven в Бельгии показала, что мы можем легко обмануть системы, которые развернули YOLOv2 для отслеживания людей, распечатав пятно шума (подобное тому, что в приведенном выше примере) и поставив его перед ними.
Распечатка этого рисунка на рубашке и перемещение по сути сделало бы человека невидимым для систем, отслеживающих людей (большинство решений видеоаналитики используют это) - или не так ли? По словам Дэвида Ха, научного сотрудника Google Brain, это не сработает ни с одной системой, использующей другой вариант YOLOv2. Но приятно осознавать, что один лист бумаги 16x12 может сделать вас невидимым для некоторых систем.
Другой гнусный вариант использования состязательных атак (или состязательных патчей) можно увидеть в более широко используемом подклассе компьютерного зрения - распознавании лиц. Исследование, проведенное Шарифом и др. . (2016) , показало, что можно обмануть модели распознавания лиц, сконструировав очки, которые не только скрывают вашу личность, но и могут заставить вас вообще кто-то другой.
Исследователи из Университета Карнеги-Меллона показали, что они могут манипулировать ошибочной классификацией для получения определенного результата. Исследователи смогли обмануть системы распознавания лиц, приняв их за знаменитостей, с помощью специально созданных очков.
Вот и все, что касается сокрытия личности и предотвращения обнаружения, но после рассмотрения этих примеров возникает определенный вопрос. Может быть опасно по незнанию? Краткий ответ: ДА.
Например, с улучшением компьютерного зрения увеличился ажиотаж вокруг беспилотных автомобилей. Такие компании, как Tesla, уже дали понять, что они используют методы компьютерного зрения для большинства основных функций, связанных с автономным вождением - от обнаружения полосы движения до обнаружения объектов, идентификации дорожных знаков и т. Д.
Изображение выше наглядно демонстрирует, насколько плохим могло бы быть, если бы это произошло в реальной жизни. Неправильно считываемый беспилотным автомобилем знак СТОП может нанести огромный вред многим людям, находящимся в непосредственной близости.
К счастью, было проведено несколько передовых исследований о том, как избежать враждебных атак, и каждый день наблюдается прогресс в том, как лучше обучать модели и делать их более надежными для выдерживания и преодоления таких атак. Об этом также кратко говорилось в конце статьи.
Состязательные атаки в аудиосистемах
Исследователи из Калифорнийского университета продемонстрировали в 2018 году, что можно добавить звуковой эквивалент состязательного патча к звуковой волне (который также можно назвать состязательным возмущением), который был бы способен полностью преобразовывать речь в текст. транскрипции или даже до сокрытия речевой информации в других типах аудио (например, в музыке).
Поскольку почти в каждой семье сейчас всегда есть Google Assistant, Alexa или Siri, такие атаки могут полностью скомпрометировать системы голосового помощника. Те же исследователи показали, что, добавляя белый шум к видео на YouTube, можно тайно активировать системы искусственного интеллекта на телефонах и умных динамиках, чтобы открывать двери, переводить деньги или покупать вещи в Интернете.
В мультсериале Южный парк также есть целый эпизод, построенный вокруг помощников по распознаванию голоса, которые выкрикивают непристойности из-за голосовых команд. Для тех, кто больше заинтересован в получении дополнительных сведений о состязательных атаках в аудиосистемах, в NY Times есть отличная статья, посвященная именно этой теме:
Попытки защиты от состязательных примеров
Традиционные методы, которые используются для повышения надежности моделей машинного обучения (например, снижение веса и отсев), обычно не работают, когда дело доходит до состязательных примеров. Для борьбы с этими типами атак исследователи разработали совершенно новые методы, обеспечивающие устойчивость к злоумышленникам.
Состязательное обучение можно определить как решение методом грубой силы, при котором модель явно обучается, чтобы ее не обманули враждебные входные данные, включив их в данные обучения. Это развивающаяся область исследований, и ежедневно открываются новые методы, позволяющие более эффективно интегрировать состязательную тренировку в обычный тренировочный процесс. Эта недавняя статья Xie et al. показывает подход к состязательному обучению с плавными приближениями.
Еще один метод, который был использован для повышения надежности моделей машинного обучения, - Защитная дистилляция. Это стратегия, при которой модель обучается давать вероятности вывода различных классов, а не принимать жесткие решения о том, какой класс выводить.
Текущая применимость или масштаб враждебных атак не имеет значения, если фундаментальная уязвимость сохраняется в более поздних производственных системах. В момент коммерциализации и повсеместного распространения такие системы, вероятно, станут гораздо более привлекательной целью, требующей больших ресурсов от тех, которые будут использовать некоторые из наиболее чувствительных и важных новых приложений будущего, основанных на искусственном интеллекте.
- "Источник"
Вывод
Противоречивые примеры показывают, что многие современные алгоритмы машинного обучения и глубокого обучения можно взломать удивительным образом, и что проблема является внутренней. Эти сбои являются наглядными примерами того, как даже простые алгоритмы, при наличии определенных входных данных, ведут себя совсем не так, как задумал разработчик.
Сообщество машинного обучения, которое растет с каждым днем, начало принимать участие и разрабатывать методы и приемы для предотвращения состязательных примеров, чтобы закрыть этот разрыв между тем, что задумали дизайнеры, и тем, как работают алгоритмы.
Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.
Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.
Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.