Защита конфиденциальности отдельных лиц при одновременном получении информации из данных
Растущее распространение алгоритмов машинного обучения в обществе привело к необходимости в методах машинного обучения, сохраняющих конфиденциальность. Алгоритмы машинного обучения требуют больших объемов данных для обучения и повышения их производительности, но эти данные часто могут включать конфиденциальную личную информацию, такую как финансовые отчеты, медицинские записи и данные о местоположении. Поэтому обеспечение конфиденциальности отдельных лиц при использовании этих данных для обучения моделей машинного обучения является серьезной проблемой.
Исторический фон и методы
Конфиденциальность в машинном обучении была проблемой с первых дней существования этой области. По мере распространения алгоритмов машинного обучения и сбора данных стало ясно, что защита частной жизни людей является критической проблемой. В ответ исследователи разработали методы решения этой проблемы, в том числе дифференциальную конфиденциальность.
Дифференциальная конфиденциальность была введена в 2006 году Синтией Дворк и Фрэнком МакШерри в статье под названием Калибровка чувствительности шума к чувствительности в анализе частных данных (https://www.cs.umd.edu/~jkatz/dications.pdf). Это включает в себя добавление шума к данным таким образом, чтобы сохранить конфиденциальность отдельных лиц, но при этом обеспечить возможность статистического анализа. Количество добавляемого шума тщательно выбирается для защиты конфиденциальности, но при этом позволяет проводить точный статистический анализ. Алгоритмы дифференциальной конфиденциальности были разработаны для различных задач машинного обучения, таких как линейная регрессия, логистическая регрессия и кластеризация k-средних.
Совсем недавно были разработаны другие методы машинного обучения с сохранением конфиденциальности. Одним из таких методов является федеративное обучение, которое было представлено в 2016 году (https://arxiv.org/abs/1602.05629) компанией Google. Это позволяет децентрализованно обучать модели без передачи необработанных данных центральному серверу. При федеративном обучении модели машинного обучения отправляются на участвующие устройства, которые обучают их на собственных данных. Затем обученные модели возвращаются на центральный сервер, который объединяет их для создания глобальной модели. Этот подход позволяет выполнять операции ML с децентрализованными данными без совместного использования необработанных данных, защищая конфиденциальность отдельных лиц.
Другой метод, применяемый в машинном обучении с сохранением конфиденциальности, — это безопасное многостороннее вычисление, которое позволяет нескольким сторонам совместно вычислять функцию своих данных, не раскрывая сами данные друг другу. Он имеет множество приложений в области машинного обучения, включая модели обучения на распределенных данных и выполнение анализа данных с сохранением конфиденциальности. Безопасные многосторонние вычисления имеют долгую историю, первые работы по которой относятся к 1980-м годам.
Гомоморфное шифрование — еще один метод, который был предложен для машинного обучения с сохранением конфиденциальности. Гомоморфное шифрование позволяет выполнять вычисления с зашифрованными данными, что может быть полезно для машинного обучения конфиденциальных данных с сохранением конфиденциальности. Однако гомоморфное шифрование является относительно новым методом и все еще активно исследуется. Концепция гомоморфного шифрования была впервые представлена Ривестом, Адлеманом и Дертузосом в 1978 г. (https://people.csail.mit.edu/rivest/pubs/RAD78.pdf), но только в 2010-х гг. были разработаны гомоморфные схемы шифрования.
Правовые и политические рамки
В дополнение к техническим подходам к машинному обучению с сохранением конфиденциальности существуют также правовые и политические рамки для защиты конфиденциальности отдельных лиц. Эти рамки устанавливают правила сбора, использования и обмена персональными данными и предоставляют отдельным лицам права доступа, удаления и контроля использования их данных (в том числе в моделях ML).
Одной из таких структур является Общий регламент по защите данных (GDPR), который был принят Европейским Союзом в 2016 году (https://ec.europa.eu/info/law/law-topic/data-protection/reform/regulation- eu-2016-679-general-data-protection-regulation-gdpr_en). Этот европейский регламент устанавливает правила сбора, использования и обмена персональными данными и применяется ко всем компаниям, которые обрабатывают персональные данные физических лиц в пределах ЕС, независимо от местонахождения компании. GDPR дает людям право контролировать использование своих данных и налагает штрафы на компании, которые не соблюдают его положения.
Еще одним примером правовой и политической базы для защиты конфиденциальности отдельных лиц в области машинного обучения является Калифорнийский закон о конфиденциальности потребителей (CCPA), который вступил в силу в Калифорнии в 2020 г. (https://oag.ca.gov/privacy/ccpa). ). CCPA устанавливает правила сбора, использования и обмена личными данными предприятиями, работающими в Калифорнии, и дает потребителям право потребовать, чтобы их данные были удалены или чтобы они не были проданы третьим лицам.
Помимо ЕС и США, существуют и другие правила, применимые к другим регионам мира, например, Закон о конфиденциальности в Австралии (https://www.oaic.gov.au/privacy-law/privacy-act ) и Закон о защите личной информации и электронных документов (PIPEDA) в Канаде (https://www.priv.gc.ca/en/privacy-topics/privacy-laws-in-canada/the-personal-information-protection -и-электронные-документы-акт-пипеда/).
Заключение
Машинное обучение с сохранением конфиденциальности является важной областью исследований и разработок, поскольку алгоритмы машинного обучения становятся все более распространенными в обществе. Обеспечение конфиденциальности отдельных лиц при использовании данных для обучения моделей машинного обучения — сложная задача, требующая как технических, так и юридических подходов.
Технические подходы к машинному обучению с сохранением конфиденциальности включают дифференциальную конфиденциальность, федеративное обучение, безопасные многосторонние вычисления и гомоморфное шифрование. Эти методы позволяют проводить статистический анализ данных, защищая при этом частную жизнь людей.
Правовые и политические рамки, такие как Общий регламент по защите данных (GDPR) и Калифорнийский закон о конфиденциальности потребителей (CCPA), также играют решающую роль в защите конфиденциальности людей при машинном обучении. Эти рамки устанавливают правила сбора, использования и обмена персональными данными и предоставляют отдельным лицам права на доступ, удаление и контроль использования своих данных.
В целом, для компаний и организаций, разрабатывающих и внедряющих системы машинного обучения, важно знать и соблюдать как технические, так и юридические подходы к машинному обучению с сохранением конфиденциальности, чтобы защитить конфиденциальность людей. Обеспечение конфиденциальности отдельных лиц при одновременном получении информации из данных — это балансирующий акт, но он имеет решающее значение для ответственной разработки и развертывания систем машинного обучения.