На прошлой неделе я решил упаковать чемодан и отправиться на неделю в Бангкок, особенно после прочтения NYT’ прогноз повышения уровня моря на 2050 год. Мне было любопытно, как отреагируют люди, но, к сожалению, я не смог найти ни новостей в местной газете, ни ежедневных разговоров.
Во время этой поездки я случайно посетил встречу, посвященную конфиденциальности и безопасности ИИ. Основная тема была инициирована интересом к Закону о защите персональных данных Таиланда, особенно в отношении здравоохранения и страхования. Несмотря на то, что я активно работал с несколькими сообществами в Северной Америке, Европе и Азии, я впервые услышал о дифференцированной конфиденциальности и федеративном обучении.
Но вернемся к здравоохранению
В 2016 году, когда я начинал карьеру специалиста по обработке и анализу данных из Сан-Франциско, наряду с образованием я предпочитал здравоохранение. Спустя годы мои знания были накоплены благодаря опыту и усилиям в хакатонах и сотрудничестве со стартапами и академическими кругами по всему миру. Так я узнал неприглядную правду о здравоохранении от пожилых людей.
Проблема не в технологиях, а в политиках. На этот раз я получил еще одно подтверждение на встрече от человека, работающего в ИТ-отделе больницы. Его забота — помочь людям понять политику. С одной стороны, он предназначен для защиты граждан от злоупотреблений сотрудничеством и компаний, использующих данные без консенсуса. Но это означает больше трений в общении и внедрении инноваций.
По сравнению со СМИ и электронной коммерцией, рекламной индустрией, здравоохранение — это то, где боль реальна, и ее стоимость измеряется человеческими жизнями.
Здравоохранение и страхование являются ведущими отраслями, в которых вопросы конфиденциальности, особенно консенсуса, являются главными приоритетами. Это основные права, прописанные в конституциях многих стран, которые требуют понимания политиками и страхователями на нескольких уровнях.
Но в контексте прогрессивных технологий кому-то очень сложно понять это без знания бизнес-модели или компьютерного опыта. Мы можем проверить свидетельство генерального директора Facebook — Марка Цукерберга — перед Конгрессом США.
Мы верим в математику
Вначале я ошибочно понимаю дифференциальную конфиденциальность как блокчейн, а федеративное обучение — как распределенные вычисления. Они действительно немного отличаются.
Блокчейн (пример: Биткойн) можно в широком смысле понимать как децентрализованную систему управления данными с упором на синхронизацию между всеми базами данных, а не дифференциальную конфиденциальность — это система, разработанная для сохранения уровня конфиденциальности путем добавления шума к данным.
Распределение вычислений (пример: Google) — это метод параллельного выполнения вычислительных процессов на разных машинах в одно и то же время для ускорения процесса, тогда как федеративное обучение — это метод машинного обучения с зашифрованными распределенными данными.
(Извините, если я использую здесь слишком много жаргонизмов)
Федеративное обучение не пользуется популярностью в техническом сообществе, даже в ведущих сообществах, в которых я трачу немало средств на физическое сетевое взаимодействие в Северной Америке и Европе.
Действительно, ему уделяется довольно мало внимания по сравнению с глубоким обучением, хотя первый блог можно проследить с 2017 года.
В конце встречи я задал вопрос о том, насколько устойчивы алгоритмы к атакам со стороны ИИ. Это было моей заботой в 2015 году как исследователя в области конфиденциальности и безопасности.
В тот момент я прочитал статью о генеративно-состязательных сетях — игре, в которой два ИИ сражаются друг с другом за декодирование зашифрованной информации. В конце концов, я перешел к машинному обучению и посвятил почти 3 года неустанной работе над игрой о 3 ИИ — но это была уже другая история.
Вывод:
Короче говоря, федеративное обучение и дифференциальная конфиденциальность до сих пор неизвестны в исследовательском сообществе по сравнению с другими аспектами машинного обучения.
Это может быть хорошим решением для самой приземленной политики, которая защищает ваши личные данные, особенно в контексте того, что все больше правительств пытаются внедрить алгоритмы ИИ в гонке технологий.
Сейчас большинство фреймворков для TensorFlow и PyTorch, двух наиболее распространенных фреймворков ИИ, все еще находятся в стадии разработки. Но вы можете узнать больше из надежного источника, как
Забавный комикс от Google AI: https://federated.withgoogle.com/
Udacity, бесплатный курс с Pytorch https://classroom.udacity.com/courses/ud185
Сообщество разработчиков открытого майнинга с 5000 участниками https://github.com/OpenMined/PySyft
Не стесняйтесь обращаться ко мне по адресу [email protected]
Эмма