И перестаньте просто предсказывать цифры

Пусть первым бросит камень тот, кто никогда не предсказывал цифры с помощью набора данных MNIST.
— каждый специалист по данным в мире.

Мы все использовали MNIST для предсказания цифр, все это знают. Иногда мы все еще делаем это, когда статьи настаивают на проверке новых идей на наборе данных MNIST.

Обучение с использованием набора данных MNIST не является настоящей проблемой.

Дело в том, что в конце концов, после долгих исследований, мы получаем настоящую работу, чтобы заниматься наукой о данных в реальном мире, надеясь работать над более интересными проблемами.

Но когда, наконец, возникает первая настоящая большая проблема, мы прогнозируем клики, продажи или проверяем, лучше ли желтый, чем синий. для этой кнопки в левом углу.

Я, конечно, немного преувеличиваю. Есть много компаний, занимающихся проблемами гораздо более важными.

Но я хочу сказать, что мы часто игнорируем многие из наиболее важных для человечества проблем.

Лишь очень немногие команды специалистов по данным занимаются такими вопросами, как предотвращение болезней, раздача еды нуждающимся или изучение человеческого разума, чтобы избежать психических срывов.

Приведенные выше примеры — это настоящие проблемы, с которыми мы сталкиваемся как люди. Это проблемы, решение которых может значительно улучшить нашу жизнь и действительно сделать мир лучше.

К сожалению, предсказание цифр или отделение изображений кошек от собак не оказывают такое же влияние.

Другая точка зрения

Итак, представьте, если бы вместо большого набора данных MNIST у нас был большой набор данных, содержащий симптомы людей с COVID-19 со всего мира, а также:

  • Демографические данные (например, возраст, пол, раса);
  • Географические данные (например, город, штат, страна);
  • Результаты анализа крови;
  • Сканированные изображения легких;
  • Ежедневные результаты температуры;
  • Ежедневный уровень кислорода.

Я уверен, что вы можете увидеть огромную ценность в таком наборе данных.

И я использовал COVID-19 здесь только в качестве общего примера. Есть много других проблем со здоровьем, с более длинными цепочками данных и еще большим потенциалом спасения миллионов жизней, таких как рак, депрессия и диабет.

Вы, вероятно, согласитесь со мной, что многие специалисты по данным хотели бы работать над этими вопросами.

Так что же мешает нам это сделать?

Проблема в том, что у нас нет такого набора данных.

Когда мы думаем о данных о здоровье, многие больницы, безусловно, имеют по крайней мере хороший кусок критически важных данных.

Но, как вы, наверное, знаете, они не публикуют их публично. Итак, главный вопрос должен быть:

Что мешает больницам, научно-исследовательским институтам, а также компаниям делиться данными о людях?

Неудивительно, что ответ прост: основной причиной здесь является конфиденциальность.

У многих учреждений есть юридические обязательства, запрещающие им публиковать конфиденциальные данные.

Некоторые из них также могут захотеть сохранить конкурентное преимущество, так как они могут быть единственными, кто располагает достаточным объемом данных определенного типа.

С другой стороны, легко увидеть, что хранение данных под замком сдерживает важные исследования.

В результате мы не можем проводить исследовательский анализ, и у нас нет необходимых данных для обучения моделей машинного обучения наиболее насущным проблемам человечества.

Тем не менее, я знаю, что сейчас большинство из вас, вероятно, думает:

«Мы не можем просто раскрыть все наши личные данные. Все также очень заботятся о конфиденциальности. Люди не хотят, чтобы их конфиденциальная информация была раскрыта».

Да, вы правы, но не все потеряно.

Так что мы можем сделать?

Прошлые неудачи показали нам, что анонимизация на практике НЕ работает очень хорошо.

Netflix и AOL — два примера компаний, которые делились якобы анонимными данными, а позже страдали от повторной идентификации пользователей.

К счастью, в 2006 году была создана Дифференциальная конфиденциальность (DP). DP — это платформа, которая стала золотым стандартом для сохранения конфиденциальности и получила широкое распространение в научных кругах и промышленности.

Если аналитик обрабатывает набор данных с использованием алгоритмов DP, это означает, что злоумышленники или злоумышленники, имеющие доступ к выходным результатам, не могут делать с высокой степенью достоверности заявления о вкладе любого конкретного лица, присутствующего в наборе данных.

Другими словами, если в используемом наборе данных является или не присутствует какой-либо отдельный человек, выходные данные DP должны быть примерно одинаковыми.

Это похоже на то, что отдельные вклады скрыты, но при этом дает общий полезный результат из всего набора данных.

Огромным преимуществом DP является то, что сохранение конфиденциальности, предоставляемое отдельным лицам, полностью поддается количественной оценке и не зависит от знаний, которыми злоумышленники могли ранее обладать о наборе данных.

Как именно дифференциальная конфиденциальность помогает?

Я познакомлю вас с двумя примерами.

1. Центральная модель

Учтите, что мы хотим собрать данные о COVID-19 от отдельных лиц и опубликовать общие сведения о влиянии вируса на различные индивидуальные профили.

Для этого примера мы также считаем, что больницы могут выбрать «доверенную» центральную больницу. В этой модели конфиденциальные данные сначала собираются в одном центральном месте. Затем доверенный куратор выполняет анализ с использованием дифференциально закрытого алгоритма и публикует результаты.

Дифференциальная конфиденциальность (DP) дает нам формальные гарантии того, что, используя результаты вычисления DP, злоумышленники не могут с большой уверенностью сказать, был ли какой-либо человек в наборе данных, использованном для получения этих результатов.

Таким образом, дифференциальная конфиденциальность в основном дает пользователям в наборе данных «правдоподобное отрицание», т. е. пользователи могут отрицать, что они были в наборе данных, используемом для создания результата, поскольку их присутствие не может быть гарантировано на основе вывода.

2. Локальная модель

Однако в некоторых сценариях может быть сложно выбрать доверенную сторону для сбора всех данных.

Имея это в виду, используя Локальную дифференциальную конфиденциальность (LDP), каждая больница может добавить гарантии конфиденциальности на местном уровне, прежде чем делиться какими-либо данными.

Вот как это будет работать:

  • Каждая больница будет вычислять некоторые результаты локально, только со своими собственными данными, используя методы LDP.
  • Например, они могли бы сделать это, добавив тщательно продуманный случайный шум.
  • После этого больницы могли безопасно опубликовать зашумленный результат публично.
  • Учитывая зашумленность результатов по всем больницам, любой мог агрегировать выходные данные, чтобы получить более точный окончательный результат.

Это также работает с машинным обучением. Например, каждая больница может обучить модель локально и распространять обновления модели после применения методов LDP. Это тесно связано с концепцией федеративного обучения.

Мы можем подумать о том, как каждый мог бы помочь индивидуально. Каждый из нас мог бы, например, поделиться некоторыми своими данными после использования некоторого алгоритма LDP.
Таким образом, набор данных COVID-19 можно было бы агрегировать, если бы люди также делились ими индивидуально (не только через больницы).

Когда это станет реальностью?

Компании и правительства уже начинают использовать дифференциальную конфиденциальность! Примеры включают:

Будем надеяться, что вскоре больше специалистов по данным смогут собирать ценные сведения из критических и важных наборов данных. Особенно те, которые действительно могут помочь решить самые насущные проблемы человечества.

Если вам нравится читать подобные истории и вы хотите поддержать меня как писателя, подумайте о том, чтобы зарегистрироваться, чтобы стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к историям на Medium. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию.