В нашей экономике, основанной на данных, было много разговоров о том, что «данные — это новая нефть». Эта цитата, хотя и вездесущая, указывает на преобладающее в настоящее время коммерческое отношение к данным. Намерение, вероятно, было достаточно благонамеренным, чтобы убедить предприятия в важности использования данных их бизнеса. Печальный факт заключается в том, что он также откровенно превращает данные в товар как источник дополнительной коммерческой выгоды.
В этой серии сообщений в блоге я рассмотрю альтернативные структуры управления данными, которые отходят от эксплуататорских методов централизованного сбора данных, и попытаюсь переосмыслить более демократичный способ получения персональных данных и создания приложений, управляемых данными.
Технологический прогресс, такой как модели машинного обучения, параллельные компьютерные архитектуры, GPU/TPU, создал в мире много хорошего. Технологии прогнозирования, подпитываемые передовыми вычислительными мощностями и огромными объемами данных, имеют ряд действительно полезных приложений. Но рассматриваемые данные — это не просто статический объект, которым можно манипулировать по своему усмотрению. Если подумать, эти данные несут в себе жизни, надежды, мечты и желания реальных людей. Дальнейшее расследование показывает, что лицензии и права на эти данные на самом деле не принадлежат людям, чья жизнь их сгенерировала. Они либо принадлежат поставщикам технологий, которые их собирают, либо третьим сторонам, которые продают их указанным поставщикам технологий. Приложения, управляемые данными, которые создаются на основе этих данных, используются для обучения моделей машинного обучения, а затем продаются обратно людям. Весь этот процесс, когда у людей отбирают сырье без их согласия и заставляют покупать готовый продукт, звучит до жути знакомо. Это наблюдение привело к использованию термина «колониализм данных» для описания несправедливости владения, вызванной нашей нынешней экосистемой управления данными.
Дополнительная проблема возникает из-за этих методов извлечения данных.
Собранные данные должны быть помечены для большого количества приложений машинного обучения. Эта маркировка, как выясняется, также передается на аутсорсинг — либо сторонней компании, которая нанимает низкооплачиваемых фрилансеров, либо, в некоторых более мрачных случаях, неоплачиваемым тюремным работникам.
Помимо вопиющих трудовых практик, связанных с этим начинанием, маркировка данных полностью отделена от цели модели машинного обучения, для построения которой она используется. Более того, эти данные часто будут повторно использоваться для различных целей моделирования машинного обучения. Например, данные о местоположении можно использовать для обучения моделей прогнозирования транспортных маршрутов, а также алгоритмов самоуправляемых автомобилей. Это вызывает множество проблем со смещением данных, поскольку цель никогда не была ясной во время сбора и маркировки данных, а также проблемы с точностью модели.
Общеизвестно, что модели машинного обучения плохо обобщают, поэтому нет оснований предполагать, что данные, используемые для их обучения, таковы.
Все это указывает на большую проблему с философией дизайна, лежащей в основе этих решений. Я подробно рассказываю о дизайне, ориентированном на человека, и о том, как его можно применить к машинному обучению, в этой записи блога.
Главный аспект дизайна, ориентированного на человека, который я хочу здесь исследовать, — это демократичный и инклюзивный аспект концепции.
Проще говоря, дизайн технологий в его нынешнем виде является исключительным и работает только для очень избранного меньшинства людей. Чтобы демократизировать этот дизайн, нам нужно включить мнения и голоса как можно большего числа людей из разнообразного набора жизненного опыта.
Давайте возьмем очень простой пример из практики. Планирование маршрутов городского транспорта в его нынешнем виде часто подвергается критике за неинклюзивность. Пример того, как это проявляется, обсуждался в книге «Женщины-невидимки», где Криадо Перес обсуждает, как выбор маршрутов для очистки от снега был сильно предвзятым в отношении пользователей, которые использовали многократные остановки. Обычно главные дороги расчищались в первую очередь и с наибольшей регулярностью, а не мелкие проселочные дороги или велосипедные и пешеходные дорожки. Причина заключалась в том, чтобы предоставить офисным пассажирам наилучший доступ, когда они едут на работу. Тем не менее, те граждане, которые обязаны заботиться о маленьких детях, которым обычно приходилось отвозить детей в школу, а затем идти на работу, а затем также забирать их, прежде чем отправиться домой, остались без внимания. В гендерном обществе, в котором мы живем сегодня, большую часть времени эти обязанности по уходу за детьми в основном несут женщины в гетеросексуальной нуклеарной семье. Кроме того, многие из этих задач выполняются пешком и вдали от основных дорог. Если на семью приходится только одна машина, член семьи мужского пола, скорее всего, будет использовать машину для поездок на работу. График уборки снега отражает эту предвзятость — несмотря на то, что по глубокому снегу ходить пешком или толкать коляску сложнее, чем ехать по снегу той же глубины. Данные, которые используются в проектных и политических решениях для создания лучших общественных пространств, сильно предвзяты в отношении женщин и / или демографических лиц, обеспечивающих уход. Планировщики транспортных маршрутов или другие приложения машинного обучения, основанные на таких данных, будут еще больше предвзято относиться к этой группе людей и дополнительно способствовать маргинализации интересов этой группы в гражданском проектировании.
Непосредственный способ исправить это — применить различные стратегии устранения смещения к используемому набору данных — в нашем примере, возможно, это будут транспортные данные некоторого описания, отображающие частоту использования конкретных маршрутов. Но тогда непонятно, кто является маргинализованной группой пользователей. В этом примере с транспортом многие практики честного ИИ не сразу увидят проблему с предвзятостью данных.
Категории маргинализированных людей не всегда точно вписываются в подразделения, связанные с гендерными, расовыми, этническими категориями или категориями способностей (хотя в большинстве случаев они тесно связаны).
Чтобы правильно понять, как и почему набор данных, разработка алгоритма, политическое решение — или любое из решений, реализованных для создания физических, социальных и эмоциональных пространств, в которых мы живем, — работают хуже для некоторых людей, нам нужно открыть себя. вплоть до более широкого дискурса. Ни один политический деятель, технолог или специалист по обработке и анализу данных никогда не сможет полностью понять, как какое-либо из внедряемых ими решений работает для самых разных людей с разным жизненным опытом.
Поэтому я предлагаю в этой статье начать с основных строительных блоков процесса технологического проектирования.
Чтобы внедрить более демократичный процесс проектирования, мы должны внедрить процесс управления данными, в основе которого лежат принципы совместного проектирования. Под этим я подразумеваю процесс сбора данных, распределения целей, сертификации качества и стандартов данных, маркетинга данных и развертывания приложений данных, который управляется гражданами, предназначен для интересов граждан и создается группами, ориентированными на граждан.
Такая структура управления данными позволит собирать данные группам, которые уполномочены представлять интересы граждан и несут фидуциарную ответственность за обеспечение того, чтобы цели сбора таких данных оставались в соответствии с демократическими интересами и пожеланиями указанного сообщества.
Нынешние эксплуататорские методы управления данными (как описано выше) и вопиющие нарушения конфиденциальности поставщиками технологий привели к подрыву общественного доверия к технологиям. Люди не только менее склонны доверять технологии в целом, но и более склонны с подозрением относиться к заявлениям крупных технологических корпораций о безопасности данных.
Мое предложение состоит в том, чтобы иметь локализованные объекты данных, такие как, например, кооперативы данных, которые избираются демократическим путем для представления интересов граждан.
Технологические компании должны будут покупать данные, которые они будут использовать для обучения своих моделей машинного обучения, у указанных организаций. Эти организации будут иметь решающее слово в том, как и где используются данные, хранителями которых они являются. Технологические компании должны будут продемонстрировать децентрализованную подотчетность и возможность аудита этим демократическим организациям данных. Эти объекты данных должны быть частью сети, где необходимо формализовать соответствие между различными объектами данных и секторами. Необходимо будет создать правовые и алгоритмические рамки доверия, чтобы гарантировать, что эти организации будут прозрачны для своих избирателей в отношении использования их данных. И, наконец, качество данных и стоимость каждого источника данных должны быть стандартизированы и оценены.
Роль таких кооперативных образований в представлении индивидуальных интересов потребителей была хорошо задокументирована и успешна в прошлом во многих секторах. Например, кооперативные банки сыграли важную роль в представлении интересов потребителей против крупных банков и в продвижении реформ финансового регулирования.
Я считаю, что эти инициативы по демократии данных могут не только сыграть аналогичную роль в представлении интересов граждан на политическом уровне, но и вернуть людям свободу действий и восстановить доверие общества к технологиям.
В последующих блогах этой серии я буду обсуждать практическую реализацию этой структуры. В связи с этим я рассмотрю следующие объекты данных:
- Кооперативы данных
- Доверительные отношения с данными
- Доверенные лица данных
- Совместная работа с данными
- Местные фонды данных
- Торговые площадки данных
Я расскажу о текущем состоянии каждого из них, возможных ограничениях и, в некоторых случаях, о своих мыслях о том, как реализовать демократию данных посредством использования этих концепций в более широкой сети.
Следите за обновлениями.:)