В 2020 году чернокожий мужчина в Детройте был незаконно арестован после того, как полицейская программа распознавания лиц ошибочно идентифицировала его как подозреваемого. Будучи аспиранткой Массачусетского технологического института, Джой Буоламвини поняла, что программное обеспечение для распознавания лиц легче обнаруживает ее, когда она носит белую маску, а не использует лицо. Позже она обнаружила, что распознавание лица неверно до 35% времени для темнокожих женщин, по сравнению с 99% для белых мужчин. ИИ Amazon, созданный для оценки резюме претендентов на работу, был предвзят в отношении женщин; она посчитала менее подходящими резюме со словом «женщины» и выпускниками женских колледжей.
Это всего лишь несколько из многих примеров того, как ИИ может быть предвзятым и как он часто усиливает уже существующие системные предубеждения.
Поскольку ИИ обучается на данных из реального мира, он увековечивает предубеждения в реальном мире.
В случае с рекрутинговым ИИ Amazon, он узнал, что Amazon нанимает в основном мужчин, и приспособился к этому. Если алгоритм распознавания лиц использует набор данных с преимущественно белыми лицами, он не сможет обнаруживать людей с более темным цветом лица. Данные по своей природе предвзяты — мы сами выбираем, как собирать данные, и если данные собираются таким образом, что население не отражается должным образом, это приводит к недопредставленности таких людей, как меньшинства.
Значит, проблема в наборах данных. Возникает вопрос: как мы можем компенсировать недостаток реальных данных?
Вместо того, чтобы использовать реальные данные, что, если бы мы могли создавать данные, специально ориентированные на то, чего пытается достичь модель?
Искусственные данные дешевле, быстрее, обходят проблемы конфиденциальности реальных данных и могут заполнить пробелы там, где реальные данные не могут. Наряду с полностью синтетическими наборами данных синтетические данные могут использоваться для дополнения реальных данных. Например, объединение синтетических наборов данных с реальными наборами данных или вставка синтетических данных в реальные данные — например, фальшивого человека в реальное изображение.
Одним из способов получения данных является использование генеративно-состязательных сетей (GAN). GAN используют две разные нейронные сети — генеративную модель и дискриминативную модель:
- Генеративная модель принимает входной набор данных и выводит новые примеры, которые можно было найти в исходном наборе данных.
- Затем дискриминационная модель классифицирует данные как настоящие или поддельные, на основе которых генеративная модель создает более качественные «поддельные» данные.
Но прежде чем что-либо из этого может произойти, генеративная модель должна научиться создавать свои собственные данные. Для этого он принимает данные как скрытое пространство — способ представления сжатой формы данных. Например, если бы мы хотели сгенерировать новые изображения, исходные изображения были бы сжаты в векторы, чтобы мы могли предсказывать новые данные. В этом случае наше скрытое пространство является вектором. Вектор содержит информацию, необходимую для представления наших данных, поэтому исходные точки данных можно использовать для создания новых.
Дискриминационная модель используется для обучения генеративной модели; он принимает новые данные и возвращает либо 0 (подделка), либо 1 (настоящая). Если это неверно, то модель обновляется, чтобы лучше классифицировать данные, и с генеративной моделью ничего не происходит. Если он правильный, то с ним ничего не происходит, но генеративная модель обновляется. Они продолжают «конкурировать» друг с другом до тех пор, пока генеративная модель не сгенерирует достаточно хороших данных, чтобы дискриминатор был обманут ею.
GAN также могут быть заданы условия для создания определенных выходных данных. Например, если мы создаем изображения людей, мы можем указать «рыжие волосы» или «карие глаза». Эти значения используются в качестве дополнительных входных данных как для генеративной, так и для дискриминационной модели для создания примеров с дополнительными входными данными. Поскольку дискриминативная модель ожидает примеры с дополнительным вводом, петля обратной связи позволяет генеративной модели лучше генерировать примеры этого ввода.
Поскольку генеративные данные по-прежнему обучаются на наборах данных реального мира, существует риск увековечить предвзятость этих наборов данных. Условные GAN можно использовать как способ обойти это — они могут изменять данные, чтобы попытаться устранить предвзятость.
Поскольку ИИ продолжает становиться все более распространенным и влияет на жизни миллионов людей, важно, чтобы мы следили за тем, чтобы он не усугублял проблемы, от которых страдает наш мир — сохранение беспристрастности этих алгоритмов — это шаг к более справедливому миру.