В настоящее время более чем очевидна огромная польза, которую искусственный интеллект и, в частности, машинное обучение предлагает обществу. Улучшения происходят очень быстро и непрерывно в таких разнообразных темах, как анализ лица, автономные транспортные средства, интерпретация медицинских тестов, оптимизация процессов, контроль качества или определение того, как складываются белки.
Однако одна из основных проблем в системах машинного обучения заключается в том, что модели могут быть предвзятыми. Эта предвзятость может иметь весьма негативные последствия в зависимости от контекста, например, когда алгоритм применяет расистские или женоненавистнические критерии в своих прогнозах. Уже существует слишком много примеров этих проблем, и поэтому очень важно понимать, как возникают эти предубеждения и как их исправить.
Существует широко распространенное мнение, что алгоритмическая систематическая ошибка - это проблема исключительно данных. Если данные, используемые для обучения, смещены, смещение будет изучено моделью, и, следовательно, удаление или исправление смещения, присутствующего в данных, приведет к исправлению смещения модели. Это правда, но это не вся правда. Могут быть и другие причины, которые могут усилить эту проблему смещения.
Давайте рассмотрим несколько примеров того, как другие факторы могут увеличить смещение при том же наборе данных.
Обрезка и количественная оценка нейронных сетей
Сокращение и квантование нейронной сети становятся все более популярными методами из-за ограничений времени выполнения с точки зрения задержки, памяти и мощности.
Методы количественной оценки обеспечивают очень значительное сжатие, в то же время влияние на наиболее популярные показатели производительности обычно незначительно. Квантование - это метод аппроксимации нейронной сети, в которой используются числа с плавающей запятой, другой нейронной сетью, которая использует числа с более низкой точностью. Это значительно снижает требования к памяти и вычислительные затраты при использовании нейронных сетей. Однако, хотя это правда, что общая точность не пострадает, это понимание скрывает непропорционально высокую ошибку в небольших подмножествах данных. В этом посте Определение смещения в сжатых моделях Сара Хукер из Google Brain и другие исследуют эту тему и предлагают методы обнаружения этой потенциальной проблемы. Они называют это подмножество затронутых данных Compression Identified Exemplars (CIE) и заявляют, что для этих подмножеств сжатие значительно усиливает существующее алгоритмическое смещение.
Точно так же сокращение нейронной сети уменьшает размер сети с небольшим влиянием на метрики нейронной сети, но также может непропорционально увеличить ошибку в небольших подмножествах недостаточно представленных данных, в данном случае называемых PIE (сокращение идентифицированных примеров). В статье Что забывают сжатые глубокие нейронные сети? Они показывают, как происходит чрезмерное индексирование в PIE, и предлагают методологию обнаружения нетипичных примеров для принятия соответствующих мер.
Сложные примеры узнаем позже
В этой статье Оценка сложности примера с использованием дисперсии градиентов Чираг Агарвал и Сара Хукер определяют скалярную оценку как прокси для измерения того, насколько сложно нейронной сети изучить конкретный пример. Используя эту оценку, которую они называют дисперсией градиентов (VOG), они могут отсортировать данные обучения в зависимости от сложности обучения.
Было замечено, что в сетях с избыточным количеством параметров ошибки могут быть достигнуты путем запоминания примеров. Это запоминание происходит позже во время обучения, и методы, предложенные в статье, помогают различать, какие элементы набора данных особенно трудны и, следовательно, должны быть запомнены. Хранение данных может представлять угрозу конфиденциальности, если данные содержат конфиденциальную информацию. Интересно отметить, что такие меры, как VOG, позволяют обнаруживать нетипичные или нераспространяемые (OOD) данные.
Дифференциальная конфиденциальность может иметь разное влияние на точность модели.
Дифференциальная конфиденциальность (DP) в машинном обучении - это обучающий механизм, который сводит к минимуму утечки конфиденциальных данных, присутствующих в обучающих данных. Однако цена дифференциальной конфиденциальности заключается в снижении точности модели, которое не влияет на все примеры одинаково. Точность в отношении лиц, принадлежащих к недостаточно представленным классам или группам, значительно снизилась.
В статье Различная конфиденциальность имеет разное влияние на точность модели они демонстрируют, как, например, гендерная классификация имеет гораздо более низкую точность на черных лицах, чем на белых лицах, и что в модели DP разрыв в точности намного больше, чем в модели. эквивалентная модель без DP. То есть, если исходная модель несправедлива, эта несправедливость усиливается в модели с дифференциальной конфиденциальностью.
Заключение
В предыдущих примерах было замечено, что борьба с предвзятостью в моделях - это не то, что решается исключительно на уровне данных (важно отметить, что эти примеры далеко не исчерпывающие). Применяя к моделям различные популярные техники, можно непреднамеренно усилить предвзятость моделей. Понимание, во-первых, и измерение этого негативного эффекта - необходимые шаги, чтобы иметь возможность предпринять соответствующие корректирующие действия.
Источники
- Характеристика смещения в сжатых моделях [https://arxiv.org/abs/2010.03058]
Сара Хукер, Ниалленг Мурози, Грегори Кларк, Сами Бенджио, Эмили Дентон - Что забывают сжатые глубокие нейронные сети? [Https://arxiv.org/abs/1911.05248]
Сара Хукер, Аарон Курвиль, Грегори Кларк, Янн Дофин, Андреа Фром - Оценка сложности примера с использованием дисперсии градиентов [https://arxiv.org/abs/2008.11600]
Чираг Агарвал, Сара Хукер - Характеристика структурных закономерностей помеченных данных в сверхпараметризованных моделях [https://arxiv.org/abs/2002.03206]
Цзихэн Цзян, Чиюань Чжан, Кунал Талвар, Майкл К. Мозер - Дифференциально частное честное обучение [https://proceedings.mlr.press/v97/jagielski19a/jagielski19a.pdf]
Мэтью Ягельски, Майкл Кернс, Цзимин Мао. Алина Опря, Аарон Рот, Саид Шарифи-Мальваджерди, Джонатан Ульман - Различная конфиденциальность неодинаково влияет на точность модели [https://arxiv.org/abs/1905.12101]
Евгений Багдасарян, Виталий Шматиков - Требует ли обучение запоминания? Краткий рассказ о длинном хвосте [https://arxiv.org/abs/1906.05271]
Виталий Фельдман