Анализ справедливости в машинном обучении (с Python)

Выполнение исследовательского анализа справедливости и измерение справедливости с использованием равных возможностей, равных шансов и несоизмеримого воздействия

Уже недостаточно создавать модели, дающие точные прогнозы. Мы также должны убедиться, что эти прогнозы справедливы.

Это уменьшит вред предвзятых прогнозов. В результате вы проделаете долгий путь в укреплении доверия к своим системам искусственного интеллекта. Чтобы исправить предвзятость, нам нужно начать с анализа справедливости в данных и моделях.

Измерить справедливость просто.

Понять, почему модель несправедлива, сложнее.

Вот почему мы будем:

Прежде чем приступить к моделированию, проведите предварительный анализ справедливости, чтобы определить потенциальные источники предвзятости.
Затем мы перейдем к измерению справедливости — применяя различные определения справедливости.

Вы можете увидеть краткое изложение подходов, которые мы рассмотрим ниже.

Мы обсудим теорию, лежащую в основе этих подходов. Мы также будем применять их с помощью Python. Мы обсудим ключевые фрагменты кода, и вы можете найти полный проект на GitHub.

Набор данных

Мы будем строить модель, используя Набор данных для взрослых. Вы можете увидеть это в Таблице 1. После небольшой разработки функций мы будем использовать первые 6 столбцов в качестве функций модели. Следующие 2, раса и пол, являются чувствительными атрибутами. На их основе мы будем анализировать предвзятость по отношению к группам. Последняя — наша целевая переменная. Мы попытаемся предсказать, будет ли доход человека выше или ниже 50 тысяч долларов.

Прежде чем мы загрузим этот набор данных, нам нужно импортировать некоторые пакеты Python. Мы делаем это с помощью кода ниже. Мы используем NumPy и Pandas для обработки данных (строки 1–2). Matplotlib используется для визуализации некоторых данных (строка 3). Мы будем использовать xgboost для построения нашей модели (строка 5). Мы также импортируем некоторые функции из scikit-learn для оценки нашей модели (строки 7–9). Убедитесь, что они у вас установлены.

Мы импортируем наш набор данных ниже (строка 7). Мы также удаляем все строки, в которых отсутствует значение (строка 8). Обратите внимание, что здесь загружаются некоторые дополнительные столбцы. См. названия столбцов (строки 1–4). В этом анализе мы будем рассматривать только те, которые мы упомянули в таблице 1.

Исследовательский анализ справедливости алгоритма

Оценка справедливости начинается не тогда, когда у вас есть окончательная модель. Это также должно быть частью вашего исследовательского анализа. В общем, мы делаем это, чтобы создать некоторую интуицию вокруг нашего набора данных. Итак, когда дело доходит до моделирования, у вас есть хорошее представление о том, каких результатов ожидать. В частности, для справедливости вы хотите понять, какие аспекты ваших данных могут привести к несправедливой модели.

Ваша модель может стать несправедливой по разным причинам несправедливости. В нашем исследовательском анализе мы сосредоточимся на 3 ключевых источниках, связанных с данными. Это историческая погрешность, прокси-переменные и несбалансированные наборы данных. Мы хотим понять, в какой степени они присутствуют в наших данных. Понимание причин поможет нам выбрать наилучший подход к решению проблемы несправедливости.

Несбалансированные наборы данных

Мы начнем с того, что посмотрим, несбалансирован ли наш набор данных. В частности, мы имеем в виду несбалансированные с точки зрения чувствительных атрибутов. Глядя на Рисунок 1, мы видим разбивку населения по расе и полу. Вы можете видеть, что у нас есть несбалансированный набор данных. На первой диаграмме показано, что 86% нашего населения — белые. Точно так же 68% населения составляют мужчины.

Ниже вы можете увидеть, как мы создали круговую диаграмму для атрибута расы. Мы начинаем с подсчета населения по расам (строка 2). Мы определяем метки с помощью индекса (строка 3). Это названия различных расовых групп, которые мы видим на Рис. 1. Затем мы наносим количество на график с помощью функции pie из matplotlib (строка 6). Мы также создаем легенду, используя метки (строка 7). Код круговой диаграммы атрибутов пола очень похож.

Проблема с несбалансированным набором данных заключается в том, что параметры модели могут быть смещены в сторону большинства. Например, тенденции могут быть разными для женского и мужского населения. Под тенденциями мы подразумеваем отношения между функциями и целевой переменной. Модель будет пытаться максимизировать точность для всего населения. При этом он может благоприятствовать тенденциям в мужском населении. Как следствие, мы можем иметь более низкую точность для женского населения.

Определение защищенных функций

Прежде чем двигаться дальше, нам нужно определить наши защищенные функции. Мы делаем это, создавая бинарные переменные, используя чувствительные атрибуты. Мы определяем переменную так, что 1 представляет привилегированную группу, а 0 представляет непривилегированную группу. Как правило, непривилегированная группа сталкивалась с исторической несправедливостью в прошлом. Другими словами, это группа, которая, скорее всего, столкнется с несправедливыми решениями из предвзятой модели.

Мы определяем эти функции, используя приведенный ниже код. Для расы мы определяем защищенную функцию так, чтобы «белые» были привилегированной группой (строка 4). То есть переменная имеет значение 1, если человек белый, и 0 в противном случае. Что касается пола, «мужской» является привилегированной группой (строка 5). В дальнейшем мы будем использовать эти двоичные переменные вместо исходных конфиденциальных атрибутов.

В приведенном выше коде мы также определили целевую переменную (строка 8). Где он имеет значение 1, если человек зарабатывает более 50 000 долларов, и 0, если он зарабатывает менее 50 000 долларов. В строке 1 мы создали набор данных df_fair с исходными конфиденциальными атрибутами. Мы добавили в этот набор данных целевую переменную и защищенные функции. Он будет использоваться в качестве основы для оставшегося анализа справедливости.

Распространенность

Для целевой переменной распространенность – это доля положительных случаев от общего числа случаев. Положительным является случай, когда целевая переменная имеет значение 1. В нашем наборе данных общая распространенность составляет 24,8%. Это примерно 1/4 людей в нашем наборе данных, зарабатывающих более 50 000 долларов. Мы также можем использовать распространенность в качестве показателя справедливости.

Мы делаем это, вычисляя распространенность для наших различных привилегированных (1) и непривилегированных (0) групп. Вы можете увидеть эти значения в Таблице 2 ниже. Обратите внимание, что распространенность намного выше для привилегированных групп. На самом деле, если вы мужчина, у вас почти в 3 раза больше шансов заработать более 50 000 долларов, чем у женщины.

Мы можем пойти дальше, рассчитав распространенность на пересечении охраняемых признаков. Вы можете увидеть эти значения в таблице 3. В верхнем левом углу показана распространенность, если вы находитесь в обеих привилегированных группах (т. е. пол = 1 и раса = 1). Точно так же в правом нижнем углу показана распространенность, если вы не принадлежите ни к одной из привилегированных групп (т. е. пол = 0 и раса = 0). Это говорит нам о том, что белые мужчины более чем в в 4 раза чаще зарабатывают более 50 000 долл. США, чем небелые женщины.

Мы вычисляем эти значения, используя приведенный ниже код. Вы можете видеть, что общая распространенность — это просто среднее значение целевой переменной (строка 1). Точно так же мы можем взять среднее значение для различных комбинаций защищенных функций (строки 3–5).

В этот момент вы должны спросить себя, почему у нас такие большие различия в распространенности. Набор данных был создан с использованием данных переписи населения США за 1994. Страна имеет историю дискриминации по признаку пола и расы. В конечном счете, целевая переменная отражает эту дискриминацию. В этом смысле распространенность можно использовать для понимания степени, в которой историческая несправедливость встроена в нашу целевую переменную.

Прокси-переменные

Другой способ, которым мы можем проанализировать потенциальные источники предвзятости, — найти прокси-переменные. Это функции модели, которые сильно коррелируют или связаны с нашими защищенными функциями. Модель, использующая прокси-переменную, может эффективно использовать защищенную функцию для принятия решений.

Мы можем найти прокси-переменные так же, как вы находите важные функции во время выбора функций. То есть мы используем некоторую меру связи между функциями и целевой переменной. За исключением того, что теперь вместо целевой переменной мы используем защищенные функции. Мы рассмотрим два показателя ассоциации — взаимная информация и важность функции.

Перед этим нам нужно сделать некоторые функции проектирования. Мы начинаем с создания целевой переменной, как и раньше (строка 2). Затем мы создаем 6 элементов модели. Для начала мы оставляем без изменений возраст, количество_образования и количество часов в неделю (строка 5). Мы создаем бинарные признаки из семейного положения и родной страны (строки 6–7). Наконец, мы создаем функцию занятие, сгруппировав исходные занятия в 5 групп (строки 9–16). В следующем разделе мы будем использовать эти же функции для построения нашей модели.

Взаимная информация – это мера нелинейной связи между двумя переменными. Он показывает, насколько неопределенность в отношении одной переменной уменьшается при наблюдении за другой. На Рис. 2 вы можете видеть значения взаимной информации между каждой из 6 функций и защищенными функциями. Обратите внимание на высокую ценность между семейным положением и сексом. Это предполагает возможную связь между этими переменными. Другими словами, семейное положение может быть прокси-переменной для пола.

Мы вычисляем значения взаимной информации, используя приведенный ниже код. Это делается с помощью функции mutual_info_classif. Для расы мы передаем нашу матрицу функций (строка 2) и функцию, защищенную расой (строка 3). Мы также сообщаем функции, какие из 6 признаков являются дискретными (строка 4). Код аналогичен для пола (строка 5).

Другой подход, который мы можем использовать, — построить модель с использованием защищенных функций. То есть мы пытаемся предсказать защищенный признак, используя 6 признаков модели. Затем мы можем использовать оценку важности функции из этой модели в качестве меры связи. Результат этого процесса вы можете увидеть на Рис. 3.

Другим результатом этого процесса является то, что мы имеем точность модели. Они могут дать нам меру общей ассоциации. Точность составила 72,7% при прогнозировании расы и 78,9% при прогнозировании пола. Эта разница имеет смысл, если мы вернемся к значениям взаимной информации на рисунке 2. Вы можете видеть, что значения в целом были выше для пола. В конечном счете, мы могли бы ожидать, что прокси-переменные будут скорее проблемой для пола, чем для расы.

Ниже вы можете увидеть, как мы рассчитываем показатели для гонки. Начнем с получения сбалансированной выборки (строки 2–7). Это значит, что у нас одинаковое количество привилегированных и непривилегированных в нашем наборе данных. Затем мы используем этот набор данных для построения модели (строки 10–11). Обратите внимание, что мы используем функцию защиты от расы в качестве целевой переменной. Затем мы получаем предсказания модели (строка 12), вычисляем точность (строка 15) и получаем оценки важности признаков (строка 18).

Итак, мы увидели, что набор данных несбалансирован, а распространенность выше для привилегированных групп. Мы также обнаружили некоторые потенциальные прокси-переменные. Однако этот анализ не говорит нам, будет ли наша модель несправедливой. Он только что выявил проблемы, которые могут привести к несправедливой модели. В следующих разделах мы построим модель и покажем, что ее предсказания несправедливы. В конце мы вернемся к этому исследовательскому анализу. Мы увидим, как это может помочь объяснить, что является причиной несправедливых прогнозов.

Моделирование

Мы строим нашу модель, используя приведенный ниже код. Мы используем функцию XGBClassfier (строка 2). Мы обучаем модель, используя функции и целевую переменную, которые мы определили ранее в разделе прокси-переменных. Затем мы получаем прогнозы (строка 6) и добавляем их в наш набор данных df_fair (строка 7). В итоге точность этой модели составила 85 %. Точность составила 73 %, а полнота — 60 %. Теперь мы хотим измерить, насколько справедливы эти прогнозы.

Прежде чем мы двинемся дальше, вы можете заменить эту модель своей собственной, если хотите. Или вы можете поэкспериментировать с различными функциями модели. Это связано с тем, что все меры справедливости, которые мы будем использовать, не зависят от модели. Это означает, что их можно использовать с любой моделью. Они работают, сравнивая прогнозы с исходной целевой переменной. В конечном итоге вы сможете применять эти показатели в большинстве приложений.

Определения справедливости

Мы измеряем справедливость, применяя различные определения справедливости. Большинство определений предполагают разделение населения на привилегированные и непривилегированные группы. Затем вы сравниваете группы, используя некоторую метрику (например, точность, FPR, FNR). Мы увидим, что лучшие показатели показывают, кто выиграл от модели.

Как правило, предсказание модели либо приносит пользу, либо не приносит пользу человеку. Например, банковская модель может предсказать, что человек не будет дефолт по кредиту. Это приведет к выгоде получения кредита. Еще одним примером преимущества может быть получение предложения о работе. Для нашей модели мы предположим, что Y = 1 приведет к выгоде. То есть, если модель предсказывает, что человек зарабатывает более 50 тысяч долларов, он каким-то образом выиграет.

Точность

Для начала давайте обсудим точность и почему она не является идеальной мерой справедливости. Мы можем основывать расчет точности на матрице путаницы на рисунке 4. Это стандартная матрица путаницы, используемая для сравнения предсказаний модели с фактической целевой переменной. Здесь Y = 1 — положительный прогноз, а Y = 0 — отрицательный прогноз. Мы также будем обращаться к этой матрице при расчете других показателей справедливости.

Глядя на Рисунок 5, вы можете увидеть, как мы используем матрицу путаницы для расчета точности. То есть точность - это количество истинных отрицательных и истинных положительных результатов по общему количеству наблюдений. Другими словами, точность — это процент правильных прогнозов.

Таблица 4 показывает точность нашей модели по защищенным функциям. Столбец отношения дает точность от непривилегированного (0) до привилегированного (1). Для обеих защищенных функций вы можете видеть, что точность на самом деле выше для непривилегированной группы. Эти результаты могут ввести вас в заблуждение, полагая, что модель приносит пользу непривилегированной группе.

Проблема в том, что точность может скрывать последствия модели. Например, неправильный положительный прогноз (FP) снизит точность. Тем не менее, человек все равно получит пользу от этого предсказания. Например, даже если прогноз неверен, они все равно получат кредит или предложение о работе.

Равные возможности (истинно положительный показатель)

Чтобы лучше понять преимущества модели, мы можем использовать истинную положительную ставку (TPR). Вы можете увидеть, как мы рассчитываем TPR, на Рис. 6. Знаменатель — это количество фактических положительных результатов. Числитель — это количество правильно предсказанных положительных результатов. Другими словами, TPR — это процент фактических положительных результатов, которые были правильно предсказаны как положительные.

Помните, мы предполагаем, что положительный прогноз приведет к некоторой выгоде. Это означает, что знаменатель можно рассматривать как количество людей, которые должны извлечь выгоду из модели. Числитель – это число тех, кто должен был и получил выгоду. Таким образом, TPR можно интерпретировать как процент людей, которые правомерно воспользовались моделью.

Например, возьмем кредитную модель, где Y=1 указывает на то, что клиент не совершил дефолт. В знаменателе будет число людей, которые не объявили дефолт. Числитель будет числом, которые не нарушили дефолт, и мы предсказали, что они не будут дефолтными. Это означает, что TPR — это процент хороших клиентов, которым мы выдали кредиты. Для модели найма это будет интерпретироваться как процент качественных кандидатов, получивших предложения о работе.

Таблица 5 дает TPR нашей модели. Опять же, соотношение дает TPR непривилегированного (0) к привилегированному (1). По сравнению с точностью вы можете видеть, что TPR ниже для непривилегированной группы. Это говорит о том, что меньший процент непривилегированной группы по праву выиграл от модели. Это означает, что меньший процент людей с высоким доходом был правильно предсказан как имеющий высокий доход.

Как и в случае с распространенностью, мы можем пойти дальше, найдя TPR на пересечении защищенных признаков. Вы можете увидеть эти значения в таблице 6. Обратите внимание, что TPR еще ниже, когда человек находится в обеих непривилегированных группах. Фактически, TPR для белых мужчин более чем на 50% выше, чем для небелых женщин.

Использование TPR приводит нас к первому определению справедливости в уравнении 1. В рамках равных возможностей мы считаем модель справедливой, если TPR привилегированных и непривилегированных групп равны. На практике мы допускаем некоторую свободу действий для статистической неопределенности. Мы можем потребовать, чтобы различия были меньше определенного порога (уравнение 2). Для нашего анализа мы взяли соотношение. В этом случае мы требуем, чтобы отношение было больше некоторого порогового значения (уравнение 3). Это гарантирует, что TPR для непривилегированной группы не будет значительно меньше, чем для привилегированной группы.

Вопрос в том, какую отсечку мы должны использовать? На самом деле нет хорошего ответа на этот вопрос. Это будет зависеть от вашей отрасли и области применения. Если ваша модель имеет серьезные последствия, например, для заявок на ипотеку, вам потребуется более строгое отсечение. Отсечка может быть даже определена законом. В любом случае важно определить пороговые значения, прежде чем измерять справедливость.

Ложноотрицательный показатель

В некоторых случаях может потребоваться зафиксировать негативные последствия модели. Это можно сделать с помощью FNR, показанного на рис. 8. Опять же, в знаменателе указано количество фактических положительных результатов. За исключением того, что теперь у нас есть количество неверно предсказанных минусов в качестве числителя. Другими словами, FNR — это процент фактического положительного результата, ошибочно спрогнозированного как отрицательный.

FNR можно интерпретировать как процент людей, которые неправомерно не воспользовались моделью. Например, это может быть процент клиентов, которые должны были получить кредит, но не. Для нашей модели это процент лиц с высоким доходом, которые, по прогнозам, имели низкий доход.

Вы можете увидеть FNR для нашей модели в таблице 7. Теперь FNR выше для непривилегированных групп. Другими словами, более высокий процент привилегированной группы неправомерно не получил выгоды. В этом смысле мы получаем такой же вывод, как и при использовании TPR с уравновешенными шансами. То есть модель представляется несправедливой по отношению к непривилегированным группам.

На самом деле требование равенства FNR дало бы нам то же определение, что и равные возможности. Это связано с линейной зависимостью, наблюдаемой в уравнении 1. Другими словами, равные TPR будут означать, что у нас также есть равные FNR. Вы должны иметь в виду, что теперь нам потребуется, чтобы отношение было меньше некоторого порогового значения (Уравнение 2).

Может показаться излишним определять равные возможности с помощью FNR. Однако в некоторых случаях формулировка определения с использованием негативных последствий может лучше донести вашу точку зрения. Например, предположим, что мы строим модель для прогнозирования рака кожи. FNR будет давать процент людей, у которых был рак, но у которых не было диагностировано рак. Эти ошибки потенциально могут быть смертельными. В конечном счете, такое определение справедливости может лучше подчеркнуть последствия наличия несправедливой модели.

Уравненные шансы

Еще один способ, которым мы можем воспользоваться преимуществами модели, — это посмотреть на коэффициенты ложных срабатываний (FPR). Как видно на Рис. 10, знаменатель — это количество фактических отрицательных результатов. Это означает, что TPR представляет собой процент фактических отрицательных результатов, ошибочно спрогнозированных как положительные. Это можно интерпретировать как процент людей, которые неправомерно воспользовались моделью. Например, это будет процент неквалифицированных людей, получивших предложение о работе.

Для нашей модели FPR будет давать количество людей с низким доходом, которые прогнозируются как имеющие высокий доход. Вы можете увидеть эти значения в таблице 8. Опять же у нас более высокие ставки для привилегированной группы. Это говорит нам о том, что более высокий процент привилегированной группы неправомерно извлек выгоду из модели.

Это приводит нас ко второму определению честности, уравнению шансов. Как и в случае с равными возможностями, это определение требует, чтобы TPR были равны. Теперь мы также требуем, чтобы FPR были равны. Это означает, что равные шансыможно рассматривать как более строгое определение честности. Также имеет смысл то, что для того, чтобы модель была справедливой, общая выгода должна быть одинаковой. То есть одинаковый процент групп должен получать как правомерную, так и неправомерную выгоду.

Преимущество уравненных шансов состоит в том, что не имеет значения, как мы определяем нашу целевую переменную. Предположим вместо этого, что Y = 0 приводит к выгоде. В этом случае интерпретации TPR и FPR меняются местами. TPR теперь фиксирует неправомерную выгоду, а FPR теперь фиксирует законную выгоду. Уравненные коэффициенты уже используют обе эти ставки, поэтому интерпретация остается прежней. Для сравнения, интерпретация равных возможностей меняется, поскольку она учитывает только TPR.

Разное влияние

Наше последнее определение справедливости — это несоизмеримое влияние (DI). Начнем с расчета показателей ППС, показанных на Рис. 12. Это процент людей, которые были правильно (TP) или неправильно (FP) предсказаны как положительные. Мы можем интерпретировать это как процент людей, которые выиграют от модели.

Для нашей модели это процент людей, которые, по нашим прогнозам, будут иметь высокий доход. Вы можете увидеть эти значения в таблице 9. Опять же, эти цифры говорят о том, что модель несправедлива по отношению к непривилегированной группе. То есть меньший процент из них пользуется моделью. Хотя при интерпретации этих значений следует учитывать недостаток этого определения. Мы обсудим это в конце раздела.

В рамках DI мы считаем модель справедливой, если у нас одинаковые коэффициенты ППС ( Уравнение 1). Опять же, на практике мы используем отсечку, чтобы дать некоторую свободу действий. Это определение должно представлять юридическую концепцию несопоставимого воздействия. В США существует юридический прецедент для установки порогового значения 0,8. То есть PPP для непривилегированной группы не должен быть меньше 80% от PPP для привилегированной группы.

Проблема с DI заключается в том, что он не принимает во внимание наземную правду. Вспомните значения распространенности в исследовательском анализе. Мы видели, что они были перекошены. Где у нас были более высокие значения для привилегированной группы. Для совершенно точной модели у нас не было бы ложных срабатываний. Это означает, что коэффициент распространенности будет таким же, как и коэффициент несоизмеримого воздействия. Другими словами, даже для идеально точной модели у нас все еще может быть низкий несопоставимый коэффициент воздействия.

В некоторых случаях может иметь смысл ожидать равной распространенности или DI. Например, мы ожидаем, что модель предскажет равный процент мужчин и женщин, которые будут качественными кандидатами на работу. В других случаях это не имеет смысла. Например, более светлая кожа более восприимчива к раку кожи. Мы ожидаем более высокой распространенности рака кожи у людей со светлой кожей. В этом случае низкий коэффициент DI не является признаком несправедливой модели.

Код определения справедливости

Мы используем функцию fairness_metrics, чтобы получить все приведенные выше результаты. Это берет DataFrame с фактическими (y) и прогнозируемыми целевыми значениями (y_pred). Он использует их для создания матрицы путаницы (строка 5). Здесь те же 4 значения, что и на рис. 4. Мы получаем эти 4 значения (строка 6) и используем их для расчета показателей справедливости (строки 8–13). Затем мы возвращаем эти показатели в виде массива (строка 15).

Ниже вы можете увидеть, как мы используем эту функцию для функции защиты от гонки. Мы начинаем с передачи подгрупп населения в функцию fairness_metrics. В частности, мы получаем показатели для привилегированных (строка 2) и непривилегированных (строка 3) групп. Затем мы можем взять отношение непривилегированных показателей к привилегированным (строка 6).

Почему наша модель предвзята?

Основываясь на различных определениях справедливости, мы увидели, что наша модель несправедлива по отношению к непривилегированным группам. Однако эти определения не говорят нам, почему наша модель несправедлива. Для этого нам нужно провести дополнительный анализ. Хорошее место для начала — вернуться к нашему первоначальному исследовательскому анализу.

Например, используя взаимную информацию, мы увидели, что семейное положение является потенциальной прокси-переменной для пола. Мы можем начать понимать, почему это так, взглянув на разбивку в таблице 10. Помните, что семейный статус = 1 указывает на то, что человек женат. Мы видим, что 62% мужчин женаты. В то время как только 15% женщин в популяции замужем.

В таблице 11 мы видим, что распространенность более чем в 6 раз выше среди тех, кто состоит в браке. Модель будет использовать отношения при прогнозировании. То есть более вероятно, что те, кто женат, зарабатывают более 50 тысяч долларов. Проблема в том, как мы видели выше, что большинство этих женатых людей будут мужчинами. Другими словами, женщины с меньшей вероятностью будут замужем, и поэтому модель с меньшей вероятностью предскажет, что они зарабатывают более 50 тысяч долларов.

В конце концов, предстоит еще много работы, чтобы полностью объяснить, почему эта модель несправедлива. При этом нам необходимо учитывать все возможные причины несправедливости. В этой статье мы затронули некоторые из них. Вы также можете подробно прочитать о них в первой статье ниже. Следующим шагом будет исправить несправедливость. Мы рассмотрим как количественные, так и неколичественные подходы во второй статье ниже.

5 причин, по которым ваша модель дает несправедливые прогнозы
Распространенные источники систематической ошибки — историческая систематическая ошибка, прокси-переменные, несбалансированные наборы данных, выбор алгоритма и взаимодействие с пользователемtowardsdatascience.com

Устранение несправедливости в машинном обучении
Количественные подходы предварительной обработки, обработки и последующей обработки. А также неколичественные подходы…towardsdatascience.com

Я надеюсь, что вы нашли эту статью полезной! Если вы хотите увидеть больше, вы можете поддержать меня, став одним из моих приглашенных участников. Вы получите доступ ко всем статьям на Medium, а я получу часть вашего гонорара.

Присоединяйтесь к Medium по моей реферальной ссылке — Конор О'Салливан
Как участник Medium, часть вашего членского взноса идет на авторов, которых вы читаете, и вы получаете полный доступ ко всем история…conorosullyds.medium.com

Источники изображений

Все изображения мои собственные или взяты с www.flaticon.com. В случае последнего у меня есть Полная лицензия, как определено в их Премиум-плане.

Набор данных

Кохави, Р., и Барри Беккер, Б. (1996), Набор данных для взрослых,Ирвин, Калифорния: Калифорнийский университет, Школа информационных и компьютерных наук (лицензия : CC0: Public Domain) https://archive.ics.uci.edu/ml/datasets/adult

Анализ справедливости в машинном обучении (с Python)

Набор данных

Исследовательский анализ справедливости алгоритма

Несбалансированные наборы данных

Определение защищенных функций

Распространенность

Прокси-переменные

Моделирование

Определения справедливости

Точность

Равные возможности (истинно положительный показатель)

Ложноотрицательный показатель

Уравненные шансы

Разное влияние

Код определения справедливости

Почему наша модель предвзята?

Источники изображений

Набор данных

Рекомендации

смотрите также:

Новые материалы

Объяснение документов 02: BERT

Как проанализировать работу вашего классификатора?

Работа с цепями Маркова, часть 4 (Машинное обучение)

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Учебные заметки: создание моего первого пакета Node.js

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Метки