Данные — это основа любой модели машинного обучения. Вот как бороться с предвзятостью, перекрестным загрязнением и нечисловыми входными данными.

Данные — это основа любой модели машинного обучения. Действительно, есть сходство между данными, необходимыми для машинного обучения, и любым другим проектом, ориентированным на данные. Во всех видах проектов руководители высшего звена должны проявлять надлежащий уровень осмотрительности, чтобы гарантировать, что данные надежны, непротиворечивы и полны. Однако некоторые проблемы с данными относятся к машинному обучению. При работе с данными в проектах машинного обучения полезно учитывать:

Сколько данных требуется?

Существует ли вероятность перекрестного загрязнения данных?

Есть ли предвзятость в данных?

Как обрабатываются нечисловые данные?

Сколько?

Хотя каждая задача машинного обучения уникальна, а количество требуемых данных зависит от сложности упражнения и качества данных, ответ часто «меньше, чем вы думаете».

Хотя термин «машинное обучение» часто сочетается с термином «большие данные», на самом деле машинное обучение также может применяться к наборам данных, исчисляемым тысячами или даже сотнями.

Чтобы проверить это, мы применили общие алгоритмы машинного обучения с учителем, в которых мы взвешивали 30 отдельных входных данных, чтобы не отдавать предпочтение одному входному сигналу над другим. Затем они были выбраны случайным образом для создания выходных данных. Аналитик-человек никогда не смог бы точно предсказать результат на основе этого случайно взвешенного набора данных. Однако многие алгоритмы машинного обучения предсказывали результат с точностью более 90% после 4000 наблюдений. Большие данные не нужны для того, чтобы машинное обучение было полезным.

Потенциал для «перекрестного загрязнения» и связывания с блокчейном

При обучении модели машинного обучения данные делятся на наборы для обучения и тестирования. Алгоритм оптимизирует свои прогнозы на обучающем наборе перед использованием тестового набора для определения его точности. Важно следить за тем, чтобы данные в одном наборе не загрязняли другой набор.

Разделение данных на основе случайного выбора может создать проблемы, если в наборе данных есть несколько наблюдений за одним и тем же входом с течением времени. Например, предположим, что розничная компания хочет построить прогноз прибыльности магазина, используя ежемесячные наблюдения прибыльности для всех точек за последние пять лет. Случайное разделение данных приведет к тому, что и обучающий, и тестовый наборы будут включать наблюдения за одним и тем же магазином.

В этом сценарии, даже если мы удалим идентификаторы магазинов из данных, алгоритмы машинного обучения все равно смогут определить, какой магазин является каким, и точно предсказать прибыльность каждого магазина. Алгоритм может начать прогнозировать прибыльность на основе идентификатора магазина, а не других факторов, о которых мы надеялись получить представление. Результаты теста по сравнению с поездом будут отражать искусственно завышенную точность из-за перекрестного загрязнения данных.

Мы можем решить эту проблему, убедившись, что мы явно разделяем наборы для обучения и тестирования. В приведенном выше примере мы могли бы случайным образом назначать хранилища обучающему набору или набору тестов без перекрытия между ними, в отличие от случайного назначения ежемесячных наблюдений. Это привело бы к более надежным прогнозам, дающим представление об интересующих нас факторах.

Есть ли предвзятость?

Ключевым преимуществом алгоритмов машинного обучения является то, что они не применяют эвристики и предубеждения, распространенные при принятии решений человеком. Алгоритмы используют только предоставленные данные и функции для разработки оптимального метода прогнозирования. Оборотная сторона заключается в том, что если в данных есть погрешность, алгоритмы не смогут ее отменить или исправить.

Этот факт стал очевидным, когда аудит компании по проверке резюме, основанной на машинном обучении, показал, что «хорошие кандидаты на работу» чаще всего (1) были названы Джаредом и (2) играли в лакросс в старшей школе.

Те, кто создавал рассматриваемый алгоритм, вероятно, предполагали, что, опуская такие факторы, как раса, пол или происхождение, они создавали непредвзятую модель. Однако использованные данные по-прежнему содержали неявные предубеждения (все Джареды, играющие в лакросс, отбираются, исключая других хороших кандидатов), что приводило к непростительно предвзятым выводам. Рейтинги выступлений предыдущих кандидатов были предвзятыми, поскольку они были сделаны людьми определенной расы и происхождения, что приводило к предвзятым результатам алгоритма.

Блокчейн-проекты, такие как Algorand, уже разработали инфраструктуру для будущих решений по управлению и масштабированию Интернета вещей.



Новый протокол Algorand работает быстро. С теоретической точки зрения, это оптимально эффективно, если дорабатывать блоки за один раунд голосования. На практике это значительно увеличит количество транзакций в секунду и гарантирует, что каждый блок будет мгновенно завершен.

В этом примере предыстория (факторы) кандидатов, включая их рейтинг (результат), использовались для прогнозирования рейтинга будущих кандидатов. Когда вы просите алгоритм предсказать будущие рейтинги, вы должны учитывать, являются ли исторические рейтинги в наборе данных предвзятыми, как это было в этом случае. Если результаты основаны на человеческом предубеждении, машина воспроизведет это предубеждение в своих прогнозах. В этом примере клиент запросил взвешивание функций и заметил это смещение. Обратите внимание, что компания, занимающаяся скринингом, этого не уловила, а опыт топ-менеджеров уловил.

Обработка нечисловых данных

При разработке алгоритма машинного обучения с учителем данные должны быть числовыми. Для количественных показателей, таких как выручка или прибыль, это не создает проблем.

Однако в большинстве проектов требуется интерпретация нечисловых данных, и неосторожное преобразование текста или меток в числовые данные может привести к потенциальным ловушкам. Например, аналитики могут преобразовать секторы компании в числовые индексы в алфавитном порядке. Этот подход может быть легко реализован, но он может, например, поместить «основные потребительские товары» рядом с «энергией», что может привести к тому, что алгоритмы часто распознают их как похожие.

Существует несколько способов преобразования нечисловых данных, таких как векторизация текста — преобразование текстовых меток и их частоты в числа, понятные машине, — или просто более тщательное определение того, как списки упорядочивать списки. Как заинтересованная сторона ваша команда должна рассмотреть подходящие варианты и изучить, как каждый из них влияет на точность результатов.

Модели машинного обучения хороши ровно настолько, насколько хороши данные, лежащие в их основе. Учитывая их опыт и взгляды, старшие заинтересованные стороны могут повысить ценность команд специалистов по данным, особенно в выявлении предвзятости и загрязнения. Специалисты по данным, работающие вместе с руководителями высшего звена, считают, что количество, качество, предвзятость и искажение данных — лучший способ успешного внедрения моделей машинного обучения.