Выбор и подготовка данных блокчейна для проектов машинного обучения

Данные — это основа любой модели машинного обучения. Вот как бороться с предвзятостью, перекрестным загрязнением и нечисловыми входными данными.

Данные — это основа любой модели машинного обучения. Действительно, есть сходство между данными, необходимыми для машинного обучения, и любым другим проектом, ориентированным на данные. Во всех видах проектов руководители высшего звена должны проявлять надлежащий уровень осмотрительности, чтобы гарантировать, что данные надежны, непротиворечивы и полны. Однако некоторые проблемы с данными относятся к машинному обучению. При работе с данными в проектах машинного обучения полезно учитывать:

Сколько данных требуется?

Существует ли вероятность перекрестного загрязнения данных?

Есть ли предвзятость в данных?

Как обрабатываются нечисловые данные?

Сколько?

Хотя каждая задача машинного обучения уникальна, а количество требуемых данных зависит от сложности упражнения и качества данных, ответ часто «меньше, чем вы думаете».

Хотя термин «машинное обучение» часто сочетается с термином «большие данные», на самом деле машинное обучение также может применяться к наборам данных, исчисляемым тысячами или даже сотнями.

Чтобы проверить это, мы применили общие алгоритмы машинного обучения с учителем, в которых мы взвешивали 30 отдельных входных данных, чтобы не отдавать предпочтение одному входному сигналу над другим. Затем они были выбраны случайным образом для создания выходных данных. Аналитик-человек никогда не смог бы точно предсказать результат на основе этого случайно взвешенного набора данных. Однако многие алгоритмы машинного обучения предсказывали результат с точностью более 90% после 4000 наблюдений. Большие данные не нужны для того, чтобы машинное обучение было полезным.

Потенциал для «перекрестного загрязнения» и связывания с блокчейном

При обучении модели машинного обучения данные делятся на наборы для обучения и тестирования. Алгоритм оптимизирует свои прогнозы на обучающем наборе перед использованием тестового набора для определения его точности. Важно следить за тем, чтобы данные в одном наборе не загрязняли другой набор.

Разделение данных на основе случайного выбора может создать проблемы, если в наборе данных есть несколько наблюдений за одним и тем же входом с течением времени. Например, предположим, что розничная компания хочет построить прогноз прибыльности магазина, используя ежемесячные наблюдения прибыльности для всех точек за последние пять лет. Случайное разделение данных приведет к тому, что и обучающий, и тестовый наборы будут включать наблюдения за одним и тем же магазином.

В этом сценарии, даже если мы удалим идентификаторы магазинов из данных, алгоритмы машинного обучения все равно смогут определить, какой магазин является каким, и точно предсказать прибыльность каждого магазина. Алгоритм может начать прогнозировать прибыльность на основе идентификатора магазина, а не других факторов, о которых мы надеялись получить представление. Результаты теста по сравнению с поездом будут отражать искусственно завышенную точность из-за перекрестного загрязнения данных.

Мы можем решить эту проблему, убедившись, что мы явно разделяем наборы для обучения и тестирования. В приведенном выше примере мы могли бы случайным образом назначать хранилища обучающему набору или набору тестов без перекрытия между ними, в отличие от случайного назначения ежемесячных наблюдений. Это привело бы к более надежным прогнозам, дающим представление об интересующих нас факторах.

Есть ли предвзятость?

Ключевым преимуществом алгоритмов машинного обучения является то, что они не применяют эвристики и предубеждения, распространенные при принятии решений человеком. Алгоритмы используют только предоставленные данные и функции для разработки оптимального метода прогнозирования. Оборотная сторона заключается в том, что если в данных есть погрешность, алгоритмы не смогут ее отменить или исправить.

Этот факт стал очевидным, когда аудит компании по проверке резюме, основанной на машинном обучении, показал, что «хорошие кандидаты на работу» чаще всего (1) были названы Джаредом и (2) играли в лакросс в старшей школе.

Те, кто создавал рассматриваемый алгоритм, вероятно, предполагали, что, опуская такие факторы, как раса, пол или происхождение, они создавали непредвзятую модель. Однако использованные данные по-прежнему содержали неявные предубеждения (все Джареды, играющие в лакросс, отбираются, исключая других хороших кандидатов), что приводило к непростительно предвзятым выводам. Рейтинги выступлений предыдущих кандидатов были предвзятыми, поскольку они были сделаны людьми определенной расы и происхождения, что приводило к предвзятым результатам алгоритма.

Блокчейн-проекты, такие как Algorand, уже разработали инфраструктуру для будущих решений по управлению и масштабированию Интернета вещей.

Первая блокчейн-платформа Pure Proof of Stake
Мы — технологическая компания, которая построила и разработала первую в мире открытую, не требующую разрешений, чистую Proof-of-Stake… www.algorand.com

Новый протокол Algorand работает быстро. С теоретической точки зрения, это оптимально эффективно, если дорабатывать блоки за один раунд голосования. На практике это значительно увеличит количество транзакций в секунду и гарантирует, что каждый блок будет мгновенно завершен.

В этом примере предыстория (факторы) кандидатов, включая их рейтинг (результат), использовались для прогнозирования рейтинга будущих кандидатов. Когда вы просите алгоритм предсказать будущие рейтинги, вы должны учитывать, являются ли исторические рейтинги в наборе данных предвзятыми, как это было в этом случае. Если результаты основаны на человеческом предубеждении, машина воспроизведет это предубеждение в своих прогнозах. В этом примере клиент запросил взвешивание функций и заметил это смещение. Обратите внимание, что компания, занимающаяся скринингом, этого не уловила, а опыт топ-менеджеров уловил.

Обработка нечисловых данных

При разработке алгоритма машинного обучения с учителем данные должны быть числовыми. Для количественных показателей, таких как выручка или прибыль, это не создает проблем.

Однако в большинстве проектов требуется интерпретация нечисловых данных, и неосторожное преобразование текста или меток в числовые данные может привести к потенциальным ловушкам. Например, аналитики могут преобразовать секторы компании в числовые индексы в алфавитном порядке. Этот подход может быть легко реализован, но он может, например, поместить «основные потребительские товары» рядом с «энергией», что может привести к тому, что алгоритмы часто распознают их как похожие.

Существует несколько способов преобразования нечисловых данных, таких как векторизация текста — преобразование текстовых меток и их частоты в числа, понятные машине, — или просто более тщательное определение того, как списки упорядочивать списки. Как заинтересованная сторона ваша команда должна рассмотреть подходящие варианты и изучить, как каждый из них влияет на точность результатов.

Модели машинного обучения хороши ровно настолько, насколько хороши данные, лежащие в их основе. Учитывая их опыт и взгляды, старшие заинтересованные стороны могут повысить ценность команд специалистов по данным, особенно в выявлении предвзятости и загрязнения. Специалисты по данным, работающие вместе с руководителями высшего звена, считают, что количество, качество, предвзятость и искажение данных — лучший способ успешного внедрения моделей машинного обучения.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning