Введение

В этом руководстве мы обсудим важность наличия разнообразия в ваших наборах данных машинного обучения (ML) или искусственного интеллекта (AI). Мы все прекрасно понимаем, что для эффективного использования модели машинного обучения или искусственного интеллекта для решения конкретной задачи крайне важно иметь качественные обучающие данные для самой модели. Независимо от того, насколько эффективна или точна модель, если она снабжена набором данных низкого качества и обучена на нем, она никогда не даст желаемого или правильного результата. Одним из важных атрибутов качества любого набора данных, независимо от проблемы, является разнообразие. В этом уроке мы поговорим о том, почему разнообразие данных важно для ваших моделей и какими способами вы можете внести разнообразие и изменчивость в свои наборы данных. Итак, не теряя времени, приступим!

Почему важно разнообразие в наборе данных?

Мы говорили о наличии разнообразных данных в наборе данных, но что такое разнообразие и зачем оно вообще нам нужно? Разнообразие — это в основном разнообразие ваших данных. Иногда при попытке решить проблему с помощью моделей машинного обучения или искусственного интеллекта объем данных, которые мы собираем, может быть слишком большим, что может серьезно повлиять на производительность модели. Что делать тогда? Что ж, вы определенно можете сократить данные, чтобы ваша модель могла обрабатывать их быстрее, но как насчет всей той ценной информации, которую вы потеряете, если удалите важные данные из своего набора данных? Конечно, это снизит точность вашей модели. Главный вопрос, который сейчас возникает, заключается в том, как найти золотую середину, при которой ваш набор данных имеет подходящий размер для того, чтобы модель могла обработать его за разумное время, и чтобы информация, содержащаяся в наборе данных, была достаточно изменчивой, чтобы справиться с полной нагрузкой. диапазон случаев, с которыми должна будет столкнуться предполагаемая система? Ответ прост: РАЗНООБРАЗИЕ.

Иногда, когда наборы данных слишком велики, единственный способ сделать с ними что-то полезное — это извлечь из них гораздо меньшие подмножества и вместо этого проанализировать эти подмножества. Подмножества, однако, должны быть достаточно разнообразными, чтобы модель могла научиться справляться со всеми различными причинами проблемы, которую она пытается решить. Использование различных подмножеств гораздо более практично по сравнению с использованием набора данных, скажем, с миллионом точек данных, поскольку его невозможно использовать на настольном компьютере. Возьмем пример модели распознавания и классификации лиц. Если эта модель обучена на наборе данных изображений, на которых изображены разные лица людей, и для каждого человека есть изображения, снятые с разных ракурсов, при меняющихся условиях освещения, с разного расстояния от объектива камеры, на контрастном фоне и т. д. Тогда модель, скорее всего, будет более точно классифицировать лица по сравнению с обучением на наборе данных, содержащем тысячи похожих типов изображений. Короче говоря, репрезентативные и разнообразные наборы данных с большей вероятностью дадут полезную информацию по сравнению с теми, которые не охватывают все аспекты рассматриваемой проблемы.

Как ввести разнообразие в набор данных?

Разнообразие в наборе данных может быть достигнуто целым рядом способов. Если вы собираете данные только откуда-то, вы можете включать в них различные элементы данных, собирая соответствующие данные из разных ресурсов, а не только из одного ресурса. Кроме того, учет контекста проблемы, которую должна решить модель, помогает в процессе устранения различных ресурсов, из которых вы можете собирать данные, и оставляет лишь несколько подлинных источников данных. Существует множество источников открытых наборов данных, которые вы можете использовать.

Если вы собираете элементы данных самостоятельно, например. вы делаете снимки для задачи классификации изображений, вы можете убедиться, что ваш набор данных максимально разнообразен и вариабелен:

  • Съемка под разными углами.
  • Фотосъемка при разном освещении.
  • Фотосъемка на различном расстоянии объектива камеры от рассматриваемого объекта.
  • Изменение размера и формы объекта, если это возможно, а затем фотографирование.
  • Изменение фона рассматриваемого объекта, а затем фотографирование.
  • В случае цветного объекта, фотографирование состоит из разных цветов.

Те же концепции разнообразия могут применяться и к наборам данных, состоящим из данных другого типа и характера.

Если вы хотите включить разнообразие в подмножество большого набора данных, одним из способов может быть создание матрицы подобия, которая по сути представляет собой огромную таблицу, состоящую из точек, и которая сопоставляет каждую точку в наборе данных с каждой другой точкой. Точка пересечения строки, представляющей один элемент данных, и столбца, представляющего другой, представляет собой оценку сходства точек по некоторому стандартному показателю. Однако этот метод работы с матрицами может быть довольно трудоемким и ресурсоемким, поскольку речь идет практически о миллионе элементов данных в матрице. Вы можете выбрать различные алгоритмы, чтобы включить изменчивость в ваши подмножества, например. Алгоритм исследователя Массачусетского технологического института. В этом алгоритме случайно выбирается небольшое подмножество из гораздо большего набора данных, а затем алгоритм также случайным образом выбирает одну точку внутри подмножества и другую вне его. Затем он выбирает любую из трех простых операций, т. е. замену точек, добавление точки вне подмножества к подмножеству или удаление точки внутри подмножества на основе ряда факторов, включая размер большого множества, размер самого подмножества и т. д. Этот процесс продолжается до тех пор, пока подмножество не станет достаточно разнообразным, чтобы соответствовать определенному измеримому уровню.

Справедливость и этика

Как упоминалось выше, одним из способов получения разнообразных данных является их сбор из разных ресурсов. Однако при этом важно помнить о справедливости, этике, ценностях и нравственности. Если вы собираете данные, например, из веб-сайте, важно, чтобы вы сначала запросили разрешение у владельца данных, прежде чем использовать их для своей работы или личного использования. Вы можете официально сделать это, отправив заинтересованному лицу электронное письмо или связавшись с ним любым другим способом, если это возможно, вместо того, чтобы получать к нему доступ без официального согласия. Кроме того, вы также должны предоставить ссылки на различные источники, из которых вы собрали данные, в вашей официальной документации или где-либо еще, где вы можете.

Нужно разнообразие в вашем наборе данных? Позвольте нам ПОМОЧЬ вам!

Учитывая характер процесса, краудсорсинг — очень эффективный способ разнообразить ваши данные. Здесь, в Selectstar, мы краудсорсинг передаем наши задачи различным пользователям по всему миру, чтобы одновременно обеспечить качество и количество. Более того, наши штатные менеджеры перепроверяют качество собираемых или обрабатываемых данных!

Создание и поддержание разнообразия в вашем наборе данных — непростая задача. Думать и поддерживать все упомянутые выше вещи довольно тяжело. В частности, для малых и средних компаний управление человеческими ресурсами и техническими специальностями является очень сложной задачей. Поэтому зачастую эффективнее найти другой сервис, который сделает за вас кропотливую работу (включая как сбор, так и предварительную обработку). Для этого мы могли бы быть вашим идеальным решением! Посетите нас на selectstar.ai для получения дополнительной информации! Позвольте нам быть вашей ПОМОЩЬЮ!

Вывод

Подводя итог, в этом уроке мы начали с разговора о том, как важно иметь набор данных, соответствующий определенному стандарту качества, и одной из очень важных составляющих набора данных хорошего качества является разнообразие. Как правило, хороший набор данных состоит из большого количества обучающих данных. Разнообразие обучающих данных гарантирует, что они могут предоставить модели более различительную информацию, чтобы она могла точно предсказывать результаты. Затем мы обсудили способы, которыми можно внести разнообразие в свой набор данных, например. путем сбора данных из разных источников, использования разных алгоритмов для получения разнообразного подмножества из большого набора данных и т. д. Наконец, мы коснулись этики и кодекса поведения, которые следует соблюдать при введении изменчивости в набор данных.