Практика осознанного сбора данных в успешном искусственном интеллекте

* контент синдикации из Applied AI blog Mind Data

В современном развитии технологий искусственного интеллекта машинное обучение всегда ассоциировалось с ИИ, и во многих случаях машинное обучение считается эквивалентом искусственного интеллекта. Машинное обучение на самом деле является подмножеством искусственного интеллекта, эта дисциплина машинного обучения полагается на данные для выполнения обучения ИИ, контролируемого или неконтролируемого.

Машинное обучение с учителем - это обучение машины с использованием выборки помеченных данных класса для обучения машины тому, что правильно, а что нет. Таким образом, после тысяч или миллионов выборок данных машина начинает понимать и наблюдать закономерности.

С другой стороны, обучение без учителя позволяет машине учиться самостоятельно, пытаясь идентифицировать шаблон на основе предоставленных данных. Машине не сообщается, какие данные полезны, а какие нет, и какие данные верны.

В обоих вышеупомянутых случаях наиболее важным фактором является не процесс обучения, а качество данных. По моему опыту в науках о данных, а также в проектах прикладного интеллекта, самая трудоемкая часть - это не ожидание, пока машина обучится, а подготовка данных, необходимых для обучения машины.

В среднем 80% времени, которое моя команда тратит на проекты в области искусственного интеллекта или науки о данных, посвящена подготовке данных. Подготовка данных включает, помимо прочего:

  1. Идентифицировать требуемые данные
  2. Определите доступность данных и их местонахождение
  3. Профилирование данных
  4. Источник данных
  5. Интеграция данных
  6. Очистить данные
  7. подготовить данные для обучения

Даже у меня есть только 7 шагов, эти 7 шагов определят, будет ли ваш проект машинного обучения успешным или еще одним распространенным провалом.

Как избежать сбоя машинного обучения с помощью Mindful AI Data Collection

Чтобы не тратить слишком много времени на подготовку данных и в конечном итоге получить возможность не привносить ценности в ваш проект искусственного интеллекта с машинным обучением, я бы посоветовал попрактиковаться в «внимательном сборе данных». Между прочим, это не каламбур для названия Mind Data.

Что такое «внимательный сбор данных»?

Осознанный сбор данных - это практика рассмотрения использования данных до того, как вы даже создадите их в своей среде. В типичном случае, когда вы создаете данные в своей экосистеме, вы думаете только по одной причине: транзакционная. Данные создаются, потому что нам нужно выполнить транзакцию в нашей системе, мы определяем данные так, как мы хотим. Осознанный сбор данных - это еще один шаг вперед. Внимательный сборщик данных рассмотрит, существуют ли такие точки данных уже в организации.

Если точка данных уже существует в организации, лучше использовать метаданные и формат, чем изобретать колесо. Чтобы практиковать внимательные данные, есть несколько мест, которые вы можете просмотреть:

  1. существующий словарь данных
  2. ваша организация управления данными
  3. владельцы основных процессов в организации
  4. стандарты публичных данных

Сбор данных Mindful AI включает в себя качество данных Mindful

Внимательный сбор данных в искусственном интеллекте / машинном обучении касается не только того, как собираются данные, качество данных также важно. На качество данных влияет множество факторов

  1. требования к качеству данных
  2. правила данных
  3. политика данных

Многие из моих клиентов раньше рассматривали качество данных как возможность управления или исправление, необходимое для управления данными как стратегическим активом. Они не ошибаются, но сбор данных и качество данных - это нечто большее, чем в современном мире.

Возможности и ценность управления сбором данных, а также качество данных с самого начала огромны. Помните, я говорил о том, что 80% времени во время проектов по машинному обучению или науке о данных тратится на очистку данных и управление ими? Представьте, что вы можете сэкономить или сократить время на 50%?

Представьте себе, сколько долларов драгоценного времени квалифицированные (и дорогие) специалисты по науке о данных и машинному обучению вы можете сэкономить, проявив чуть большую внимательность?

Представьте себе гибкость и маневренность вашей команды, если вы сократите столько времени на все гипотезы?

Если вы считаете, что в вашей организации есть возможность воспользоваться преимуществами сбора осознанных данных, изучите его и примените.

Дайте мне знать, что вы думаете, или если у вас возникнут вопросы. Это интеллектуальный анализ данных.