Наука о данных — это не создание сложных моделей или выдающихся визуализаций и не написание кода. Наука о данных больше связана с использованием данных для оказания влияния на компании. Какое воздействие?

Воздействие несколькими способами, такими как идеи, рекомендации продуктов или продукты данных. Для выполнения таких задач вам нужны сложные модели, визуализация данных или написание кода.

Но на самом деле ваша работа как ученого данных состоит в том, чтобы решить проблему, используя данные. Важны данные, независимо от того, какие инструменты вы используете. Вы можете наблюдать множество неправильных представлений о науке о данных, по которой YouTube находится на вершине.

Это показывает идеальное несоответствие между тем, о чем популярно говорить, и тем, что необходимо в мейнстриме.

Здесь вы проясните многие из своих неправильных представлений об этом поле.

Взгляд в историю науки о данных

До науки о данных был популярный термин «интеллектуальный анализ данных». В популярной статье 1998 года о интеллектуальном анализе данных говорилось о раскрытии всех процессов, позволяющих извлечь из данных полезную информацию.

В 2001 году Уильям С. Кливленд вывел интеллектуальный анализ данных на новый уровень. Он сделал это, объединив информатику и интеллектуальный анализ данных, добавив в статистику элемент технических деталей.

Действительно, отличная попытка расширить возможности интеллектуального анализа данных, чтобы войти в мир инноваций. Лучше всего искать преимущества вычислительной мощности для статистики.

Мощное сочетание информатики и интеллектуального анализа данных дает жизнь науке о данных.

Когда появился веб 2.0, создавший возможности для взаимодействия и обмена миром с триллионом и даже миллионом пользователей. Myspace в 2003 г. и Facebook в 2004 г. убедили пользователей оставить свой след с помощью лайков, репостов и комментариев на цифровой территории, которую мы сейчас называем Интернетом.

Все это помогло спроектировать и создать экосистему, которую вы знаете и любите сегодня. Здесь взаимодействие триллионов создает новый мир данных, с которым невозможно справиться с помощью традиционных технологий. Вот почему появился термин Большие данные.

Это открыло двери для возможности собирать жемчужины прозрения. Сложная инфраструктура является домом для больших данных, где технологии параллельных вычислений, такие как Hadoop и Spark, обрабатывают и хранят данные.

Искра больших данныхподдерживает потребности бизнеса, извлекая ценные сведения из массивных зашумленных наборов данных.

Журнал науки о данных определяет это как:

"Почти все связано с данными, сбором, анализом, моделированием. Тем не менее, важной частью являются его приложения, всевозможные приложения (включая машинное обучение)».

В 2010 году новое изобилие данных позволило обучать машины с помощью подходов, основанных на данных, а не на знаниях.

Все теоретические работы о повторяющихся нейронных сетях поддерживают работу с векторными машинами. Что-то, что изменит ваш образ жизни, способ познания всего в этом мире. Глубокое обучение больше не является теоретической концепцией, присутствующей в дипломных работах.

Более осязаемый, полезный класс машинного обучения, который влияет на повседневную жизнь.

Машинное обучение и ИИ доминируют в средствах массовой информации, затмевая такие аспекты науки о данных, как матрицы, исследовательский анализ, аналитика, эксперименты и бизнес-аналитика ETL.

Общественность считает специалистов по данным исследователями, занимающимися ИИ и машинным обучением. Тем не менее, отрасль нанимает специалистов по данным в качестве аналитиков. Похоже на существенное несоответствие.

Причина несоответствия в том, что большинство специалистов по данным работают над техническими проблемами. Быть хорошим специалистом по данным — это не то, насколько продвинуты ваши модели. Речь идет о том, как работает влияние, которое вы создаете с помощью своих данных.

Вы не уничтожаете данные; вы умеете решать проблемы.

Компании сдают неоднозначные, сложные ситуации; Ваша задача — показать им правильное направление.

Каковы основные потребности, чтобы стать специалистом по данным?

Вот пирамида потребностей специалистов по данным.

Сбор, хранение и преобразование данных, начиная с нижней линии пирамиды, являются основной задачей специалиста по данным. Вверху пирамиды начинается аналитическая часть. Например, какие у вас есть сведения о компании и ее продуктах.

Матрицы аппроксимируют успех продуктов, а A/B-тестирование показывает, какая версия продукта будет пользоваться спросом на рынке. Чтобы во всем этом разобраться, компании требуются специалисты по данным.

Тем не менее, аналитика и показатели менее в центре внимания. В центре внимания находится глубокое обучение ИИ. Но глубокое обучение не является высшим приоритетом, если вы думаете о небольшой компании или отрасли. Для них важна аналитика и A/B-тестирование.

Настоящая работа специалиста по данным зависит от потребностей отрасли или компании.

  • Например, если отрасль имеет ограниченные ресурсы данных, за исключением глубокого обучения, специалист по данным будет нести ответственность за все, что содержит пирамида, создавая инфраструктуру данных. Лучше всего было бы писать программные коды для входа в систему, аналитики, метрик и A/B-тестирования.
  • Но если вы работаете в компании с большим количеством ресурсов, они могут разделить инженеров данных и специалистов по данным. Снова взглянув на пирамиду, инженеры-программисты будут выполнять такие задачи, как сбор данных, а инженеры данных будут выполнять функции преобразования данных. Ваша работа, как специалиста по данным, будет заключаться в аналитике, матрицах и глубоком обучении ИИ. Вот почему эти компании нанимают людей с докторской степенью. и степени магистра, чтобы делать сложные вещи с гораздо большей легкостью.
  • Переход к крупным стартапам, где для каждой секции нанимаются преданные сотрудники для достижения максимальной отдачи. Здесь инженеры-программисты занимаются сбором данных. Инженеры данных берут на себя головную боль по очистке и созданию конвейеров данных. Исследователи данных используют аналитику, показатели и A/B-тестирование. Тем не менее, глубокое обучение ИИ находится в ведении ученых-исследователей и ядра науки о данных при поддержке инженеров по машинному обучению.

Заключение

Надеюсь, эта статья поможет вам исправить многие заблуждения о науке о данных. Познакомить вас с истинным смыслом и целью этого поля.

Вот несколько основных выводов:

  • Наука о данных — это идеальное сочетание информатики и интеллектуального анализа данных.
  • Появление популярной жизни Web 2.0 в больших данных придало смысл науке о данных.
  • В зависимости от уровня отрасли задача, поставленная перед специалистом по данным, будет отличаться.