Мои мысли о том, как лучше всего войти и продвинуться в области науки о данных…
Здравствуйте, можно вопрос? Какие основные навыки необходимы специалисту по обработке и анализу данных, чтобы добиться успеха? Я могу гарантировать, что ответ на этот вопрос зависит от человека и фирмы. Должен признать, что на этот вопрос нет однозначного объективного ответа. Но мне, как специалисту по данным, всегда было интересно, почему. Если мы можем создавать беспилотные автомобили и прогнозировать будущее, почему мы не можем объективно ответить на этот вопрос? Итак, позвольте мне объяснить, почему ответить на этот вопрос сложно, а также свои мысли о том, какими навыками должен обладать специалист по данным и как лучше всего их развивать.
Этот блог не предназначен для предоставления технических ресурсов. Скорее, я сосредоточусь на том, чтобы изменить вашу точку зрения и направить вас на путь входа и роста в области науки о данных.
Итак, возвращаясь к моему исходному вопросу, почему так сложно определить способности, необходимые специалисту по данным? Это, на мой взгляд, связано с тремя основными факторами:
- В последние годы словосочетание «специалист по данным стало размытым»
- Культура компании
- Разделение труда
Любой, кто следит за этим доменом в течение нескольких лет, несомненно, согласится со мной по первым двум пунктам. Действительно, в последние годы термин «ученый данных» стал размытым; теперь специалист по данным может играть любую роль, начиная от постановки бизнес-задач и заканчивая развертыванием и мониторингом моделей. Во-вторых, на роль специалиста по данным могут влиять культура компании и зрелость данных. Поработав с рядом авторитетных фирм и несколькими стартапами, я обнаружил, что для работы специалистом по данным в стартапе на его ранних стадиях требуется больше деловой хватки, чем технических навыков.
Наконец, что наиболее важно, существует «разделение труда». Адам Смит использует яркий пример конвейерной фабрики по производству булавок в Богатстве народов, чтобы объяснить, как разделение труда является основным источником повышения производительности. Задачи анализа данных, такие как изготовление булавок, требуют множества процессов, поэтому организации обычно нанимают специалистов, таких как инженеры данных, ученые-экспериментаторы, специалисты по машинному обучению и т. д. Менеджер по продукту наблюдает за работой и занимается передачей функций между функциями.
Из-за такого разделения труда многие специалисты по данным в конечном итоге занимаются моделированием данных, что создает впечатление, что специалистам по данным нужны только навыки, связанные с данными, и ничего больше. Позвольте мне сказать вам, что это совершенно неверно, поэтому я назвал блог «Ученый по данным — это больше, чем просто ученый по данным».
Вот почему, вместо того, чтобы быть специалистом только в одной области, знания специалиста по обработке и анализу данных должны иметь форму пи-формы, с хорошим горизонтальным знанием всего сквозного процесса и глубокие знания в 1-2 конкретных областях. Ученый по данным должен быть скорее универсалом, чем специалистом.
Когда вы спрашиваете пару специалистов по обработке и анализу данных о том, как стать экспертом в этой области, наиболее распространенным ответом будет «конкурсы Kaggle». Однако суровая реальность такова, что соревнования Kaggle не подготовят вас к реальному миру. Без сомнения, Kaggle — хорошее место для новичков и тех, кто хочет создать профиль. Однако после первого этапа обучения Kaggle не дает представления о реальных задачах.
Трудно поверить? Я узнал об этом на собственном горьком опыте, когда начал свой практический проект в Kiva Organization в рамках курсовой работы MSBA. Вот несколько причин, по которым экспериментальное обучение лучше, чем соревнования Kaggle.
1. Мыслительный процесс решения проблем
Реальные проекты не похожи на соревнования Kaggle, Kaggle предлагает вам четкое представление о проблеме, имеющихся данных, требуемом решении, а иногда и о том, что нужно сделать. Так что вам почти не о чем подумать и подумать.
Однако в реальном мире ваши формулировки проблем чаще всего не имеют точного определения или представляют собой открытые бизнес-задачи. В большинстве случаев анализ начинается с преобразования бизнес-проблемы в аналитическую задачу, а затем экспериментирует с различными аналитическими методологиями для ее решения.
В рамках моего практического проекта в Kiva нам дали очень расплывчатую бизнес-задачу; нам потребовалось примерно 3-4 недели, чтобы полностью понять бизнес Kiva, затем бизнес-проблему и, в конечном счете, определить бизнес-проблему. Затем, чтобы убедиться, что мы на правильном пути, мы объяснили свое понимание и предложили множество подходов к проблеме. Именно тогда мы пришли к соглашению по проблеме и подходу. Это предоставило нам безопасную среду для мозгового штурма, генерации инновационных и креативных идей, быстрой проверки работоспособности и, при необходимости, уничтожения идей.
2. Сбор и очистка данных
Наборы данных уже доступны в соревнованиях Kaggle, и они часто чистые и хорошо структурированные. Это ограничивает ваше мышление; вы понимаете проблему и пробуете разные методы, чтобы выяснить, какой из них работает лучше всего. В реальном мире, однако, наша ответственность как специалистов по данным заключается в том, чтобы понять проблему и найти ключевой список атрибутов данных, которые были бы полезны из огромных объемов данных, существующих в хранилищах данных. В некоторых случаях данные недоступны и должны быть собраны из различных источников с использованием веб-скрапинга.
Прежде чем принять решение о наборе функций для использования в Kiva, нам нужно было понять все доступные данные, их качество и количество. Это потребовало большого количества проб и ошибок. Кроме того, большая часть данных в целом не является чистой, поэтому мы несем ответственность за очистку и исправление данных перед их анализом.
3. Производительность и влияние на бизнес
В классе и на других соревнованиях нашей метрикой успеха является производительность модели или то, насколько хорошо она предсказывает невидимые данные. Однако в большинстве реальных сценариев нас больше заботит влияние на бизнес, чем производительность. Воздействие на бизнес может варьироваться от увеличения итоговой прибыли до увеличения продаж и снижения расходов.
Это включает в себя уверенность в том, что вы полностью понимаете проблему клиента (команды маркетинга или команды продукта), и что клиент хорошо осведомлен о проблеме, которую мы пытаемся решить, и готов использовать эти прогнозы в будущем.
4. Общение с нетехнической аудиторией
Мы должны тесно сотрудничать с отделами маркетинга, продуктов, продаж и инженеров в качестве специалистов по обработке и анализу данных. Большинство из этих людей не являются техническими специалистами, а это означает, что вы не можете общаться с ними так же, как с другим специалистом по данным. Вы должны четко понимать, что интересует эту команду, и сообщать только необходимую информацию с минимальным жаргоном.
5. Разное
Помимо всего вышеперечисленного, вот еще несколько навыков, которые мне помог улучшить практический проект.
- Рассказывание историй. Еще один ключевой талант, который необходим каждому специалисту по данным, — умение рассказывать истории. Поскольку большинство людей, с которыми мы ежедневно взаимодействуем, не являются техническими специалистами, этот навык пригодится, когда вы сообщаете о своем влиянии другим.
- Расстановка приоритетов. Ежедневно мы получаем огромное количество запросов на оперативный анализ, и в процессе может находиться большое количество проектов. Мы несем ответственность за оценку воздействия и определение приоритетности проектов.
И что теперь?
Хороший специалист по данным — это гораздо больше, чем специалист по данным. Он детектив, который может замечать проблемы, очень хороший рассказчик, волшебник, который может решать проблемы с помощью подходов машинного обучения, хороший член команды, который может сотрудничать, и хороший руководитель проекта, который может расставлять приоритеты задач.
И, чтобы стать хорошим специалистом по данным, вы должны сосредоточиться на целостном росте, а не просто на инструментах данных, чего можно достичь, только работая над сквозными проектами, подобными моему практическому проекту в Kiva.
Так, что дальше?
- Попробуйте работать над сквозными проблемами
- Начните с открытой бизнес-проблемы, проведите мозговой штурм и определите ее масштаб
- Очистить/собрать данные, если это возможно
- Подумайте о критериях успеха
Спасибо за прочтение!
Вы согласны/не согласны со мной? Дайте мне знать в комментариях ниже.
Дополнительная литература