Три года назад я впервые в своей карьере переключился на сферу аналитики. Если бы мне пришлось признать, тогда это было больше похоже на авантюру, чем на взвешенное решение. Переходя от более общей карьеры в области управления, когда я только начинал, я знал только Excel, Power Point и некоторые концепции управления стратегией и бизнесом. Хотя мне было удобно работать с числами (читай: с электронными таблицами), у меня не было опыта работы во всех областях аналитики. Я до сих пор помню, как мои первые несколько недель были потрачены на понимание и осмысление функций SQL (к счастью, несколько лет назад я прошел несколько курсов в Университете и получил большую поддержку от моего менеджера и коллег во время испытательного срока). Однако только через несколько недель мне удалось изучить CTE и UDF в SQL, где я думаю, что мощь языка сценариев, такого как SQL, действительно сияет и с тех пор облегчила мою работу.
Через несколько недель я также обнаружил, что работа в Analytics также означает частые потребности в эффективном рассказывании данных. В то время как слова рассказывают истории, часто изображения (в данном случае правильные диаграммы) рассказывают важные истории. Поэтому после того, как я освоился с SQL, изучение инструментов визуализации, таких как Tableau и Data Studio, стало неизбежным потреблением. В конце концов я записался на 8-недельную программу Business Intelligence, основанную на проектах, которая включает ускоренные курсы по разработке таблиц, конвейерной обработке данных и контролю версий, организованные моим работодателем. Кроме того, благодаря курсу я изучил крутые принципы дизайна, мой личный фаворит — Tufte’s Data-to-Ink Ratio, где можно найти практические примеры использования данных, где буквально меньше значит больше.
Однако хорошая визуализация могла завести нас только так далеко. По мере того, как мы лучше изучаем бизнес-контекст из данных, любые производные инициативы должны преобразовываться в измеримую производительность. Но идеи нужно сначала протестировать, прежде чем внедрять в больших масштабах. Именно здесь становится важным планирование экспериментов и знание логической статистики. Например, предположим, что мы хотим внедрить новую стратегию ценообразования, чтобы повысить конверсию клиентов. Какие показатели мы должны учитывать и как определить размер объективной выборки, играет важную роль в качестве эксперимента и, следовательно, в качестве суждения, когда дело доходит до решения между откатом и развертыванием. В таком случае, должны ли мы проводить АБ-тестирование или предварительный анализ результатов? Понятия статистической значимости, переменных взаимодействий и того, как внешние факторы могут создавать предвзятость, служат игровой площадкой для практиков в области аналитики, чтобы быть как хорошим экспериментатором, так и рассказчиком. Это хорошая практика, которую я перенял от одного из заинтересованных лиц, напоминать себе: «Как выглядит успех?», прежде чем проводить эксперимент, чтобы можно было правильно выбрать показатели успеха и план эксперимента.
Но не все проблемы можно сформулировать с помощью простой проверки гипотез и, следовательно, решить с помощью логической статистики. В некоторых случаях бизнес-проблемы приводили к ситуациям, когда алгоритмы машинного обучения (МО) были неизбежны. Это особенно верно, когда ожидается высокая размерность, и мы хотели учиться на данных, а не проверять нашу гипотезу на данных. Например, в задаче, требующей обнаружения закономерностей в группах данных с несколькими признаками (случаи, которые я часто встречал, работая над аналитикой мошенничества), процентильный подход на основе описательной статистики не удался, и имеется слишком много признаков, чтобы сделать вывод о нашей гипотезе. В конце концов, я понял, что для раскрытия истории необходим алгоритм кластеризации. Будучи новичком в области машинного обучения, именно тогда я обнаружил множество вариантов, когда дело доходит до выбора и оценки моделей, даже в рамках неконтролируемого обучения, такого как кластеризация. Не существует подхода «швейцарский армейский нож» к проблемам с данными, это то, что я узнал, когда больше общался с людьми из команды данных.
Прежде чем я понял, работа с данными для получения информации с тех пор становилась все более интересной и естественной, но при ближайшем рассмотрении может также оказаться обманчиво сложной. Хотя я по-прежнему являюсь поклонником простоты в решении проблем, я также замечаю, что варианты использования, которые когда-то рассматривались с помощью описательной, логической статистики и/или простого моделирования на основе исторических тенденций, часто имеют важные тонкости, которые невозможно раскрыть, если не использовать более сложный подход и более глубокий анализ. базовые знания. Более того, по мере развития динамики в бизнесе иногда требуется сложный анализ (и, следовательно, модель) для достижения своей цели. Хотя усложнение не обязательно всегда подразумевается (и не является предпочтительным), поиск оптимальной производительности модели иногда требует нескольких функций и преобразований функций, которые часто непреднамеренно приводят к тому, что модель теряет интерпретируемость. Особенно в области ML такие случаи называются точность-интерпретируемость и компромисс смещения-дисперсии, что приводит к печально известному феномену черного ящика.
Карьера в аналитике часто означает, что время от времени приходится сталкиваться с такой дилеммой при решении проблем. Необходимо понимать, что необходимость достижения желаемого воздействия может неизбежно привести к созданию непрозрачного решения бизнес-проблем, что само по себе создает трудности для понимания аналитиками и для заинтересованных сторон. Но именно в такой ситуации, как мне кажется, и заключается ценность моей работы в аналитике; то есть выступая в качестве моста между сложностью и совершенством. Чтобы быть таким надежным «мостом», я использую три руководящих принципа:
- Знать, когда информации слишком много, то есть не проводить анализ, который может перегрузить/отвлечь бизнес-группу/пользователей,
- Помощь в проверке работоспособности на каждом этапе жизненного цикла проекта, а также
- Вселение уверенности в принятии решений заинтересованными сторонами путем предоставления более понятных объяснений при столкновении со сложными проблемами-решениями.
Обоснование статистических и модельных концепций, чтобы сделать их простыми, но не более простыми, особенно для нетехнических пользователей, возможно, становится искусным искусством, которое отличает хорошую и отличную аналитическую работу (на освоение которой действительно требуется время). В конце концов, работа в области аналитики заключается не только в обработке данных, но и в том, чтобы быть эффективным коммуникатором, что в конечном итоге способствует принятию решений на основе данных. Возможно, именно поэтому работа в этой сфере была для меня приятной трехлетней поездкой. Несмотря на постоянную потребность учиться и переучиваться, возможно, нахождение на перекрестке, где всегда присутствует двусмысленность, позволило мне лучше понять, насколько сложным может быть процесс извлечения информации из данных.
В заключение, для тех из вас, кто читает это письмо и думает о смене карьеры на роль аналитика/работы с данными, я могу дать только один совет: доверяйте своей интуиции. Это не для всех, как не для всех быть профессиональным спортсменом. В конце концов, как и во многих других вещах в жизни, вы не знаете того, чего не знаете. Но если чтение этого разжигает ваше любопытство, кто знает, может быть, стоит окунуться (или прыгнуть :p). А тем из вас, кто чувствует себя комфортно в профессии, не связанной с данными, я также желаю вам всем удачи. Давайте и дальше находить радость в наших поделках.
Удачи в 2022 году и далее,
от перекрестка, где происходят интересные вещи.
Первоначально опубликовано в LinkedIn. Не стесняйтесь подключаться и делиться своими мыслями!