Это называется эпохой больших данных. Технологии хранения и обработки данных стремительно развиваются, и тот, кто их анализирует, например, специалист по данным, привлекает внимание многих людей.

Однако мало кто полностью осознает реальность специалистов по обработке и анализу данных. Соискатели часто смутно ожидают высокого спроса на специалистов по данным, а менеджеры по персоналу часто переоценивают достижения, которых они могут добиться.

В этой статье я обобщил реалии специалистов по данным и трудности, с которыми они сталкиваются на практике. И я поделюсь тем, как я решил эту проблему (или пытался ее решить). Соискатели данных или менеджеры по персоналу могут счесть их полезными.

(Это может быть очень личное мнение из моего опыта! Пожалуйста, поделитесь своими мыслями и мнениями! Я люблю дебаты).

С этого момента я буду сокращать Data Scientist как DS (так как это слишком длинно).

DS не имеет права принимать решения

Ученый по данным — это тот, кто извлекает ценную информацию из данных и помогает компаниям принимать решения. Другими словами, они «поддерживают принятие решений» с помощью «данных». Поэтому для DS идеально вовлекаться в процесс принятия решений. В противном случае их анализ был бы не более чем бессильным аргументом.

Однако во многих компаниях лица, принимающие решения, ограничены исполнительным директором (по крайней мере, в Южной Корее). Поэтому у DS нет возможности активно отстаивать и убеждать свое мнение. Вы должны последовательно выражать результаты своего анализа посредством тесного сотрудничества с лицами, принимающими решения, что трудно сделать в реальности. К сожалению, в большинстве компаний результаты анализа рассматриваются как справочные.

Этот факт вызвал у меня сильное чувство беспомощности, так как я мечтал изменить бизнес с помощью данных.

Поэтому я очень старался повлиять на принятие решений. Вот советы, которые я получил, борясь за это.

1. Если они не слушают, промойте им мозги!
Если вы поделитесь результатами анализа, большинство поначалу будет безразлично. Причина проста. Потому что они уже заняты своей работой. Поэтому я выбрал настойчивый и простой путь. Во время отдыха, во время еды, во время разговора по телефону и по дороге на встречу, когда у меня было время выступить, я тайно промыл себе мозги, говоря: «Эй, я проанализировал данные, и это похоже на бла-бла-бла». Я понял, что многократные разговоры в неформальной обстановке гораздо эффективнее убеждают.

2. Продолжайте экспериментировать!
Хорошую информацию можно получить не только на основе существующих данных. Даже если проанализировать, результаты будут слишком очевидны. Поэтому лучше путем экспериментов генерировать разные данные и анализировать их. Эксперименты включают в себя не только A/B-тесты, но и большие эксперименты на этапе планирования. Например, если вы занимаетесь образовательным бизнесом, вы можете изменить методологию мотивации, чтобы отслеживать изменения в ответах учащихся, или вы можете изменить способ преподавания, чтобы исследовать удовлетворенность. Вместо того, чтобы пассивно анализировать существующие данные, легче извлечь более точные сведения, создав и проанализировав сравнения с помощью различных экспериментов.

3. Почешите самое зудящее место!
У каждого бизнеса есть свои сильные и слабые стороны. Анализ сильных сторон и обмен мнениями о них окажут меньшее влияние. Вы должны сосредоточиться на самой слабой части. Если это так, то даже небольшое озарение, скорее всего, будет воспринято людьми с интересом.

Никто не хвалит за улучшение на 1%.

В Kaggle (платформа для соревнований по машинному обучению) если вы повысите точность модели всего на 1 процент, рейтинг конкурса сильно изменится. Вот почему Kagglers прилагают огромные усилия, чтобы поднять 1 процент. Они создают множество моделей и используют все известные им методы оптимизации. Но применимо ли это в реальном проекте? 1% ЭТО важен для бизнеса? Я узнал, что это не так, когда принял участие в проекте по машинному обучению.

Проще говоря, повышение точности за счет использования сложного метода часто не имеет существенного значения в бизнесе. Скорее, увеличение сложности модели является серьезной проблемой из-за эталонного времени (время, необходимое для прогнозирования с использованием модель).

Точность важна. Однако важно понимать, что повышение точности приводит к усложнению модели.

Я приведу вам пример своего опыта работы с проектом. В рамках проекта я разработал базовую модель с базовым случайным лесом и получил точность около 83 %. Позже, чтобы улучшить производительность модели, я сделал различные модели (такие как xgboost, catboost, lightgbm и т. д.) и выполнил настройку параметров и ансамбль. В результате точность составила около 87%. Объявляя вышеупомянутые результаты перед руководителями, один из них сказал это.

Если такая сложная модель улучшится всего на 4%, думаю, будет лучше просто использовать базовую модель.

Я думаю, что приведенное выше утверждение отражает мышление лица, принимающего решения. Позже я определил направление проекта, рассматривая бизнес-преимущества компании с помощью модели, а не только ее точность. Наконец, я решил не использовать самую эффективную модель (которая дала наибольшую точность). Вместо этого я тратил большую часть времени на очистку данных и создание информационных панелей, чтобы объяснить результаты модели.

※ Я до сих пор люблю Kaggle и ценю многие вещи, которым я там научился. Однако я говорю, что точность модели не полностью отражает ценность бизнеса.

Реальность бизнеса

Поскольку специалист по обработке и анализу данных поддерживает процесс принятия решений, он должен очень хорошо разбираться в бизнесе. Если у DS нет бизнес-навыков, они могут стать чудаками, не способными ни развиваться, ни заниматься бизнесом.

Поэтому DS должен попытаться доказать ценность результатов анализа для бизнеса. Помните, что планировщики и руководители не заинтересованы в технологиях. Независимо от того, используете ли вы сложные модели искусственного интеллекта или передовые статистические знания, они хотят только зарабатывать деньги.

Самый интуитивный индикатор бизнеса — это, конечно, деньги. Но поскольку бизнес-процессы нашей компании не позволяли нам сразу же получать большие продажи (как в случае со многими стартапами), мне пришлось количественно оценить ценность бизнеса в способом, кроме денег.

В заключение я сосредоточился на обслуживании. Другими словами, я попытался количественно оценить качество обслуживания, которое мы предоставляем клиентам. Типичным примером были веб-данные, такие как скорость оттока, которые я преобразовал в форму, оптимизированную для выражения качества.

По моему опыту, многие специалисты по данным (по крайней мере, в Южной Корее) не разбираются в бизнесе. Похоже, что большинство людей интересуются только причудливыми технологиями искусственного интеллекта и моделирования. Уверяю вас, для тех, кто хочет стать специалистом по данным, понимание бизнеса намного важнее, чем изучение фреймворка ML.

В заключении…

Специалисты по данным нуждаются в различных навыках. Для ясности сравню разработчика и специалиста по данным.

Разработчики имеют большое значение, даже если они обладают только техническими навыками. Разработка продуктов с помощью технологий сама по себе помогает бизнесу (хотя такие способности, как коммуникативные навыки, нельзя игнорировать).

Однако специалисты по данным менее ценны, если у них есть только технические навыки. Это связано с тем, что им необходимо повышать эффективность бизнеса, используя технические навыки в различных областях, таких как планирование, оптимизация и принятие решений. Поэтому им следует продолжать думать о том, как они будут зарабатывать деньги.

Студенты, которые хотят стать исследователями данных, должны полностью осознавать приведенные выше факты и серьезно подумать, подходит ли это вам. Многие люди, кажется, унесены мыслями о том, что ИИ и машинное обучение просто потрясающие. .

Я заканчиваю письмо, говоря, что вы должны смотреть на реальность более объективно и принимать взвешенные решения.

(Комментарии и лайки - большая помощь писателю!!)

Если у вас есть какие-либо вопросы, оставьте их в комментариях или напишите мне в Facebook!

Мой аккаунт FACEBOOK