Я получил свою первую работу по науке о данных в июне 2021 года, потратив около двух с половиной лет на подготовку к собеседованиям по науке о данных, пройдя МООК (в основном курсы Udacity и Udemy), прочитав несколько книг на эту тему и прислушиваясь к советам людей, которые преуспели в этой области (к счастью, получили лучший совет). Я получил свою первую работу в области обработки данных, как описано в этой истории, в стартапе в области здравоохранения под названием Bright Photomedicine, который находится в Сан-Паулу, Бразилия.

Вот уже около полутора лет я работаю с реальными медицинскими данными, работая в основном над улучшением лечения пациентов. В этом посте я хочу поделиться с вами уроками, полученными от начинающего Data Scientist до полноценного Data Scientist.

Урок 1: Реальные данные действительно беспорядочны

Одна вещь, которую я заметил по своему опыту, заключается в том, что реальные данные действительно грязные, гораздо больше, чем те, которые представлены на МООК или даже на соревнованиях по машинному обучению. Я думаю, что курсы, содержащие лекции по науке о данных, слишком много внимания уделяют моделирующей части проекта, а исследовательский анализ недооценивается. Этот аспект следует изменить, поскольку было предпринято много усилий для автоматизации части моделирования проектов данных путем внедрения сред Auto-ML, таких как H20 и auto-sklearn.

Урок 2: Настоящая междисциплинарная работа

В рамках стартапа, основанного на научных знаниях и исследованиях, я работал с людьми самых разных специальностей. Поэтому, в отличие от академии, я получаю самые разнообразные знания о физике, медицине и искусственном интеллекте, работая с медиками, физиками, биомедиками, инженерами, физиотерапевтами и людьми из продавцов с разным бэкграундом. Я понял одну вещь: те, кто хочет преуспеть в науке о данных, должны иметь дело с людьми разного происхождения и с очень разными личностями.

Урок 3: Командная работа действительно важна

Разнообразие профилей людей делает практически невозможным применение на практике уроков, полученных в курсах и книгах по науке о данных, не будучи хорошим командным игроком. Вначале очень трудно понять бизнес-проблему, и хорошее общение необходимо, чтобы связать ваши сложные навыки с бизнес-проблемой.

Урок 4: Навыки общения и презентации обязательны

Недостаточно получить правильные результаты моделирования или анализа данных, они должны быть правильно представлены для соответствующей аудитории. Ваша аудитория — вот что действительно важно. Например, для команды R & D очень важно погрузиться в детали моделей, количественный анализ и т. д. Однако для продавца вы должны сосредоточиться на визуальном анализе, используя интуитивные цифры и объясняя результаты с точки зрения непрофессионала. Это то, что звучит логично, но это трудно реализовать на практике, и это приходит с опытом.

Урок 5: Исследование данных — самая важная часть

Как говорилось в других сообщениях, при выполнении проектов машинного обучения обычно происходит мусор на входе — мусор на выходе. Это означает, что если вы дадите модели плохие данные, модель выдаст плохой прогноз. Лучший способ обойти эту проблему — провести действительно хороший исследовательский анализ и очистку данных, а понимание бизнес-проблем имеет решающее значение.

Однако при работе с реальными данными процесс очистки данных следует проводить осторожно, а иногда большая часть данных «теряется» (не может быть использована в прогнозном моделировании, поскольку эти данные ухудшат прогнозы).

Урок 6. Промышленность и научные круги

Поскольку у меня сильный академический опыт, у меня было время адаптироваться, чтобы узнать, как работает отрасль. Настоящая цель стартапа — предоставлять продукты высокого уровня в краткосрочной, среднесрочной и долгосрочной перспективе, и в Bright исследования фотомедицины имеют решающее значение, чтобы убедить клиентов в том, что лечение действительно работает. Этот вид научной работы — это больше, чем просто публикация статей с «сильными» результатами — вы должны показать, что ваша научная работа каким-то образом приносит прибыль. Это резко контрастирует с чисто академической работой, в которой мы стремимся к факторам влияния и цитированию, полученным в ходе вашего научного путешествия.

Это уроки, которые я усвоил во время своей первой работы по науке о данных, которыми я делюсь с вами. Если вам понравилось, пожалуйста, хлопните в ладоши. Конструктивная критика приветствуется. Вы можете добавить меня в LinkedIn здесь.

Спасибо за прочтение! Надеюсь, вам понравилось :)