СКАЗКА О ТРЕХ УЧЕНЫХ ДАННЫХ
Автор: Кришна Гопалуни, Хариш Дашика, Манджур Рахаман, Нитин Мишра
Мне нравятся хорошие истории, и мне также нравится смотреть на море - мне нужно выбирать между двумя? - Дэвид Бирн, Как работает музыка
Если вы специалист по данным, ответ - нет! Вы можете иметь и то, и другое; до тех пор, пока ваши истории, основанные на данных, построены на прочной исследовательской базе. Специалист по анализу данных использует методы и инструменты, используемые во многих дисциплинах (информатика, статистика, математика, теория информации), чтобы найти значимую интерпретацию данных. Этот междисциплинарный характер науки о данных привлекает людей с любым опытом; экономист, физики, математики, компьютерщики, инженеры, статистики и многие другие.
Сегодня мы поговорим с тремя начинающими специалистами по данным об их пути к науке о данных. Все наши специалисты по данным успешно прошли этап освоения. Они столкнулись с теми же вопросами и препятствиями, с которыми столкнутся многие новички в этой области. Мы надеемся, что это сочетание мнений наших специалистов по обработке данных предоставит начинающему специалисту по обработке данных четкое представление о текущем состоянии науки о данных в отрасли.
Познакомьтесь с нашими специалистами по обработке данных:
Страсть - это главное в игре. Специалисты по данным - одни из самых увлеченных людей. Для всех наших специалистов по обработке данных это было сознательное решение перейти в эту область. Мы хотели знать почему.
Что вас больше всего волнует в науке о данных / машинном обучении?
«Я где-то читал о том, что быть специалистом по обработке данных - значит быть детективом. Думаю, интересно надеть шляпу Шерлока Холмса и исследовать данные - понять, как они работают, понять бизнес и создать что-то, что работает ». - Шрути
«Что меня больше всего волнует, так это то, что в этой области есть так много новых возможностей для исследования. Методы и теории, используемые в этой области, определенно не от мира сего. Эти техники, по крайней мере, основы, существуют уже давно. Мы просто не использовали их с пользой. Обладая огромным объемом данных и все более дешевыми вычислительными мощностями, мы в состоянии исследовать так много вещей, которые мы никогда не могли сделать в прошлом ». - Раздельный
«Возможность использовать данные, которые были созданы или могут быть легко записаны из бизнес-процессов и рабочих процессов, а также использовать их для разработки стратегии и импровизации бизнеса с помощью решений и действий, основанных на данных, - это круто и интересно». - Вишал
Учиться учиться. Как и в большинстве случаев в жизни, начало работы зачастую представляет собой самую сложную задачу. Все наши специалисты по анализу данных пошли по пути получения ученой степени, чтобы попасть в отрасль. Все они считали, что их ученая степень сыграла важную роль в их успехе.
Как ваша ученая степень помогла вам стать специалистом по данным? Насколько актуальна структура курса для текущей отрасли?
«Я работал над сценариями использования ML и NLP еще до того, как присоединился к этой программе. Но основной мотивацией для меня продолжить этот курс была возможность расширить применимость решений к данным в большом масштабе. Учебная программа очень хорошо структурирована и охватывает хорошее сочетание компонентов этой обширной области ». - Вишал
«Особо отмечу кооперативную программу. Курсы также очень актуальны и ориентированы на отрасль ». -Полезно
«Мне очень понравилась структура курса Программы больших данных ЮФУ. 12 кредитов лаборатории больших данных 1 и 2 окупили весь курс. Курс очень актуален для современной индустрии. Я использую то, чему научился там, так что это было действительно хорошее вложение ». - Шрути
То, что происходит в кооперативе, остается ...: получение некоторого отраслевого опыта в форме кооператива / стажировки остается эффективным способом попасть в отрасль. Все наши специалисты по анализу данных имели опыт работы в Coop от 4 до 8 месяцев до того, как приступили к своей нынешней работе.
Не могли бы вы рассказать о своем опыте работы в Coop?
Я работал вместе с Xerus medical Inc. Будучи небольшой компанией, Xerus требовал других работ, которые не сопровождались описанием должности специалиста по данным. Я занимался визуализацией данных с помощью D3.js, подготовкой и очисткой данных, помимо работы над проектом машинного обучения. Хотя иногда мне действительно хотелось сосредоточиться на конкретных проектах по науке о данных и машинному обучению, оглядываясь назад, я думаю, что это помогло мне получить опыт полного жизненного цикла разработки программного обеспечения.- Совместно
Мне понравилось работать в Community Sift / Two Hat Security в качестве стажировки. У них так много продвинутых продуктов, которые маркируют данные на основе присутствующего в них оскорбительного содержания. Они запустили проект по изучению того, как нецензурная лексика в Reddit влияет на его пользователя - склонны ли люди бросать курить, если другие люди начинают использовать оскорбительную лексику в сообществе. Я был его частью, и у меня был отличный опыт совместной работы. -Shruthi
Необходимые навыки. Область науки о данных постоянно развивается. Инструменты и методы, которые вы изучили сегодня, могут оказаться не актуальными завтра. Эта область требует твердой приверженности к обучению.
Назовите навыки, которые, по вашему мнению, необходимы для достижения успеха в этой области?
«Грузовики уверенности. Машинное обучение / ИИ по-прежнему остаются модными словечками, и многие люди еще не до конца их понимают. Итак, вам нужно иметь достаточно уверенности, чтобы сказать: «Эй, я могу запрограммировать спутник НАСА, если вы хотите, чтобы я» (уверенность - не моя сильная сторона). Другие навыки, которые вы всегда можете приобрести, читая / практикуя, технологические требования различаются для каждой работы ». -Шрути
«Вам нужно продолжать учиться. Это поле развивается очень быстро. Речь идет не только об изучении нескольких алгоритмов или библиотеки. Чтобы добиться успеха, вы должны быть знакомы с новыми и захватывающими новинками, которые появляются каждый день.
Что касается мягких навыков, мы должны научиться сотрудничать. Специалистам по обработке данных необходимо сотрудничать с инженерами данных, разработчиками программного обеспечения, а также с деловыми людьми ». - Shariful
«Во-первых, нужно уметь работать с данными. Необходимо проявлять достаточно любопытства и энтузиазма, чтобы продолжать пересматривать данные с новой точки зрения, чтобы породить новые идеи и больше вопросов о данных. Не менее важно не только уметь проводить анализ, задавая правильные вопросы и понимать потребности заинтересованных сторон, но и формулировать решение и переводить результаты анализа с точки зрения воздействия на бизнес для руководителей ». -Вишал
Языки и инструменты. Мы спросили наших специалистов по данным о том, какие языки программирования и инструменты они выбрали.
Какие инструменты для обработки больших данных / машинного обучения вы используете каждый день?
«Кафка, Улей, Искра, Кассандра, Друид. В дополнение к этому, я также изучаю другие инструменты для оптимизации существующей архитектуры ». - Вишал
«Для моей работы достаточно Python и SQL». -Shruthi
«В повседневной работе я использую инструменты машинного обучения на основе Python. Для большинства работ я использую scikit-learn для машинного обучения, pandas и numpy для подготовки данных, matplotlib и seaborn для визуализации. Иногда я использую Керас ». - Раздельный
Работа, которую они делают. Мы спросили их, над какими проектами они работают изо дня в день.
Не могли бы вы рассказать нам о проекте по науке о данных / больших данных, над которым вы работали / работали в последнее время?
«Один из недавних проектов, над которыми я работал, был связан с тематическим моделированием с использованием набора данных о нормативных рисках для выявления потенциальных повторяющихся тем в различных бизнес-подразделениях». - Шрути
«Я только что закончил работу над проектом по прогнозированию отмены бронирования для Left Travel. Отмена бронирования оказывает огромное влияние на наши доходы ». - Shariful.
«Приоритезация усилий по исправлению уязвимостей - использование функций, связанных с серьезностью, возможностью использования и критичностью бизнеса, для определения приоритетности устранения уязвимостей, обнаруженных во всех активах организации». - Вишал.
У каждого свое мнение: отрасль часто отличается от того, что люди ожидают.
У людей есть неправильное представление о работе в поле?
«Я думаю, что иногда люди слишком много внимания уделяют инструментам. Они задают такие вопросы, как «используете ли вы Spark?», «Знаете ли вы TensorFlow», «почему вы не используете графические процессоры» и т. Д. Для меня это не об использовании таких-то инструментов. Это больше о проблеме, которую вы пытаетесь решить. Быть экспертом в использовании определенного инструмента определенно помогает, но инструменты будут и должны меняться в зависимости от проекта ». - Shariful
«У меня была безумная идея, что я пойду на работу, и мне передадут формулировку проблемы, и я буду использовать машинное обучение для ее решения. Но во многих случаях это не так, поскольку люди до сих пор не уверены в науке о данных. Часто вам придется самому придумывать бизнес-кейс и обучать людей тому, что вы можете делать. Иногда ко мне подходят люди и говорят: «Вы же специалист по данным, верно? Можете ли вы автоматизировать этот отчет для меня? » и я такой: «Но это не имеет ничего общего с наукой о данных. Это простая автоматизация ». - Шрути
«Не уверен в заблуждениях. Но что касается практической отрасли, все, что имеет значение, - это то, как вы можете повысить ценность бизнеса. В университете все отлажено и хорошо структурировано. Мы учимся в контролируемой среде с заранее определенным ожидаемым результатом и ориентиром для руководства. Но на рабочем месте все по-другому. Я считаю, что знакомство с практической промышленностью в форме совместной игры очень важно ». -Вишал.
Как избежать известных ошибок. Мы спросили их, как они хотели бы пройти курс еще раз, если бы у них был выбор.
Если бы вы могли сделать это снова (обучение машинному обучению / науке о данных), с чего бы вы начали?
«Я бы сделал больше проектов. Специально я бы участвовал в нескольких конкурсах Kaggle. Буду читать больше статей. Я бы меньше сосредоточился на инструментах. Потому что вы можете изучить новый инструмент, когда это необходимо, если вы уже разобрались с основами. Я бы также сосредоточился на стороне разработки программного обеспечения. Как масштабировать и развертывать модели машинного обучения в производственной среде - очень важный навык ». - Раздельный
«Я приехал сюда как иностранный студент. Пройти 3 курса в первом семестре, наверное, было многовато. Я хотел бы сделать все немного медленнее. Я не из тех, кто проводит много онлайн-тренингов / сертификатов. Мне нужна была дисциплина и структура, которые приходят в аспирантуру »- Шрути.
Окно в будущее. Мы спросили наших специалистов по данным о будущем науки о данных.
Как вы думаете, куда идет эта область?
«Я думаю, что это идет в двух основных направлениях. Первый - это разработка новых захватывающих технологий и действительно расширение границ в изучении экстремальных возможностей. Мы видим огромное количество стартапов в области ИИ в самых разных областях.
Следующее направление - это прикладная часть. Все компании, у которых есть огромное количество данных, хотят что-то с ними делать. Эти компании не обязательно являются технологическими компаниями. Они не хотят создавать ничего интересного, их не волнуют технологии, они больше стремятся использовать существующие инструменты и данные для создания ценности для бизнеса. Насколько я понимаю, в ближайшем будущем обе ветки будут развиваться. Однако меня больше волнует первое направление ». - Раздельный
Мы благодарим всех наших специалистов по обработке данных Шрути Мохан, Шарифул Ислам и Вишал Шукла за то, что они поделились своими вдохновляющими поездками и потратили драгоценное время на благо начинающих специалистов по данным.