Мои советы для будущих студентов, изучающих науку о данных

Введение

После того, как я поделился своим магистерским опытом, будущие студенты несколько раз спрашивали меня о том, что искать в магистратуре по науке о данных.

Это, вероятно, благодаря множеству новых курсов по науке о данных, которые сейчас предлагают университеты. Однако, если вы новичок в этой области, наличие слишком большого количества вариантов может привести к парадоксу выбора: когда есть из чего выбирать, трудно понять, какой из них имеет для вас наибольшее значение.

Содержание и структура курса постоянно меняются (как и во время пандемии). Поэтому я собираюсь дать несколько общих советов, основанных на моем собственном опыте, которые помогут вам в поиске магистерского курса по науке о данных.

Если вы предпочитаете вместо этого смотреть видео, вы можете посмотреть мое видео ниже на ту же тему.

Гибкость модуля

На мой взгляд, гибкость модулей чрезвычайно важна для оптимизации учебного года.

Например, вы можете специализироваться в определенной области науки о данных. Вы также можете сосредоточиться на темах, в которых вы не очень хороши. Какой бы ни была ваша цель, хорошая гибкость поможет сделать ваш опыт более значимым.

В моем случае мой магистерский курс был достаточно гибким. Я сделал большой выбор в пользу модулей информатики, так как у меня уже была математическая подготовка. Для меня было глотком свежего воздуха изучить что-то другое, особенно в области, которая всегда казалась мне интересной.

Поскольку моя магистерская программа была при Школе математики, большинство обязательных модулей были математическими. Я собираюсь экстраполировать здесь: большинство магистерских курсов, вероятно, будут иметь большую часть своих обязательных модулей из той школы, в которой находится курс.

На моем курсе большинство факультативных модулей были по информатике, но было и немало бизнес-модулей. Лично я бы рекомендовал выбрать курс, который позволяет вам выбирать модули из разных школ; даже если позже вы решите, что наука о данных не для вас, то, по крайней мере, у вас будет возможность специализироваться в немного другой области.

Хороший фундамент в статистике

Законный курс по науке о данных всегда будет пытаться дать хорошие основы статистики.

При поиске курса по науке о данных убедитесь, что он охватывает основы статистического понимания. По крайней мере, он должен охватывать такие темы, как статистическое моделирование и теория вероятностей. Если вы уже уверенно владеете основами, вы также можете обратить внимание на такие темы, как байесовская статистика и анализ временных рядов.

Хорошее понимание статистики поможет в исследовательском анализе данных. Кроме того, если вам интересно машинное обучение, статистика может помочь вам понять, как модели и параметры работают в алгоритме машинного обучения.

Это также может помочь вам с интервью по науке о данных; по моему опыту, на ранних стадиях процесса интервью обычно возникает несколько статистических вопросов.

Питон и SQL

Ваш курс по науке о данных должен научить вас многому из Python и SQL.

В академических кругах всегда существует вероятность того, что изучаемые инструменты не будут широко использоваться в отрасли. По какой-то причине это отставание иногда может быть весьма значительным.

На моем курсе меня учили в основном на R с некоторыми модулями с упором на Python. R по-прежнему используется в отрасли, но было бы неплохо, если бы Python был основным языком выбора.

Это связано с тем, что Python легче понять, он обладает большей гибкостью и часто требуется для многих работ в области обработки данных. Python также неуклонно опережает R по популярности в течение последних нескольких лет. На мой взгляд, я бы предпочел R только в том случае, если бы хотел специализироваться на статистике и исследовательском анализе данных, особенно если бы я был академическим исследователем.

Некоторые люди считают, что мое мнение немного противоречиво, потому что я предпочитаю Python, а не R для науки о данных. Если вам интересно, у меня есть видео, в котором я объясняю, почему я считаю Python лучше, чем R.

Наконец, еще один язык, который я упомянул, это SQL: это язык запросов, который обычно используется в ролях, связанных с данными, и имеет важное значение для аналитиков данных и специалистов по данным. Он не такой привлекательный, как Python, но его повсеместно используют для извлечения данных.

Если вы сможете убедиться, что ваш магистерский курс охватывает достаточно Python и SQL, то у вас будет хорошая база с точки зрения языков программирования. Кроме того, вы можете использовать Python для многих других целей, не связанных с наукой о данных.

Таблица или Power BI

По сей день я думаю, что Tableau и Power BI являются наиболее часто используемыми инструментами для создания отчетов.

Я использовал Tableau для различных задач на протяжении многих лет. Я использовал его для отчетности, когда был аналитиком данных. Я также использовал его для быстрого создания диаграмм для своей магистерской диссертации и других проектов. Теперь, когда я работаю специалистом по данным, я также часто использую Power BI для создания и автоматизации отчетов.

Основываясь на моем поиске работы, я могу с уверенностью сказать, что изучение любого из этих инструментов будет чрезвычайно полезным, когда придет время искать работу в области науки о данных.

Я бы постарался убедиться, что по крайней мере в некоторых модулях вашего магистерского курса используется любой из этих инструментов. Если ни один из них этого не сделает, то я буду считать это красным флагом.

Даже сейчас, когда я смотрю на новые должности аналитика данных или специалиста по данным, обычно есть строка, в которой говорится, что некоторый опыт работы с Tableau или Power BI будет полезен.

Выбор диссертации

Ваша диссертация станет самым большим проектом, который вы сделаете за весь учебный год.

Несмотря на это, список тем диссертаций вы, скорее всего, получите не раньше второй половины учебного года. Кроме того, вам, вероятно, будет предоставлено больше тем в конкретной школе на выбор в зависимости от исходной школы мастера.

В моем случае степень магистра была при Школе математики. Это означало, что у меня было гораздо больше тем по математике на выбор по сравнению с информатикой и бизнесом.

Я помню, как подавал заявки на множество популярных тем в области информатики, связанных с машинным обучением и глубоким обучением. В конце концов, меня всегда отвергали, потому что у студентов, изучавших информатику, был более высокий приоритет.

Чтобы избежать моей ситуации, вероятно, лучше спросить некоторых студентов, которые в настоящее время проходят курс. Они могли бы поделиться некоторой информацией о процессе диссертации. Если вам повезет, они могут дать вам список тем, чтобы вы могли лучше понять, чего ожидать. В противном случае вам может быть трудно найти то, что вам понравится делать в летние месяцы.

Я думаю, что всегда лучше попытаться выбрать тему, над которой вам понравится работать, поэтому лучше подготовиться как можно раньше. У меня были интервьюеры, которые поднимали мой проект диссертации во время моих интервью по науке о данных. Вы хотите показать хотя бы некоторую страсть к своему проекту, когда подробно объясняете его.

Общество науки о данных

Многие университеты, которые предлагают степень магистра наук о данных, скорее всего, также имеют общество наук о данных, к которому вы можете присоединиться.

Присоединение к сообществу специалистов по данным может дать много преимуществ, чтобы улучшить опыт вашего магистра, например:

  • больше внеклассных проектов и задач, в которых вы можете принять участие;
  • легче собрать команду для более крупных проектов по науке о данных;
  • и легче установить связи с людьми в отрасли через мероприятия, которые они проводят каждый год.

Если быть до конца честным, когда я присоединился к Leeds Data Science Society, я не ожидал от него многого. Но благодаря обществу я в итоге принял участие в общенациональном конкурсе, благодаря которому меня показали в сериале Tableau’s Generation Data. Я также завел несколько друзей по пути, и теперь у меня хорошие связи с обществом, если я когда-нибудь снова приеду.

Все это было бы невозможно, если бы я не пытался активно участвовать. Работодатели заметили мое участие, просматривая мое резюме, и упоминали об этом во время собеседований. Уже одно это придает ему значительную ценность как выпускнику, ищущему работу.

Заключение

Прошло много времени с тех пор, как я был потерянным учеником мастера. Я все еще в растерянности (сюрприз!), но мне кажется, что я лучше представляю, что искать, если я вернусь в прошлое, чтобы снова заняться учебой.

Надеюсь, мои мысли дали вам некоторое руководство, если вы также хотите получить степень магистра наук о данных в Великобритании. Как всегда, если вам понравилась эта статья, вы можете посмотреть другие мои видео на YouTube. Если вы хотите узнать, чем я занимаюсь по электронной почте, вы можете подписаться на мою рассылку новостей 🙂

Первоначально опубликовано на https://leonlok.co.uk 24 января 2022 г.