Примечание. Я пишу эту статью сразу после завершения второго и последнего семестра, и, как и для всех студентов этой программы, будь то в кампусе или дистанционно, как и я, моим последним курсом в следующем семестре будет Группа аналитики данных. Capstone Project, который должен быть самым важным курсом в программе. Таким образом, мне, вероятно, придется написать дополнительную статью после завершения этого курса.
Необязательный раздел, объясняющий мою личную биографию и мотивы подачи заявки на участие в программе в связи с контекстом, который может сделать эту статью неактуальной для вас:
Не зная моего прошлого и контекста участия в этой программе, это может быть трудно интерпретировать мой опыт и мою общую оценку программы, поэтому я начну с этого. Я подал заявку на участие в онлайн-версии (профессиональной) магистерской программы Университета Джорджа Мейсона в области инженерной аналитики данных в июне 2020 года после того, как безрезультатно подал заявки на сотни вакансий после закрытия в марте того же года, даже не проведя ни одного собеседования. было моей мотивацией.
В то время, как и сейчас, я был начинающим аналитиком данных/специалистом по анализу данных. Я получил степень бакалавра экономики в Калифорнийском университете в Ирвине еще в декабре 2018 года, и, к сожалению, после этого я смог получить только низкооплачиваемую временную работу или работу в сфере продаж от двери до двери. Итак, я решил обновить и обновить свой набор технических инструментов, чтобы стать аналитиком данных, экономическим аналитиком, аналитиком бизнес-аналитики или кем-то подобным.
На всякий случай, если вы не в курсе, большинство людей не в курсе, программы бакалавриата по экономике на самом деле довольно технически требовательны; на самом деле, моя степень бакалавра экономики требовала всех тех же математических курсов, что и степень бакалавра физики в UCI: исчисление функций одной переменной, многомерных функций и векторов, Diffi-Qs и элементарной линейной алгебры. Кроме того, вы должны пройти 2 четверти курса «Вероятность и статистика» и 2 четверти курса «Эконометрика». Кроме того, я также изучал элементарную статистику ранее в местном колледже, работал одним из их оплачиваемых наставников по статистике для однокурсников, а также на двух курсах старших классов по вероятностям и стохастическим процессам и на факультативе по байесовской эпистемологии. Излишне говорить, что для человека со степенью бакалавра у меня был гораздо более глубокий статистический опыт, чем у большинства людей, пытающихся проникнуть в аналитику данных или науку о данных!
Однако для меня это было серьезной практической проблемой, ни один из этих курсов никогда не учил меня, как на самом деле выполнять прикладной анализ данных с использованием каких-либо статистических программных инструментов, приложений или языков программирования. Единственным небольшим исключением были мои курсы по эконометрике, которые должны были научить использовать регрессии в Eviews, но на самом деле этого не произошло! Итак, я потратил около года, пытаясь научиться использовать SQL, инструменты анализа данных Excel, такие как расширенные функции и формулы сводных таблиц, Solver, What-If-Analysis и т. д., самые простые основы как Python, так и R. язык статистического программирования, а также Tableau и Microsoft Power BI. Все это было сделано в мое очень ограниченное свободное время, так как я работал только на комиссионных продажах от двери до двери 60+ часов в неделю.
Основные разделы статьи:
Почему получение степени магистра действительно может помочь и почему я выбрал Mason
Настоящая проблема, как многие из вас уже поняли, пытаясь проникнуть в эту горячую новую область анализа данных, заключается в том, чтобы заставить потенциальных работодателей поверить в то, что у вас достаточно технических навыков, чтобы нанять вас, а также убедиться, что у вас действительно есть достаточно этих навыков, чтобы сохранить эту работу после найма. Как и многие другие начинающие аналитики данных, специалисты по данным или инженеры данных, я крутил колеса в безумной маниакальной попытке получить миллион крошечных сертификатов, некоторые из почти бесполезных курсов LinkedIn Learning, некоторые из довольно полезные и недорогие курсы Udemy и другие из отличных, но более дорогих курсов DataCamp. Хуже всего в этом бесцельном стремлении то, что оно мешает вам учиться столько, сколько вы должны, сосредоточиваясь на всех мини-учетных записях.
Таким образом, я, наконец, решил заменить все это, просто выбрав одно гигантское удостоверение в области анализа данных, степень магистра наук в этой области. Программа Университета Джорджа Мейсона привлекла мое внимание относительно рано в моем поиске программ для подачи заявки, потому что она относительно короткая (согласно их брошюре, рассчитанная на 18 месяцев), согласно их информации о ней, это была одна из первых магистерских программ. в установленной аналитике данных, это была ранее существовавшая онлайн / дистанционная программа (а не программа, созданная наспех во время пандемии), преподаватели, которые преподают все курсы в этой программе, являются преподавателями на полную ставку (а не исследователями), и большинство из них иметь предыдущий опыт работы в отрасли), и рекрутер объяснил мне, что перед началом программы не обязательно иметь какие-либо знания в области кодирования.
Я решил подать заявку в июне, не думая, что попаду, и был очень удивлен, когда меня приняли к июлю на осенний семестр того же года, который начинается в августе! Я был удивлен, потому что мой совокупный средний балл в Калифорнийском университете в Ирвине составлял всего 2,85, но еще одна важная причина, по которой я подал заявку на участие в этой программе, заключалась в том, что процесс подачи заявки включает в себя «Положение о моих целях» с максимальным разрешенным объемом 1000 слов, что может позволить кому-то вроде меня чтобы объясниться, и я думаю, что я сделал достаточно хорошо, чтобы попасть.
Общая структура программы DAEN
Магистерская программа GMU DAEN проводится в Инженерной школе Волгенау (в настоящее время считается 92-й лучшей инженерной школой в США). Каждый из курсов программы длится всего 7,5 недель и проводится по одному, таким образом, вы проходите два курса каждый семестр. Это, безусловно, самый большой недостаток их программы, о котором я подробно расскажу позже. Все участники программы проходят одни и те же первые 4 курса, которые известны как Основная учебная программа, хотя их не обязательно проходить в одном и том же порядке всеми, за исключением того, что 1-й курс должен быть одинаковым для всех. После того, как эти 4 будут завершены, вы должны пройти еще 5 факультативов + вышеупомянутый все важные проекты Capstone в течение их последнего семестра.
Основной учебный план программы DAEN
Этот первый курс — AIT 580-Online: Analytics — Big Data to Information. Этот курс в основном представляет собой обзорный курс, в котором рассматривается определение больших данных и когда они используются, уникальные методы и требования для анализа больших данных, а также объясняются основы науки о данных и инженерии данных, машинного обучения и НЛП, и даже R, Python и SQL. Как вы можете себе представить, за 7,5 недель ни одна из них не была пройдена с достаточной глубиной. В качестве учебника он использовал «Руководство по проектированию данных». AIT 580 включает 1 задание по тематическому исследованию и 1 проект по анализу данных. Тематическое исследование представляет собой простой пример реального использования больших данных в промышленности, и проект довольно гибкий с точки зрения того, что вы можете сделать. Я решил проанализировать данные о COVID-19, используя R для себя.
Для меня вторым курсом был STAT 515: Прикладная статистика и визуализация для аналитики. Название этого курса неверно, это вводный курс по визуализации данных и статистическому обучению, а не по прикладной статистике, что совершенно другое. Это могло бы и должно было быть одним из самых плодотворных курсов в программе, и, вероятно, было бы, если бы каждая из этих тем была выделена в отдельный курс продолжительностью 7,5 недель, но, увы, первые 2,5–3 недели — это данные, т.е. оставшиеся недели проходят через хорошо известный и уважаемый учебник 2013 года «Введение в статистическое обучение» с приложениями в R. Также были рекомендованы «R для всех» (2017) и «R для науки о данных» (2017).
STAT 515 начинается с двухнедельного изучения ggplot2, затем (линейной) регрессии и корреляции; затем деревья решений для задач классификации и регрессии, бэггинга, случайных лесов и бустинга; затем GLM (обобщенные линейные модели, такие как Logit) и методы усадки (коньковый, лассо и регрессия эластичной сети); затем методы уменьшения размеров и обучения без учителя; и, наконец, раздел о глифах и сюжетах.
Этот курс также включает в себя 2 проекта. Первый заключается в том, чтобы найти плохую визуализацию данных в Интернете, перепроектировать и воссоздать ее с нуля таким образом, чтобы проблемы были решены. Надо сказать, это был действительно веселый и интересный проект! Затем мы должны были представить наш новый график в видеозаписи презентаций ppt, а также предоставить подробные отзывы о двух презентациях наших коллег. А для проекта анализа данных я решил провести исследовательский анализ данных о смертности от COVID-19, сравнивая несколько стран и нескольких штатов США, он занял около 20 страниц.
Третьим курсом, который я выбрал, был OR 531: Аналитика и анализ решений, который, по сути, был курсом по методам исследования операций для подхода к анализу решений с помощью условного оптимизационного моделирования и симуляций с использованием интересного и мощного платного проприетарного программного приложения под названием Frontier Analytic Solver. Который в основном работает через Excel. Этот курс был как-то одновременно одним из самых интересных курсов в программе и одним из наименее практических.
Рассматриваемые темы по порядку: линейная оптимизация, сетевая и целочисленная оптимизация, эвристическая оптимизация и краткий обзор основных статистических понятий и терминов, отношения шансов и моделирование методом Монте-Карло, контролируемое и неконтролируемое обучение, деревья решений и так называемый «Queing» (по-британски «формирование линий») + необязательный дополнительный раздел, посвященный основам VBA. Единственный необходимый учебник — «Бизнес-аналитика: искусство моделирования с помощью электронных таблиц» (2017 г., 5-е изд.).
Четвертым и последним из четырех Основных курсов был CS 504: Принципы управления данными и интеллектуального анализа данных. Этот курс знакомит с методами хранения, управления и использования данных, включая базы данных, реляционную модель, схемы, запросы и транзакции с использованием стандартного классического SQL. Он также охватывает базовую теорию баз данных NoSQL и их общие реализации. Кроме того, рассматриваются специализированные продукты баз данных, такие как хранилища данных и онлайн-аналитическая обработка, Hadoop, MapReduce и Spark, а также основы интеллектуального анализа данных. Единственный учебник, необходимый для этого, — Наука о данных для бизнеса (2013 г.).
Курс в основном вращается вокруг очень требовательного курса, длинного группового проекта по анализу данных с группами примерно из 4–6 человек, назначенными в течение недели 1 руководством. профессор. Для этого проекта требуется использование SQL в сочетании с Python или R или обоими, и он управляется с использованием комбинированной методологии Sprint (с определенными ролями Scrum Master, Product Owner и нескольких членов команды разработчиков) и отмеченного процесса AGILE. .
Моя назначенная группа, Команда Carbon, в конечном итоге немного переборщила с точки зрения глубины и детализации нашего анализа данных интеллектуальных счетчиков о влиянии введения новых меняющихся во времени суток цен за кВтч на электроэнергию. среди жителей Лондона, так что наш окончательный отчет получился 97 страниц!
Одним из БОЛЬШИХ преимуществ этого проекта является то, что вам предоставляется определенное количество вычислительного времени и ресурсов AWS для использования на протяжении всего курса этого проекта, что действительно удобно, а также является отличной практической практикой с Облачные вычисления.
Пять факультативов, которые я выбрал
Я выбрал следующие 5 факультативов:
- AIT 614: Основы больших данных
- OR 568: Прикладная прогнозная аналитика
- SYST 573: Анализ решений и рисков
- DAEN 698: Независимое исследование (которое я провел по новой процедуре выбора оптимальных признаков, называемой оценочной исчерпывающей регрессией)
К сожалению, выбор курсов онлайн-программы каждый семестр значительно более ограничен, чем варианты для студентов в кампусе/лично, поэтому для некоторых из этих факультативов они были единственным доступным для меня вариантом.
AIT 614: Основы больших данных — О первом факультативе, который я прошел, AIT 614, сказать особо нечего, потому что большая его часть уже была пройдена в первом курсе программы, и из-за внутренних ограничений, связанных с большими данными, это было для нас нереально. на самом деле работать с любыми большими данными самостоятельно, хотя нас кратко познакомили с несколькими платформами облачных вычислений.
ИЛИ 568: Прикладная предиктивная аналитика. Поскольку меня больше интересует сторона науки о данных, чем инженерия данных, это был курс, которого я ждал на протяжении всей программы и думал, что уже прошел. назад, когда я взял STAT 515. Но этот курс был намного лучше во всех отношениях! Прежде всего, это может быть спорным мнением, но я думаю, что учебник, использованный для этого курса; а именно, «Прикладная предиктивная аналитика» (2013) Макса Куна и Кьелла Джонсона намного лучше и полнее представляет собой введение в современную аналитику и машинное/статистическое обучение, чем «Введение в статистическое обучение».
Этот курс охватывает почти все, что вы хотели бы, включая предварительную обработку данных, компромисс смещения и дисперсии, переоснащение и недообучение, разделение выборки и перекрестную проверку, многомерную обыкновенную регрессию наименьших квадратов, частичные наименьшие квадраты, штрафные алгоритмы регрессии, MARS, машины опорных векторов, нейронные сети, анализ основных компонентов, деревья классификации и регрессии, случайный лес и бэггинг/бустинг, линейный и нелинейный дискриминантный анализ и метод K-ближайших соседей. Единственная неучтенная тема (помимо KNN и PCA) — это обучение без учителя, но это нормально, так как это было рассмотрено в STAT 515 и кратко в нескольких других курсах.
SYST 573: Анализ решений и рисков. Этот курс был именно тем, на что он похож, представляет несколько формальных и систематических методологий анализа решений и рисков. Анализ решений предлагает набор структурированных процедур, которые помогают лицам, принимающим решения, структурировать проблемы принятия решений и разрабатывать творческие варианты решений, количественно определять их неопределенность, а также в поддержку этих более широких концептуальных целей обучения, введение и использование логических решений для Windows (LDW). ) был сделан.
DAEN 698: Независимые исследования — поскольку это очень необычный факультативный предмет среди студентов этой программы, а также из-за открытого характера, присущего этому курсу, мне нет необходимости делиться здесь каким-либо своим опытом, потому что, если вы возьмете его запятая это будет совсем другой период.
AIT 622 — Определение потребностей в сложных системах больших данных. Этот курс был столь же разочаровывающим или даже более разочаровывающим, чем AIT 614, поэтому я не буду тратить время на его подробное описание, за исключением того, что скажу, что это очень простой A, если вы хочу один, и большая часть материала в нем уже охвачена в AIT 614 (который является еще одним факультативом, чтобы было ясно) и AIT 580, обязательным 1-м курсом. Это был единственный легкий курс во всей программе из 8 курсов, которые я прошел.
Важные общие моменты и серьезные предупреждения о программе
Смехотворно короткая продолжительность курса
Я взял оба 16-недельных семестра в общественном колледже и 10-недельных четвертей в UCI, из этих двух я предпочитаю 10 недель, но мой идеал, вероятно, будет около 12. И вот в чем загвоздка, 7,5 недель - это ОЧЕНЬ мало времени, чтобы достаточно глубоко вникнуть в какие-либо предметы, чтобы с высокой вероятностью сохранить большую часть изучаемого материала, что очень расстраивает. Кроме того, если вы отстаете в какой-либо момент из этих 7,5 недель, даже если это происходит из-за простуды или чего-то еще, это сущий кошмар, пытаясь наверстать упущенное!
Предварительные навыки и опыт программирования обязательны!
Рекрутер солгал мне, что мне не нужен опыт программирования, прямо, я справился, но во многих моментах это было излишне сложно. Многие из классов не очень сложны в написании кода, но когда есть большой проект, который требует большого количества кода, из-за того, насколько короткие курсы, не хватает времени, чтобы научиться использовать этот язык программирования, когда вы закончите курс. проект, если вы не ложитесь спать всю ночь несколько ночей в неделю, как я должен был на нескольких курсах.
Оценка очень слабая
Примерно на 5, 6 или 7 из 8 курсов, которые я прошел, если вы выполняете задание, вы обычно получаете 100% на если вы не совершите вопиющую ошибку или вопиющее упущение. Учитывая смехотворно быстрый темп этой программы, который почти всегда был слишком быстрым для меня, я рассматривал это как огромный положительный фактор. Однако, если бы курсы длились 10 или 12 недель, как они должны быть, я бы предпочел оценку уровня выпускника и обратную связь.
Уровень технической строгости на удивление низок
Эта программа, безусловно, иногда сложна, и рабочая нагрузка часто бывает серьезной, но сам материал редко бывает очень строгим на концептуальном уровне, вы можете это хорошо, я знаю, что иногда делал, но это может быть не совсем на том уровне, который вы ожидаете от магистерской программы постоянно. Например, уровень математической строгости и детализации как в STAT 515, так и в OR 568 был заметно ниже, чем в моих двух курсах эконометрики для старших классов, которые, очевидно, были на уровне бакалавриата. Сначала это беспокоило меня, пока я в конце концов не понял, что на самом деле это помогает мне лучше понять алгоритмы, намного лучше.
R используется чаще, чем Python
У меня есть трагические новости для всех вас, с пеной у рта выступающих против превосходства Python и сторонников Python Manifest Destiny; как это часто бывает в академических кругах, в этой программе предпочтение отдается бару по сравнению с Python, я бы предположил, что только 60/40, или, может быть, самое большее 70/30. Хотя я искренне предпочитаю R и RStudio Python (вероятно, потому, что я новичок в программировании со статистическими знаниями), так что в итоге это стало для меня плюсом.
Длинных экзаменов очень мало
Большинство курсов не имеют больших длинных промежуточных экзаменов, о которых вам нужно беспокоиться, и почти ни на одном из них нет выпускных экзаменов. Тем не менее, во многих курсах есть викторины, но они, как правило, легкие или среднего уровня сложности.
Большинство ваших одноклассников уже работают полный рабочий день
По моему опыту выполнения нескольких групповых проектов в рамках этой программы, почти все члены моей группы или команды работали полный рабочий день, что было действительно удивительно и впечатляет меня. Вот почему они называют это профессиональной магистерской программой, она предназначена для того, чтобы ее можно было пройти как работающий профессионал, и многие люди могут это сделать, но я, конечно, не могу.
пс. Я был вдохновлен на написание этой статьи, когда наткнулся на другую обзорную и обзорную статью о программе DAEN в GMU, опубликованную здесь на Medium ранее в этом году другим студентом программы.