У меня нет опыта в количественных исследованиях, и я считаю, что успех в переходе в область науки о данных не может зависеть исключительно от удачи. Прежде чем войти в отрасль, я уже начал посещать некоторые курсы по науке о данных. Я твердо верю, что если я хочу продолжить карьеру в этой области, непрерывное обучение необходимо для преодоления разрыва между мной и теми, кто имеет количественную степень.
Когда я искал различные курсы по науке о данных, я заметил, что многие люди в Европе и Соединенных Штатах уже использовали онлайн-обучение (~ 2018 г.), чтобы проникнуть в отрасль или улучшить свои навыки. Поэтому я решил использовать онлайн-курсы для создания своего профиля, и все они были необходимы для моей карьеры в Data Science.
Многочисленные платформы (Coursera, Udemy, Udacity и т. д.) предлагают первоклассные онлайн-курсы по науке о данных по доступным ценам, и многие из них предоставляют сертификаты по окончании. Конечно, эти сертификаты могут не иметь такого же веса, как степень магистра, но прохождение этих курсов может углубить ваше понимание науки о данных и продемонстрировать ваш искренний интерес к этой области, что может быть полезно при входе в отрасль.
Я хочу уточнить, что следующие 5 курсов Data Science являются моими подлинными рекомендациями и опытом обучения, и я не получил никакой компенсации за их одобрение.
1. Пройдите курс Python Bootcamp: от нуля до героя в Python — Udemy
Я считаю, что первый шаг к тому, чтобы стать специалистом по данным, — это освоить Python. В настоящее время Python занимает важное место в науке о данных, и многие библиотеки Python хорошо подходят для задач моделирования в качестве специалиста по данным. python — это отправная точка моего пути в науке о данных, и с этим мощным набором инструментов обучение машинному обучению становится более управляемым, поскольку у вас есть необходимые инструменты для вычислений.
Когда я начал изучать Python, я прошел этот буткемп, который проводил Хосе Портилья. Лично я нахожу этот курс особенно подходящим для начинающих. Его дизайн напоминает учебную программу специалиста по данным, в которой основное внимание уделяется функциональному программированию, что хорошо согласуется с потребностями специалистов по данным. Кроме того, он служит плавным переходом к другому курсу среднего уровня (представленному ниже).
Полный учебный курс Python 2020: от нуля до героя в Python
2. Python для науки о данных и машинного обучения Bootcamp — Udemy
После прохождения предыдущего курса буткемпа я сразу же записался на этот курс по науке о данных. Этот курс обучает нескольким важным библиотекам в науке о данных: Numpy, Pandas, Matplotlib и Scikit Learn. Несмотря на то, что курс только поверхностно, он служит отличным курсом среднего уровня, соединяющим Python с практическими операциями по науке о данных.
Позвольте мне объяснить, почему Numpy, Pandas, Matplotlib и Scikit Learn так важны. Scikit Learn прост для понимания и охватывает почти «все» модели машинного обучения, позволяя быстро обучать, тестировать и развертывать модели, давая толчок вашему путешествию по машинному обучению. Однако одних только этих навыков недостаточно. Анализ данных, преобразование и визуализация перед моделированием являются одинаково важными аспектами. Я углублюсь в то, как эти задачи предварительного моделирования влияют на производительность вашей модели, в другой статье, которую я рекомендую вам прочитать.
Pandas, Matplotlib и Numpy предлагают множество функций API для анализа, преобразования и визуализации данных. Вот почему многие специалисты по данным предпочитают использовать Python — удобство и практичность, которые они обеспечивают, делают работу с данными легкой задачей для специалистов по данным. Именно поэтому я рекомендую всем узнать об этих библиотеках. До 2023 года, несмотря на то, что многие альтернативы пытаются конкурировать с этими библиотеками, все еще трудно найти ту, которая сможет заменить одну из них в ближайшем будущем.
Учебный курс Python для науки о данных и машинного обучения
3. Машинное обучение — Coursera
Машинное обучение (ML) играет важную роль в науке о данных, и любая комплексная учебная программа по науке о данных, несомненно, будет включать курс ML. Этот конкретный курс ML преподается известным бывшим разработчиком проекта Google Brain и соучредителем Coursera Эндрю Нг, что сделало его довольно известным в сообществе специалистов по данным. Даже если вы в конечном итоге решите не проходить этот курс, я рекомендую всем изучить Coursera и историю Эндрю Нг.
Курс машинного обучения, предлагаемый на Coursera, представляет собой курс от начального до среднего уровня, охватывающий вводные концепции и алгоритмы обучения машинному обучению. Как новичок в машинном обучении, я настоятельно рекомендую вам пройти этот курс. Эндрю Нг подробно объясняет большинство концепций машинного обучения, а также упрощает некоторые сложные математические доказательства, оставляя их тем, кто заинтересован в самостоятельном изучении.
Кроме того, он обучает некоторым отраслевым методам моделирования, таким как разделение обучения и тестирования, проверка, ранняя остановка и т. д. Хотя эти методы не являются абсолютными, они по-прежнему служат ценными шаблонами для моделирования в современном контексте.
Coursera — это платформа массовых открытых онлайн-курсов (МООК), основанная Эндрю Нг. Он предлагает курсы, организованные совместно с университетами со всего мира, с упором на технологии и бизнес. Вы можете пройти аудит или подписаться на курс, первый из которых является бесплатным, но без доступа к заданиям курса, а второй предоставляет полный доступ ко всему курсу, включая сертификацию, за счет ежемесячной абонентской платы (цена может варьироваться в зависимости от на курсе, обратитесь к официальному сайту для получения точной информации).
Независимо от того, закончите ли вы этот конкретный курс, я настоятельно рекомендую изучить Coursera как платформу. Несмотря на то, что существуют другие известные онлайн-платформы, такие как Edx, Udemy и Udacity, я считаю, что Coursera предлагает отличное соотношение цены и качества, разумные цены и в целом поддерживает стандарты университетского уровня для своих курсов. Другие платформы можно оценить на основе личных предпочтений и потребностей.
"Машинное обучение"
4. Специализация по глубокому обучению — Coursera
Глубокое обучение — это специализация, часть серии курсов и расширение ML. Он состоит из пяти курсов, которые углубляются в концепции глубокого обучения, нейронных сетей и их приложений в различных областях. Это курс продвинутого уровня, поэтому перед регистрацией желательно иметь определенный опыт программирования на Python и базовые знания в области машинного обучения. На протяжении всей специализации я обнаружил, что раздел Convolutional Neural Network (CNN) преподавался исключительно хорошо, с многочисленными классическими примерами CNN, которые очень помогают в понимании Computer Vision.
Тем, кто прошел вышеуказанные курсы, я настоятельно рекомендую пройти этот курс по науке о данных. Он охватывает многие фундаментальные аспекты глубокого обучения, предоставляя вам более полное представление о науке о данных. Глубокое обучение — важнейший компонент науки о данных, определяющий тенденции в области искусственного интеллекта и больших данных и открывающий различные творческие возможности в области искусственного интеллекта поколения. Знакомство с глубоким обучением, несомненно, усилит ваше увлечение наукой о данных.
Специализация глубокого обучения
5. Полный курс Python/PostgreSQL 2.0 — Udemy
Наконец, я рекомендую всем пройти несколько курсов по реляционным базам данных и SQL. В другой статье я упоминал о важности SQL. SQL жизненно важен для извлечения данных из баз данных, и без данных различные теории моделирования специалистов по данным были бы бесполезны. Более того, специалистам по данным часто приходится управлять всем конвейером данных (особенно в стартапе), и SQL играет решающую роль на протяжении всего процесса, от операций ETL до извлечения данных для целей отчетности.
На рынке доступно множество различных типов реляционных баз данных, таких как Postgres, MySQL, Oracle, SQL Server и т. д., и все эти базы данных поддерживают SQL. Среди них я настоятельно рекомендую изучить Postgres. Postgres — это система управления объектно-реляционными базами данных, в первую очередь разработанная на основе платформы Unix (которую можно рассматривать как прототип для MacOS). Новичкам я рекомендую выбрать в качестве точки входа MySQL или Postgresql. Лично я склоняюсь к тому, чтобы рекомендовать Postgresql, потому что он предлагает более широкий набор функций, а его библиотека для соединения с Python, psycopg2, постоянно обновляется. С точки зрения специалиста по данным, эти функции облегчают получение необходимых данных.
Полный курс Python/PostgreSQL 2.0
Заключительные слова
Путь каждого человека в изучении науки о данных уникален. Пять курсов, упомянутых выше, были теми, которые я прошел, когда начинал (в 2017–2018 годах), но это не значит, что другие онлайн-курсы бесполезны. Я призываю всех провести тщательное исследование и разработать собственную схему обучения науке о данных.
Чтобы стать специалистом по данным, необходимо вооружиться необходимыми знаниями и навыками. Только тогда вы сможете убедить других и, что более важно, убедить себя в том, что вы компетентный специалист по данным. В условиях растущей конкуренции на должностях специалистов по данным всестороннее понимание науки о данных является ключом к успеху. Я твердо верю, что даже несмотря на то, что наука о данных продолжает развиваться, непрерывное обучение — это путь к тому, чтобы стать более ценным специалистом по данным.