Университет WorldQuant подготовил для вас курс Applied Data Science Lab. Этот курс для самостоятельного обучения предназначен для того, чтобы помочь людям развить свои навыки в области науки о данных и машинного обучения с помощью восьми различных проектов, которые варьируются от изучения цен на жилье в Мексике до прогнозирования качества воздуха в Кении.
Одно из лучших преимуществ этого курса в том, что он бесплатный! Стоимость не должна быть препятствием для людей, которые заинтересованы в карьере в области науки о данных, и Университет WorldQuant признает это. Курс обеспечивает динамическую учебную среду, которая позволяет учащимся получать обратную связь в режиме реального времени и сотрудничать со своими сверстниками. Это гарантирует, что студенты получат поддержку, необходимую им для успешного завершения курса.
Чтобы записаться на курс, у вас должны быть навыки Python начального уровня и знакомство с базовой статистикой. После того, как вы подадите заявку на курс, вам нужно будет пройти тест, где вы должны набрать более 66% правильных ответов. Поскольку все вопросы предполагают множественный выбор, вы, вероятно, сможете получить его с первой попытки.
Курс состоит из восьми различных проектов, каждый из которых призван помочь учащимся развить свои навыки в различных областях науки о данных и машинного обучения. Например, в первом проекте учащиеся используют набор данных из 21 000 объектов недвижимости, чтобы определить, влияют ли на цены недвижимости больше размер или местоположение недвижимости. Они импортируют и очищают данные из CSV-файла, создают визуализацию данных и исследуют взаимосвязь между двумя переменными с помощью корреляции. Во втором проекте учащиеся строят модель линейной регрессии для прогнозирования цен на квартиры в Аргентине. Они создают конвейер данных для заполнения пропущенных значений и кодирования категориальных признаков, а также улучшают производительность модели за счет уменьшения переобучения.
По завершении курса студенты смогут запрашивать различные типы баз данных, очищать беспорядочные данные, строить прогностические модели для регрессии и классификации, а также создавать привлекательные визуализации для заинтересованных сторон проекта. Курс также уделяет особое внимание этическим, социальным и экологическим последствиям науки о данных и машинного обучения.
В целом, курс Applied Data Science Lab Университета WorldQuant — отличная возможность для людей, которые заинтересованы в развитии своих навыков в области науки о данных и машинного обучения. Этот курс с упором на реальные проекты и совместное обучение обеспечивает отличную основу для людей, которые хотят продолжить карьеру в этой захватывающей и развивающейся области.
Лабораторные проекты:
- 1. ЖИЛЬЕ В МЕКСИКЕ. Учащиеся используют набор данных из 21 000 объектов недвижимости, чтобы определить, влияют ли на цены недвижимости больше размер или местоположение объекта. Они импортируют и очищают данные из CSV-файла, создают визуализацию данных и исследуют взаимосвязь между двумя переменными с помощью корреляции.
- 2. ПРОДАЖА КВАРТИР В БУЭНОС-АЙРЕСЕ. Учащиеся строят модель линейной регрессии для прогнозирования цен на квартиры в Аргентине. Они создают конвейер данных для заполнения пропущенных значений и кодирования категориальных признаков, а также улучшают производительность модели за счет уменьшения переобучения.
- 3. КАЧЕСТВО ВОЗДУХА В НАИРОБИ: Учащиеся строят модель временного ряда ARMA для прогнозирования уровней твердых частиц в Кении. Они извлекают данные из базы данных MongoDB с помощью pymongo и улучшают производительность модели за счет настройки гиперпараметров.
- 4. УЩЕРБ ОТ ЗЕМЛЕТРЯСЕНИЯ В НЕПАЛЕ. Учащиеся строят модели логистической регрессии и дерева решений для прогнозирования ущерба, нанесенного зданиям землетрясением. Они извлекают данные из базы данных SQLite и выявляют ошибки в данных, которые могут привести к дискриминации.
- 5. БАНКРОТСТВО В ПОЛЬШЕ. Учащиеся строят модели случайного леса и градиентного бустинга, чтобы предсказать, обанкротится ли компания. Они перемещаются по командной строке Linux, устраняют несбалансированность данных с помощью передискретизации и учитывают влияние точности и полноты показателей производительности.
- 6. СЕГМЕНТАЦИЯ ПОКУПАТЕЛЕЙ В США. Учащиеся строят модель k-средних, чтобы объединить потребителей США в группы. Они используют анализ основных компонентов (PCA) для визуализации данных и создают интерактивную информационную панель с помощью Plotly Dash.
- 7. A/B-ТЕСТИРОВАНИЕ В WORLDQUANT UNIVERSITY: Учащиеся проводят тест хи-квадрат, чтобы определить, может ли отправка электронного письма увеличить число зачисленных в программу WQU. Они создают пользовательские классы Python для реализации процесса ETL и создают интерактивное приложение для работы с данными в соответствии с трехуровневым шаблоном проектирования.
- 8. ПРОГНОЗИРОВАНИЕ ВОЛАТИЛЬНОСТИ В ИНДИИ. Учащиеся создают модель временных рядов GARCH для прогнозирования волатильности активов. Они получают биржевые данные через API, очищают и сохраняют их в базе данных SQLite и создают свой API для обслуживания прогнозов моделей.
Надеюсь, вы найдете эту статью полезной.