В моей предыдущей статье я рассказал, как быть аналитиком данных и что нужно делать, с предложениями по проектам и ресурсам. В этой статье я хотел больше сосредоточиться на науке о данных, машинном обучении и глубоком обучении. Я постараюсь сделать эту статью немного более ориентированной на ресурсы и короткой.
В науке о данных вам необходимо приобрести несколько технических навыков, таких как:
- Статистика
- Программирование (R & Python)
Python — лучшая отправная точка, если вы хотите работать в таких областях науки о данных, как глубокое обучение и искусственный интеллект. Если вы предпочитаете чисто статистические методологии и построение моделей, вы можете начать с R. Помните, что вы всегда можете изучить другой язык позже. - SQL и NoSQL
- Очистка данных
- Исследовательский анализ данных (EDA)
Введение в EDA By Code Heroku’s
Блог — Выполнение EDA на наборе данных Iris
Курс Coursera по EDA, статистике, вероятности - Алгоритмы и модели (машинное обучение, глубокое обучение, обработка естественного языка (Введение в НЛП Фила Каллитона), большие данные, облачные вычисления)
Data Scientist должен владеть машинным обучением. Машинное обучение используется для создания различных моделей прогнозирования и моделей классификации, а также используется крупными корпорациями для оптимизации планирования на основе прогнозов. Глубокое обучение, с другой стороны, является более продвинутым вариантом машинного обучения, в котором используются нейронные сети. - Визуализация данных и рассказывание историй
Наука о данных отличается от анализа данных тем, что она включает использование алгоритмических методов и создание моделей для получения информации. В результате вы можете посмотреть предложения по ресурсам в моем предыдущем посте здесь для образования, технических навыков и идей для портфолио проектов, поскольку все они одинаковы. DAT8 by justmarkham на Github также содержит подробные рекомендации по ресурсам по каждой теме.
Когда вы достаточно уверены в себе, вы можете участвовать в соревнованиях, проводимых Kaggle и Analytics Vidhya. Это не только поможет вам укрепить свои способности в науке о данных, но и поможет вам лучше учиться на собственном опыте.
Онлайн-курсов по машинному обучению и глубокому обучению много, и они точно будут полезны. Примером одного из них является freeCodeCamp и другие, перечисленные ниже. Для машинного обучения в Python вам следует научиться использовать библиотеку scikit-learn. И есть бесплатный курс Школы данных Введение в машинное обучение с scikit-learn», чтобы дать вам представление как новичку.
Машинное обучение Эндрю Н.Г.
Глубокое обучение Криш Naik
Введение в машинное обучение от Kaggle
Машинное обучение от Krish Naik
Специализация Coursera по глубокому обучению
Библиотеки с открытым исходным кодом в разных областях, чтобы помочь вам в области машинного обучения
TensorFlow — может использоваться для ряда задач, но с особым акцентом на обучение и вывод Deep Neural Networks.
Keras — библиотека глубокого обучения и высокоуровневый API нейронных сетей, который может работать на TensorFlow.
OpenCV — одна из наиболее широко используемых библиотек обработки изображений.
Рекомендуемым курсом Data Science может быть IBM — Data Science Professional Certificate через Coursera.
В дополнение к курсам чтение блогов поможет вам быть в курсе последних достижений в этой области и открыть для себя возможности понимать и читать на языке людей, которые изучают те же дисциплины, что и вы. Поскольку самые последние технологии в настоящее время сосредоточены на глубоком обучении, расширение ваших знаний по этой теме также поможет вам идти в ногу с самыми последними инновациями. Наконец, я оставлю вам два сайта с информационными бюллетенями, чтобы вы могли подписаться на свой адрес электронной почты и быть в курсе последних новостей науки о данных.
Kaggle
Towards Data Science
Machine Мастерство обучения
Эликсир данных
Еженедельник науки о данных
Совет. Если есть темы, которые вам трудно понять и найти ресурсы, написание статей, в которых вы приводите примеры и объясняете на понятном всем языке/визуализируйте их с помощью видео, поможет вам быть источником этой темы, это то, чего я планирую достичь с помощью своего среднего аккаунта.
Идеи проекта
Такие платформы, как Netflix и YouTube, ценят информацию своих клиентов и то, что они смотрят, чтобы предоставлять своим зрителям наилучшие услуги и предлагать последовательные предложения. Это не только делает пользователей довольными тем, что они смотрят, но и позволяет дольше оставаться на этой платформе и позволяет технологиям лучше узнать их. Если вам интересна эта тема, вы можете получить набор данных MovieLens и использовать его для создания собственного проекта системы рекомендаций.
После того, как вы определились с интересующей вас областью, гораздо проще найдите набор данных и разработайте проект об этом поле, просто подумайте об этом.
Управляемые проекты Coursera
НЛП: анализ настроений в Твиттере
Исследовательский анализ данных с помощью Python и Pandas
Управляемые проекты DataQuest
Введение в Pandas и NumPy для анализа данных
Промежуточный уровень Python для науки о данных
Введение в визуализацию данных в Python
Очистка и анализ данных в Python
Прохождение проекта очистки данных
Книги
«Рассказывание историй с помощью данных, Коул Нуссбаумер Кнафлик»
«Проектирование систем машинного обучения с помощью Python, Дэвид Джулиан»
«Практическое машинное обучение с помощью Scikit-Learn, Keras & Tensorflow, Орельен Жерон»
Каналы YouTube
(как образовательные, так и люди из этой сферы)
3Blue1Brown
Simplilearn
AssemblyAI
StatQuest с Джошем Стармером
Greg Hogg
Девица в данных
Тина Хуанг
Кен Джи
Почти астрофизик
Я старался сделать эту статью короткой, с минимальным количеством определений и как можно большим количеством бесплатных источников. Надеюсь, вам понравилось ее читать, и она вдохновит вас начать читать, исследовать и учиться. Есть много других рекомендуемых ресурсов, и вы обнаружите их в ходе исследования ситуаций, с которыми вы столкнетесь, когда будете участвовать. До встречи в моих следующих статьях.
Ссылки
Агарвал, Адитья. 2021. «Руководство о том, как стать специалистом в области науки о данных (пошаговый подход).»
Школа данных. «Как начать карьеру в науке о данных.»
Шарма, Праншу. 12 апреля 2021 г. «Пошаговое руководство, как стать специалистом по данным (с нуля!). Аналитика Видья.»