Наука о данных, Образование
Ваш путь в науку о данных уникален
В современном мире информационных технологий вы можете спланировать свой собственный путь к науке о данных.
Подумайте о количестве данных, производимых во всем мире ежедневно: данные о здравоохранении, образовательные данные, финансовые данные, бизнес-данные и т. Д. По мере того как все больше и больше частей мира получают доступ к технологиям и Интернету, объем производимых данных ожидается, что рост продолжится. Поэтому наука о данных - важный навык, которому нужно научиться в 21 веке. Добавление навыков обработки данных в ваш портфель навыков повысит ваши шансы выделиться из толпы.
В мире информационных технологий существует множество ресурсов для изучения науки о данных. Любой, кто заинтересован в изучении основ науки о данных, может сделать это беспрецедентным образом. Для получения более формального образования вы можете получить степень магистра бизнес-аналитики или науки о данных. Если вы не можете позволить себе образование в колледже, вы можете получить навыки работы с данными самостоятельно.
В этой статье я поделюсь с вами своим путем в науке о данных. Путь к науке о данных уникален для всех. Если вы заинтересованы в изучении науки о данных, первое, что вам нужно сделать, это оценить себя, чтобы понять, кто вы, каков ваш опыт, сколько времени вы готовы посвятить своему путешествию в науку о данных, каков ваш опыт в математике. а программирование есть и т. д.
Прежде чем обсуждать ресурсы, которые я использовал в своем путешествии по науке о данных, вот несколько тем, с которыми нужно ознакомиться, чтобы получить базовые знания в области науки о данных.
I. Основные темы для новичков в области науки о данных
1. Основы математики
- Функции
- Производные
- Метод градиентного спуска
- Базовая статистика и вероятность (среднее значение, дисперсия, стандартное отклонение, распределения вероятностей, корреляция, центральная предельная теорема, теорема Байеса)
- Линейная алгебра (матрицы, транспонирование, обратная, след, собственные значения, собственные векторы, определитель)
2. Основы программирования
- тупой
- панды
- scikit-learn
- matplotlib
- морской
3. Основы данных
- типы данных
- источники данных
- недостатки данных
- очистка и предварительная обработка данных
- масштабирование данных
4. Основы уменьшения размерности
- метод ковариационной матрицы
- Анализ главных компонентов
- линейный дискриминантный анализ
5. Основы визуализации данных
- точечные диаграммы
- линейные графики
- графики плотности
- гистограммы
- Barplots
- тепловые карты
6. Основы линейной регрессии
- простая линейная регрессия
- множественная линейная регрессия
7. Основы машинного обучения (логистика, KNN, SVM, дерево решений)
- перекрестная проверка
- ансамблевые методы
- количественная оценка неопределенности
- выбор модели
II. Мое уникальное путешествие в науку свиданий
Я действительно заинтересовался наукой о данных в 2017 году, когда мой хороший друг познакомил меня с этой областью. С тех пор я изучил несколько ресурсов и продолжаю исследовать. Наука о данных - это область, которая постоянно меняется, поэтому обучение в области науки о данных длится всю жизнь. Далее я поделюсь некоторыми курсами и ресурсами, которые использовал для изучения основ науки о данных.
1. Data Camp
2. edX
HarvardX Профессиональный сертификат по специализации в области науки о данных. Включает следующие курсы, все из которых преподаются с использованием R (вы можете пройти аудит курсов бесплатно или приобрести подтвержденный сертификат):
- Наука о данных: основы R;
- Data Science: визуализация;
- Наука о данных: вероятность;
- Наука о данных: вывод и моделирование;
- Наука о данных: инструменты повышения производительности;
- Наука о данных: борьба;
- Наука о данных: линейная регрессия;
- Наука о данных: машинное обучение;
- Наука о данных: Capstone
Georgia TechX
3. Coursera
4. YouTube
YouTube содержит несколько образовательных видео и руководств, которые могут научить вас основным навыкам математики и программирования, необходимым в науке о данных, а также несколько руководств по науке о данных для начинающих. Простой поиск приведет к появлению нескольких видеоуроков и лекций. Три моих любимых курса на YouTube:
- Линейная алгебра Гилберта Стрэнга
- Введение в глубокое обучение Александра Амини
- Введение в вычислительное мышление и науку о данных Джона Гуттага и Эрика Гримсона
5. Учимся по учебнику
Обучение по учебнику дает более совершенные и глубокие знания, выходящие за рамки того, что вы получаете на онлайн-курсах. Эта книга представляет собой отличное введение в науку о данных и машинное обучение, включая код: Машинное обучение Python Себастьяна Рашки. Https://github.com/rasbt/python-machine-learning-book-3rd-edition
Автор объясняет фундаментальные концепции машинного обучения таким способом, которому очень легко следовать. Кроме того, включен код, так что вы можете использовать предоставленный код для практики и создания собственных моделей. Я лично нахожу эту книгу очень полезной в моем путешествии в качестве специалиста по данным. Я бы порекомендовал эту книгу любому соискателю науки о данных. Все, что вам нужно, это базовая линейная алгебра и навыки программирования, чтобы понять книгу.
Есть много других отличных учебников по науке о данных, таких как Python для анализа данных Уэса МакКинни, Прикладное прогнозное моделирование от Kuhn & Johnson и Интеллектуальный анализ данных: практические инструменты и методы машинного обучения. »Яна Х. Виттена, Эйбе Франк и Марка А. Холла.
6. Ресурсы для сетевых и непрерывных исследований
Поскольку наука о данных - это область, которая постоянно развивается из-за технологических разработок в этой области, непрерывное изучение имеет важное значение в науке о данных. Создание сети сотрудничества с другими специалистами по обработке данных позволит вам всегда быть на высоте. Следующие платформы являются отличными ресурсами для создания сетей и непрерывных исследований.
Средний. Средний сейчас считается одной из самых быстрорастущих платформ для изучения науки о данных и сетей. Если вы заинтересованы в использовании этой платформы для самостоятельного изучения науки о данных, первым шагом будет создание учетной записи среднего размера. Вы можете создать бесплатную учетную запись или учетную запись участника. В бесплатной учетной записи есть ограничения на количество статей для участников, к которым вы можете получить доступ в месяц. Для членского аккаунта требуется ежемесячная абонентская плата в размере 5 или 50 долларов в год. Узнайте больше о том, как стать средним участником здесь: https://medium.com/membership.
Имея учетную запись участника, вы получите неограниченный доступ к статьям и публикациям в среде. Medium имеет несколько публикаций по науке о данных, которые могут помочь вам узнать о новых разработках в этой области, а также пообщаться с другими специалистами по данным или соискателями. Две самые популярные публикации в области науки о данных на этом носителе: На пути к науке о данных и На пути к искусственному интеллекту. Каждый день на носителе публикуются новые статьи, охватывающие такие темы, как наука о данных, машинное обучение, визуализация данных, программирование, искусственный интеллект и т. Д. Используя инструмент поиска на веб-сайте среды, вы можете получить доступ к такому количеству статей и руководств, охватывающих широкий спектр по темам в области науки о данных, от базовых до сложных концепций.
LinkedIn: LinkedIn - отличная платформа для нетворкинга. В LinkedIn есть несколько групп и организаций по науке о данных, к которым можно присоединиться, например, Towards AI, DataScienceHub, Towards data science, KDnuggets и т. Д. Вы также можете следить за ведущими лидерами в этой области на этой платформе.
KDnuggets: KDnuggets - ведущий сайт, посвященный искусственному интеллекту, аналитике, большим данным, интеллектуальному анализу данных, науке о данных и машинному обучению. На этом веб-сайте вы можете найти важные образовательные инструменты и ресурсы по науке о данных, а также инструменты для профессионального развития.
GitHub: GitHub содержит несколько руководств и проектов по науке о данных и машинному обучению. Помимо того, что GitHub является отличным ресурсом для обучения наукам о данных, он также является отличной платформой для организации проектов и создания портфолио. Для получения дополнительной информации о создании портфолио по науке о данных на GitHub, пожалуйста, прочтите следующую статью: Создание выделяющегося портфолио с использованием этих платформ.
Kaggle: Kaggle - это крупнейшее в мире сообщество специалистов по науке о данных, располагающее мощными инструментами и ресурсами, которые помогут вам в достижении ваших целей в области науки о данных. Kaggle позволяет пользователям находить и публиковать наборы данных, исследовать и строить модели в веб-среде обработки данных, работать с другими специалистами по обработке данных и инженерами по машинному обучению, а также участвовать в соревнованиях по решению задач в области науки о данных. На этой платформе вы можете получить доступ к наборам данных, курсам, тетрадям и соревнованиям. По мере того, как вы участвуете в проектах и конкурсах Kaggle, ваши знания и опыт в области науки о данных будут расти. Kaggle также является отличной платформой для общения с другими практиками и энтузиастами в области науки о данных.
III. Резюме
Таким образом, я представил несколько ресурсов, которые использовал в своем путешествии по науке о данных. Путь к науке о данных уникален для всех. Если вы заинтересованы в изучении науки о данных, первое, что вам нужно сделать, это оценить себя, чтобы понять, кто вы, каков ваш опыт, сколько времени вы готовы посвятить своему путешествию в науку о данных, каков ваш опыт в математике. программирование и т. д. Как только вы выясните, чего хотите, вы можете выбрать нужные ресурсы, которые помогут вам овладеть основами науки о данных.