Наука о данных, Образование

Ваш путь в науку о данных уникален

В современном мире информационных технологий вы можете спланировать свой собственный путь к науке о данных.

Подумайте о количестве данных, производимых во всем мире ежедневно: данные о здравоохранении, образовательные данные, финансовые данные, бизнес-данные и т. Д. По мере того как все больше и больше частей мира получают доступ к технологиям и Интернету, объем производимых данных ожидается, что рост продолжится. Поэтому наука о данных - важный навык, которому нужно научиться в 21 веке. Добавление навыков обработки данных в ваш портфель навыков повысит ваши шансы выделиться из толпы.

В мире информационных технологий существует множество ресурсов для изучения науки о данных. Любой, кто заинтересован в изучении основ науки о данных, может сделать это беспрецедентным образом. Для получения более формального образования вы можете получить степень магистра бизнес-аналитики или науки о данных. Если вы не можете позволить себе образование в колледже, вы можете получить навыки работы с данными самостоятельно.

В этой статье я поделюсь с вами своим путем в науке о данных. Путь к науке о данных уникален для всех. Если вы заинтересованы в изучении науки о данных, первое, что вам нужно сделать, это оценить себя, чтобы понять, кто вы, каков ваш опыт, сколько времени вы готовы посвятить своему путешествию в науку о данных, каков ваш опыт в математике. а программирование есть и т. д.

Прежде чем обсуждать ресурсы, которые я использовал в своем путешествии по науке о данных, вот несколько тем, с которыми нужно ознакомиться, чтобы получить базовые знания в области науки о данных.

I. Основные темы для новичков в области науки о данных

1. Основы математики

  • Функции
  • Производные
  • Метод градиентного спуска
  • Базовая статистика и вероятность (среднее значение, дисперсия, стандартное отклонение, распределения вероятностей, корреляция, центральная предельная теорема, теорема Байеса)
  • Линейная алгебра (матрицы, транспонирование, обратная, след, собственные значения, собственные векторы, определитель)

2. Основы программирования

  • тупой
  • панды
  • scikit-learn
  • matplotlib
  • морской

3. Основы данных

  • типы данных
  • источники данных
  • недостатки данных
  • очистка и предварительная обработка данных
  • масштабирование данных

4. Основы уменьшения размерности

  • метод ковариационной матрицы
  • Анализ главных компонентов
  • линейный дискриминантный анализ

5. Основы визуализации данных

  • точечные диаграммы
  • линейные графики
  • графики плотности
  • гистограммы
  • Barplots
  • тепловые карты

6. Основы линейной регрессии

  • простая линейная регрессия
  • множественная линейная регрессия

7. Основы машинного обучения (логистика, KNN, SVM, дерево решений)

  • перекрестная проверка
  • ансамблевые методы
  • количественная оценка неопределенности
  • выбор модели

II. Мое уникальное путешествие в науку свиданий

Я действительно заинтересовался наукой о данных в 2017 году, когда мой хороший друг познакомил меня с этой областью. С тех пор я изучил несколько ресурсов и продолжаю исследовать. Наука о данных - это область, которая постоянно меняется, поэтому обучение в области науки о данных длится всю жизнь. Далее я поделюсь некоторыми курсами и ресурсами, которые использовал для изучения основ науки о данных.

1. Data Camp

2. edX

HarvardX Профессиональный сертификат по специализации в области науки о данных. Включает следующие курсы, все из которых преподаются с использованием R (вы можете пройти аудит курсов бесплатно или приобрести подтвержденный сертификат):

  • Наука о данных: основы R;
  • Data Science: визуализация;
  • Наука о данных: вероятность;
  • Наука о данных: вывод и моделирование;
  • Наука о данных: инструменты повышения производительности;
  • Наука о данных: борьба;
  • Наука о данных: линейная регрессия;
  • Наука о данных: машинное обучение;
  • Наука о данных: Capstone

Georgia TechX

3. Coursera

4. YouTube

YouTube содержит несколько образовательных видео и руководств, которые могут научить вас основным навыкам математики и программирования, необходимым в науке о данных, а также несколько руководств по науке о данных для начинающих. Простой поиск приведет к появлению нескольких видеоуроков и лекций. Три моих любимых курса на YouTube:

5. Учимся по учебнику

Обучение по учебнику дает более совершенные и глубокие знания, выходящие за рамки того, что вы получаете на онлайн-курсах. Эта книга представляет собой отличное введение в науку о данных и машинное обучение, включая код: Машинное обучение Python Себастьяна Рашки. Https://github.com/rasbt/python-machine-learning-book-3rd-edition

Автор объясняет фундаментальные концепции машинного обучения таким способом, которому очень легко следовать. Кроме того, включен код, так что вы можете использовать предоставленный код для практики и создания собственных моделей. Я лично нахожу эту книгу очень полезной в моем путешествии в качестве специалиста по данным. Я бы порекомендовал эту книгу любому соискателю науки о данных. Все, что вам нужно, это базовая линейная алгебра и навыки программирования, чтобы понять книгу.

Есть много других отличных учебников по науке о данных, таких как Python для анализа данных Уэса МакКинни, Прикладное прогнозное моделирование от Kuhn & Johnson и Интеллектуальный анализ данных: практические инструменты и методы машинного обучения. »Яна Х. Виттена, Эйбе Франк и Марка А. Холла.

6. Ресурсы для сетевых и непрерывных исследований

Поскольку наука о данных - это область, которая постоянно развивается из-за технологических разработок в этой области, непрерывное изучение имеет важное значение в науке о данных. Создание сети сотрудничества с другими специалистами по обработке данных позволит вам всегда быть на высоте. Следующие платформы являются отличными ресурсами для создания сетей и непрерывных исследований.

Средний. Средний сейчас считается одной из самых быстрорастущих платформ для изучения науки о данных и сетей. Если вы заинтересованы в использовании этой платформы для самостоятельного изучения науки о данных, первым шагом будет создание учетной записи среднего размера. Вы можете создать бесплатную учетную запись или учетную запись участника. В бесплатной учетной записи есть ограничения на количество статей для участников, к которым вы можете получить доступ в месяц. Для членского аккаунта требуется ежемесячная абонентская плата в размере 5 или 50 долларов в год. Узнайте больше о том, как стать средним участником здесь: https://medium.com/membership.

Имея учетную запись участника, вы получите неограниченный доступ к статьям и публикациям в среде. Medium имеет несколько публикаций по науке о данных, которые могут помочь вам узнать о новых разработках в этой области, а также пообщаться с другими специалистами по данным или соискателями. Две самые популярные публикации в области науки о данных на этом носителе: На пути к науке о данных и На пути к искусственному интеллекту. Каждый день на носителе публикуются новые статьи, охватывающие такие темы, как наука о данных, машинное обучение, визуализация данных, программирование, искусственный интеллект и т. Д. Используя инструмент поиска на веб-сайте среды, вы можете получить доступ к такому количеству статей и руководств, охватывающих широкий спектр по темам в области науки о данных, от базовых до сложных концепций.

LinkedIn: LinkedIn - отличная платформа для нетворкинга. В LinkedIn есть несколько групп и организаций по науке о данных, к которым можно присоединиться, например, Towards AI, DataScienceHub, Towards data science, KDnuggets и т. Д. Вы также можете следить за ведущими лидерами в этой области на этой платформе.

KDnuggets: KDnuggets - ведущий сайт, посвященный искусственному интеллекту, аналитике, большим данным, интеллектуальному анализу данных, науке о данных и машинному обучению. На этом веб-сайте вы можете найти важные образовательные инструменты и ресурсы по науке о данных, а также инструменты для профессионального развития.

GitHub: GitHub содержит несколько руководств и проектов по науке о данных и машинному обучению. Помимо того, что GitHub является отличным ресурсом для обучения наукам о данных, он также является отличной платформой для организации проектов и создания портфолио. Для получения дополнительной информации о создании портфолио по науке о данных на GitHub, пожалуйста, прочтите следующую статью: Создание выделяющегося портфолио с использованием этих платформ.

Kaggle: Kaggle - это крупнейшее в мире сообщество специалистов по науке о данных, располагающее мощными инструментами и ресурсами, которые помогут вам в достижении ваших целей в области науки о данных. Kaggle позволяет пользователям находить и публиковать наборы данных, исследовать и строить модели в веб-среде обработки данных, работать с другими специалистами по обработке данных и инженерами по машинному обучению, а также участвовать в соревнованиях по решению задач в области науки о данных. На этой платформе вы можете получить доступ к наборам данных, курсам, тетрадям и соревнованиям. По мере того, как вы участвуете в проектах и ​​конкурсах Kaggle, ваши знания и опыт в области науки о данных будут расти. Kaggle также является отличной платформой для общения с другими практиками и энтузиастами в области науки о данных.

III. Резюме

Таким образом, я представил несколько ресурсов, которые использовал в своем путешествии по науке о данных. Путь к науке о данных уникален для всех. Если вы заинтересованы в изучении науки о данных, первое, что вам нужно сделать, это оценить себя, чтобы понять, кто вы, каков ваш опыт, сколько времени вы готовы посвятить своему путешествию в науку о данных, каков ваш опыт в математике. программирование и т. д. Как только вы выясните, чего хотите, вы можете выбрать нужные ресурсы, которые помогут вам овладеть основами науки о данных.