Я взял перерыв в карьере, чтобы провести время с семьей, и решил освоить некоторые новые навыки — эта статья призвана обобщить мои новые знания о науке о данных и обсудить мой опыт использования CodeAcademy для пути Data Scientist.

Что такое наука о данных и каково это учиться в CodeAcademy?

Наука о данных поддерживает принятие решений с помощью анализа данных. Сам курс CodeAcademy обучает вас базовым навыкам работы с большими наборами данных, их анализа с использованием различных библиотек Python и визуализации ваших результатов в виде удобных для создания графиков и диаграмм.

Кроме того, вы также познакомитесь с Python на хорошем уровне детализации, что позволит вам создавать программы с использованием Python 3 и начать работать вне платформы CodeAcademy.

Сама платформа имеет отличную структуру, которая поможет вам пройти учебный план, а также множество материалов для чтения на CodeAcademy и ссылки на полезные статьи. CodeAcademy сияет благодаря использованию интерактивного модуля программирования, который позволяет вам опробовать свой код вживую на веб-браузер. Он также имеет функцию проверки вашего кода, предоставления рекомендаций и доступа к решению, если оно вам нужно. CodeAcademy поощряет вас программировать в группах и включает вас в когорту других программистов, которые проходят тот же курс, что и вы — вы можете общаться и работать друг с другом через форум CodeAcademy или используя их сервер Discord.

Однако я обнаружил, что, несмотря на то, что люди были достаточно отзывчивы в Discord и на форумах, я не смог найти никого, кто занимался бы той же частью программы, что и я, поэтому в итоге я сделал много проектов самостоятельно.

Чему вы научились?

  1. Программирование на Python — помимо базового синтаксиса, я мог кодировать, используя циклы, словари, фреймы данных, классы и пробовать свои навыки в различных задачах.
  2. Сбор данных — узнали о различных источниках данных и о том, как можно создавать собственные наборы данных с помощью общедоступных API. Я также использовал классную библиотеку Python под названием BeautifulSoup, которая позволяет брать данные, отображаемые на веб-сайтах, и вставлять их в свой код.
  3. Манипуляции с данными и обработка данных. Я стал увереннее собирать и обрабатывать данные с помощью SQL и библиотеки Python под названием Pandas, а также управлять данными, чтобы они были более единообразными с библиотеками регулярных выражений Python. Обеспечение согласованности и хорошей организации ваших данных необходимо для более сложной аналитики данных, которую вы можете запустить.
  4. Базовый статистический анализ — я пересмотрел некоторые статистические данные со школьных времен (средние значения, дисперсия, стандартное отклонение, квартили и т. д.), создав функции на Python, а затем используя встроенные в Python библиотеки Numpy и Stats, в которые встроены статистические функции, что упрощает использовать.
  5. Проверка гипотез — я узнал о проверке гипотез и о том, как реализовать их в Python, включая t-тесты с 1 и 2 выборками, ANOVA, тест диапазона Тьюки, биномиальный тест и тест хи-квадрат. По сути, возможность проверить предположения на части данных и рассчитать вероятность того, соответствует ли она порогу значимости для остальной части совокупности результатов.
  6. Визуализация данных. Одной из моих любимых частей курса было использование библиотек Python matlib и seaborn для создания красивых диаграмм и графиков, иллюстрирующих распределение данных из определенных наборов данных, доступных на Kaggle.com.
  7. Обработка естественного языка. Игра с библиотекой Python NLTK для анализа фрагментов текста на предмет их значения открыла глаза. В равной степени узнайте о предвзятости в использовании поисковой системой этих инструментов и этических обязанностях кодеров для обеспечения инклюзивности.
  8. Машинное обучение — я узнал о мощных инструментах машинного обучения Python и о том, как их можно использовать для создания прогностических моделей данных. По сути, подача в библиотеку python (например, классификаторов K-Nearest Neighbor или Naive Bayes) набора данных, скажем, твитов из Twitter, а затем использование модели для прогнозирования поведения нового твита, например. станет вирусным или нет
  9. Глубокое обучение. Это было просто довольно базовое введение в некоторые концепции глубокого обучения.

В целом, я чувствовал, что мне удалось выучить новый язык программирования и приобрести некоторые новые навыки работы с большими наборами данных для принятия бизнес-решений. Я надеюсь, что буду использовать их постоянно в будущем, а также постараюсь поделиться своим прогрессом на среде.