Введение
Привет!! Меня зовут Санджай, мне 18 лет, и я учусь на первом курсе компьютерных наук. Я работаю в технике уже почти два года. Ранее я работал UI/UX дизайнером и Front-end разработчиком (в основном удаленная работа).
Это мой первый блог, связанный со специализацией/работой с данными. В течение нескольких месяцев я был в кроличьей норе, как крупные технологические компании и стартапы используют большие данные для облегчения принятия решений и улучшения качества продуктов или услуг в компании. Итак, сегодня я пишу этот блог по двум основным причинам:
- Из-за обилия контента, доступного в Интернете, и людей, которые делятся своим опытом работы с данными, я изо всех сил стараюсь обобщить все, что я узнал за последние два месяца.
- Формулировка и письмо (технически) обострят мое понимание концепции или темы. Это также поможет лучше структурировать мои мысли и мнения.
Итак, в своем первом блоге я расскажу о том, чем на самом деле занимается команда по обработке данных — инженер данных, специалист по данным и аналитик данных в большинстве компаний.
Обзор группы данных
Основная цель группы обработки данных (в большинстве компаний) – обеспечить поддержку принятия решений для других групп. Группа данных дает четкое представление о том, как маркетинговая команда может получить информацию о продажах, менеджеры по продуктам получают информацию о пользовательском опыте, а финансовая команда получает информацию о доходах, затратах и прибыльности.
В группе данных есть три основные роли: инженер данных, специалист по данным и аналитик данных. И эти три основные роли облегчают вышеуказанные шаги. Необработанные данные могут быть извлечены из Google Analytics, обзоров или форумов обратной связи (в самой необработанной форме).
Инженер данных
Data Engineer работает в первой и последней части жизненного цикла данных. Они должны работать как с необработанными данными, так и с производством. Здесь производство означает любую модель или программное обеспечение, которое работает в общедоступной среде или открыто для конечных пользователей. Например — Модели предложений или алгоритм, работающий на веб-сайте.
С точки зрения навыков, которыми должен обладать инженер данных, SQL имеет важное значение. Каждый член группы данных должен иметь глубокое понимание SQL, но инженеры данных должны обладать высочайшим уровнем владения им. Они также должны иметь практические знания и понимание языков программирования, таких как Python, JVM или Scala.
Одним из основных навыков, которым должен обладать Data Engineer, является ETL/ELT — извлечение нагрузки преобразования. ETL — это длительный процесс Извлечения данных из нескольких источников, преобразования этих данных — удаления ошибок, изменения форматов и многого другого, загрузки данных в реляционную базу данных, такую как MySQL, или в Информационные дома.
Многие инженеры данных также хорошо разбираются в облачных сервисах — AWS, Azure и т. д.
Специалист по данным
Data Scientist (DS) в основном работает над моделями. Они должны создавать модели машинного обучения и работать с ними. Проще говоря, специалист по данным использует предоставленные данные (после процесса ETL) и генерирует новые данные. Например, в приложении компании, занимающейся доставкой еды, ученый должен построить модель, чтобы предсказать предполагаемую доставку еды на дом клиента. Для этого DS должен учитывать время, необходимое для приготовления блюда, время, необходимое курьеру для доставки еды, и данные в реальном времени, такие как трафик или строительство. Не только расчетное время, но и время истинности (после того, как пища была доставлена), поэтому они должны продолжать улучшать модель с фактическими данными и с оценочными данными.
Говоря об их навыках, у них есть навыки SQL, в основном математические (статистические) навыки, сквозное понимание моделей машинного обучения, кодирование язык — Python/R.
Аналитик данных
Аналитик данных (DA) работает над частью Потребление. После того, как Data Scientist создает модели, аналитик данных должен извлечь и уточнить данные конечного пользователя, например обзор, отзывы и данные об общем взаимодействии с пользователем. Обычно они используют инструменты Business Intelligence (BI) для преобразования этих данных в общие данные или статистику, понятные человеку, в виде визуальных изображений. Обычно хорошо иметь лучшее понимание бизнеса или знание области, над которой они работают.
Они также должны предоставить или ответить на специальное задание, такое как «Каков объем продаж в Европе в третьем квартале?». Аналитик данных должен обладать навыками SQL и BI, но, что наиболее важно, он должен обладать отличными навыками общения. Большую часть времени нетехнический член команды обращается к DA за любой информацией или вопросами по проанализированным данным.
Заключение
Итак, это полный обзор членов команды данных и их ролей. Я сделаю все возможное, чтобы поделиться более подробной технической информацией обо всех ролях и процессах, которые я изучил. Я буду публиковать больше блогов, связанных с данными и машинным обучением в реальном мире, так что следите за обновлениями и подписывайтесь на меня, чтобы лучше понять данные из реального мира. Спасибо!!