Традиционные данные: методы

Термин «данные» может относиться к «необработанным фактам», «обработанным данным» или «информации».
Необработанные данные, также называемые «первичными данными», — это данные, которые нельзя сразу проанализировать. Это нетронутые данные, которые вы накопили и сохранили на сервере.

Сбор данных. Сбор необработанных данных называется сбором данных.
Данные можно собирать несколькими способами.

Предварительная обработка данных

Это необходимо выполнять на необработанных данных, чтобы получить значимую информацию. Это группа операций, которые в основном преобразуют ваши необработанные данные в более понятный формат.

Маркировка классов: маркировка точки данных правильным типом данных (или упорядочение данных по категориям).

Очистка данных: («очистка данных», «очистка данных»): работа с несогласованными данными.
Балансировка данных: обеспечение одинакового приоритета выборки для каждого класса.
Перетасовка данных. Перетасовка наблюдений из набора данных так же, как перетасовка колоды карт. Это гарантирует, что ваш набор данных свободен от нежелательных шаблонов, вызванных проблематичным сбором данных.

Традиционные данные: примеры из жизни

Числовая переменная: числа, которыми легко манипулировать, что дает нам полезную информацию
Категорическая переменная: числа, которые не имеют числового значения, могут считаться категориальными данными. Даты также считаются категориальными данными.

Большие данные: методы

Примеры больших данных: текстовые данные, данные цифровых изображений, цифровые видеоданные, цифровые аудиоданные и т. д.
Очистка данных.С большим разнообразием типов данных возникает более широкий спектр очистки данных. методы.

Интеллектуальный анализ текстовых данных. Процесс извлечения ценных неструктурированных данных из текста.
Маскирование данных. Как бизнес, когда вы работаете с личными данными пользователей, вы должны иметь возможность сохранять конфиденциальную информацию. Однако это не означает, что данные нельзя трогать или использовать для анализа. Вместо этого вы должны применить некоторые методы маскирования данных, чтобы использовать информацию без ущерба для личных данных. По сути, маскирование данных скрывает исходные данные случайными и ложными данными, позволяя проводить анализ и хранить конфиденциальную информацию в надежном месте.

Большие данные: примеры из жизни

Facebook: компания отслеживает имена пользователей, личные данные,
фотографии, видео, записанные сообщения и т. д. Это означает, что их данные имеют большое разнообразие. А с 2 миллиардами пользователей по всему миру объем данных, хранящихся на их серверах, огромен.

Бизнес-аналитика: методы

Бизнес-аналитика требует сочетания навыков работы с данными и деловых знаний
, чтобы объяснить прошлые результаты вашей компании.

Метрика. Значение, которое вытекает из полученных вами показателей и направлено на оценку эффективности или прогресса бизнеса. Связано с бизнес-значением.
Показатель: простая описательная статистика прошлых результатов
Показатель = показатель + значение для бизнеса
>KPI (ключевые показатели эффективности): нет смысла отслеживать все показатели. Таким образом, компании предпочитают сосредоточиться на наиболее важных из них. KPI = показатели + бизнес-цель.
Отфильтровать скучные показатели и превратить интересные и информативные KPI в понятные и сопоставимые визуализации — важная часть работы аналитика бизнес-аналитики.

Бизнес-аналитика: примеры из жизни

Оптимизация цен. BI позволяет корректировать вашу стратегию с учетом прошлых данных, как только они становятся доступны. Если все сделано правильно, бизнес-аналитика поможет эффективно управлять логистикой отгрузок и, в свою очередь, сократить расходы и увеличить прибыль.

Прогнозная аналитика

Традиционные методы:

Регрессия. В бизнесе и статистике регрессия — это модель, используемая для количественной оценки причинно-следственных связей между различными переменными, включенными в ваш анализ.

Логистическая регрессия является распространенным примером нелинейной модели. Значения на вертикальной линии будут только 1 и 0.

Кластеризация: группировка данных по районам для анализа значимых закономерностей
Временные ряды: используются в экономике и финансах, показывая изменение определенных ценностей с течением времени, например акций. цены или объем продаж.

Традиционные методы: примеры из жизни

Прогнозирование данных о продажах: использование данных временных рядов для прогнозирования будущих ожидаемых
продаж компании
UX: построение графика удовлетворенности клиентов и доходов клиентов, чтобы найти, что каждый кластер
представляет другое географическое положение

Машинное обучение: методы

Машинное обучение. Создание алгоритма, который затем используется компьютером для поиска модели, максимально соответствующей данным, чтобы делать очень точные прогнозы. В большинстве случаев это процесс проб и ошибок, но его особенность в том, что каждое последующее испытание, по крайней мере, так же хорошо, как и предыдущее.
Модель: компьютер использует алгоритм распознавания определенных типов паттернов
Целевая функция: спецификация задачи машинного обучения; функция, которая должна быть максимизирована или минимизирована в зависимости от поставленной задачи
Алгоритм оптимизации: процесс, в котором сравнивается предыдущее решение проблемы до достижения оптимального решения

Машинное обучение: типы

Три основных типа машинного обучения:
• Обучение под наблюдением
Обучение алгоритма похоже на то, как учитель наблюдает за своими учениками. Обеспечивает обратную связь на каждом шагу. Говорить учащимся, сделали ли они «хорошо» или им нужно улучшить свою успеваемость.
При обучении с учителем вы используете помеченные данные (каждая точка данных
классифицируется как «хорошая» успеваемость или как «успеваемость, которая требует улучшение» в нашем примере).

  • Обучение без учителя

В этом случае алгоритм обучается сам. Нет учителя, который дает
обратную связь. Алгоритм использует немаркированные данные, которые не классифицируются как «хорошие» или «производительность, требующая улучшения». Модель неконтролируемого машинного обучения просто использует данные и сортирует их по разным группам. В нашем примере он сможет показать нам две группы — «хорошо работающие» и «производительные, которые необходимо улучшить», однако модель машинного обучения не сможет сказать нам, какая из них какая.
• Обучение с подкреплением
Введена система вознаграждений. Каждый раз, когда учащийся выполняет задание лучше, чем раньше, он получает вознаграждение (и ничего, если задание не выполняется лучше). Вместо того, чтобы минимизировать ошибку, мы максимизируем вознаграждение, или, другими словами, максимизируем целевую функцию.
Глубокое обучение – современный передовой подход к машинному обучению. сила нейронных сетей и может быть отнесена к обеим категориям — контролируемое и неконтролируемое обучение.