Профилирование данных в машинном обучении

Профилирование данных является одним из основных этапов анализа данных, целью которого является сбор описательной статистики и информативных сводок данных. Исследователь данных использует результаты этого первого шага, чтобы обнаружить бизнес-знания, скрытые в данных, это помогает ему принять решение о стратегии моделирования, необходимой для анализа.

В этом посте я буду говорить, в частности, о профилировании данных в электронной коммерции в качестве примера. Предположим, у нас есть некоторые данные, собранные с веб-сайта компании, и мы хотим сгруппировать типичных или идеальных клиентов для данного бизнеса, чтобы соответствующим образом предложить адекватные услуги. Проблема здесь называется анализом профиля клиента.

Профилирование клиентов основано в основном на статистических методах, позволяющих
компании осуществлять свою маркетинговую стратегию и принимать наилучшие решения, учитывая предпочтения своих клиентов, как сказал Орвел Рэй Уилсон, эксперт по маркетингу, Клиенты покупают за свои деньги. причины, а не ваши.[1], поэтому компании должны быть выровнены в соответствии с тем, чего хочет покупатель, а не наоборот!

Анализ данных о просмотрах и покупках пользователей на веб-сайте помогает сделать интересные выводы об их текущих потребностях и предсказать их поведение в будущем (предиктивный анализ). В последнее время несколько компаний также использовали другой важный источник информации для удовлетворения этой потребности, он включает анализ мнений пользователей (анализ настроений) для улучшения скрытых данных, содержащихся в их отзывах о покупке или взаимодействии на веб-сайте.

Таким образом, основная идея основана на использовании интеллектуальных методов науки о данных и машинного обучения для анализа данных, собранных на веб-сайте, для сегментации профилей пользователей и помощи компании, с одной стороны, в принятии правильных решений, а с другой. стороны, чтобы позволить пользователю жить оптимально, находя то, что он ищет, легко и быстро, а также предвидя свои будущие потребности.

МАШИННОЕ ОБУЧЕНИЕ ДЛЯ ПРОФИЛИРОВАНИЯ КЛИЕНТА

Инструменты обработки данных и машинного обучения помогают анализировать данные для принятия решений и прогнозирования будущих событий. Давайте поговорим о некоторых полезных подходах к решению этой проблемы. В зависимости от качества доступных данных и основной цели экспертов можно представить себе несколько моделей машинного обучения.

  • Во-первых, мы можем смоделировать проблему как предиктивную причинно-следственную аналитику, чтобы предсказать вероятность возникновения события в будущем на основе прошлого. например. Прогнозировать, будет ли покупатель заинтересован в продукте, на основе его истории покупок других продуктов. (подробнее о причинно-следственном анализе и прогнозировании временных рядов)
  • Моделирование предписывающей аналитики для создания рекомендательных систем представляет собой более глубокое видение, когда модель удовлетворяется не только использованием прошлого для предсказания настоящего, но и предлагает несколько возможных новых действий с их предсказуемыми результатами. например. предложить рекомендательную систему, которая использует, например, отзывы клиентов о продукте. (узнайте больше о системах рекомендаций, обработке естественного языка и анализе настроений)
  • Моделирование прогнозной сегментации: с использованием, например, неконтролируемых подходов ML для обнаружения закономерностей в данных. например. Сегментация пользователей для
    обнаружения похожих профилей для предложения целевых продуктов и услуг. (узнайте больше о кластеризации и анализе графов)

Профилирование данных в Python:

Предположим, что мы хотим исследовать набор данных с помощью простой функции в Python. Начнем с определения следующей простой функции: data_profiling().

импортировать панд как pd

из pandas_profiling импортировать ProfileReport

def data_profiling(df):
profile = ProfileReport(df,title=”Профиль набора данных”)
profile.to_widgets() # при использовании Jupyter
вернуть data_profiling(df)

Для профилирования данных существует множество других библиотек Python, таких как skimpy, Dataprep, Sweetviz и Autoviz.

#скудный

от скудного импорта

обезжирить (df)

#подготовка данных

из импорта dataprep.eda *

из dataprep.eda импортировать график, plot_correlation, plot_missing, plot_diff, create_report

создать_отчет (df)

#Свитвиз

импортировать sweetviz как sv

отчет = sweetviz.analyze(df)

Попробуйте это на своем наборе данных и расскажите нам больше о своих выводах и интерпретациях в комментариях 😉.

Автор: Халида Доуиби, доктор философии

Для получения дополнительной информации, связанной с Data Science, ML, посетите мой Linkedin: https://www.linkedin.com/in/khalida-douibi/

#наука о данных #искусственный интеллект #машинное обучение #кандидат наук #инновации #исследования #ученый по данным

Использованная литература:

https://github.com/ydataai/pandas-profiling