Значения SHAP для звезд, жанров и т. д.
В этой статье я использую набор данных около 3200 триллеров, взятых с сайта IMDb. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.
Шаг 1 — предварительная обработка данных
Здесь предварительная обработка данных состоит из следующих шагов:
- log10-преобразование времени выполнения серий в минутах с помощью правила
x->np.log10(1+x)
(так что 0 преобразуется в 0, 9 в 1,0, 99 в 2,0 и т. д.) и группируется в более крупные ячейки; - извлечение информации о жанрах и звездах с помощью CountVectorizer, берущего только элементы с не менее чем 5 появлением в наборе данных;
- кодирование редких категориальных переменных (киносертификата) с не более чем 60 различными категориями в каждом столбце и не менее 20 записей в каждой категории;
- наконец, удаление неиспользуемых столбцов.
В результате мы получили очищенный набор данных, содержащий 3200 серий с рейтингом от 1 до 10.
Шаг 2 — настройка модели машинного обучения для прогнозирования рейтингов сериалов
Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 1,026 балла, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели примерно на 1,033 балла (при условии того же оценка около 7,2 балла за каждую серию).
Шаг 3 — объяснение полученной модели машинного обучения
Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы ценности SHAP выражаются в рейтинговых баллах.
Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:
Как мы видим, наиболее важными признаками для прогнозирования рейтингов для триллеров IMDb являются сертификат ТВ, жанр, время выполнения и звезды.
Теперь рассмотрим индивидуальные особенности.
Что касается телевизионных сертификатов, неудивительно, что наивысшие оценки связаны с ТВ-МА (контент для взрослой аудитории) и ТВ-14 (контент не предназначен для несовершеннолетних до 14 лет) сертификаты:
Что касается жанров сериалов, мы видим, что самые высокие оценки связаны с жанром биографии, за которым следует семейный, Фэнтези, Музыка, История и Приключения:
Что касается времени выполнения серий, то наивысшие оценки связаны со временем выполнения от 10**1.25 = 18
до 10**1.75 = 56
минут:
Наконец, что касается звезд сериала, мы видим, что самые высокие рейтинги связаны с J. Майкл Татум, Амин Эннаджи, Альваро Рудольфи, Сон Хён Чжу, Кай Ван , Ронит Рой и Нацуки Ханаэ:
Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.
Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.