Анализ приложений Google Play Store в R

Как разработчики приложений могут сделать свои продукты более популярными в Google Play Store?

Имея более двух миллионов доступных приложений, разработка приложений, которые выделяются среди конкурентов, представляет собой огромную проблему для разработчиков приложений. Поэтому разработчикам необходимо выделиться на этом перенасыщенном рынке. Разработчикам приложений необходимо будет определить важные факторы, влияющие на решения клиентов, чтобы достичь цели: увеличить количество установок.

Цель

Чтобы выяснить, какие факторы больше всего способствуют успеху приложений в Google Play Store, и предоставить разработчикам приложений дорожную карту для улучшения определенных аспектов их продуктов.

Понимание данных

У нас есть набор данных от Kaggle. Он содержит около 267 000 наблюдений (количество приложений) и 13 переменных (количество характеристик для каждого приложения). Эта информация взята из магазина Google Play. Наша целевая переменная — «Установки» (количество установок), которую мы рассматриваем как показатель популярности приложения. Остальные 12 переменных в основном охватывают всю важную информацию, на которую пользователи будут обращать внимание в каждом приложении в магазине приложений Google, включая категорию, цену, рейтинги, обзоры, версию и т. д. Таким образом, мы можем предсказать количество установок приложения на основе на них.

В наших данных может преобладать предвзятость выбора, поскольку наши данные берутся из магазина Google Play, что не может отразить все предпочтения пользователей приложения и общую популярность приложения. Например, у пользователей Apple App Store могут быть другие характеристики и предпочтения, чем у пользователей Google Play Store. У нас также нет дохода от клиентов, что может означать, что некоторые приложения намеренно предпочитают небольшое количество установок, если они все еще могут приносить хороший доход. За исключением этой проблемы, мы считаем, что можем построить модель для прогнозирования важных факторов, влияющих на популярность приложения, на основе данных.

Подготовка данных

Из наших необработанных данных мы нашли много категориальных переменных и около 1000 отсутствующих значений в столбце рейтинга. Мы очистили данные, выполнив следующие шаги:

Мы отбросили все наблюдения с пропущенными значениями, которые соответствовали менее 1% данных. Один из способов, которым мы думали о вменении отсутствующих значений, — это метод анализа текста — прогнозирование отсутствующего рейтинга с использованием модели обратной регрессии на основе обзоров приложения, но у нас нет отдельных обзоров для каждого приложения.
Мы преобразовали столбец даты последнего обновления в количество дней с момента обновления этого приложения, вычтя его из даты его компиляции.
Мы удалили столбцы с именами приложений, текущей версией и версией Android, потому что данные беспорядочны, и мы считаем эту информацию не очень полезной.
Мы удалили столбец жанров, потому что столбец категорий является его подмножеством.
Мы удалили все символы «+» в столбце «установки» и преобразовали его в числовой формат, в основном беря нижнюю границу. Аналогичным образом мы преобразовали столбцы размера и цены, удалив их суффиксы.
Мы создали новый столбец «LogInstall», потому что данные в столбце «установки» имеют большой диапазон, и мы можем уменьшить ошибку недооценки.

Исследовательский анализ и визуализация

Сосредоточившись на том, что влияет на установку, мы сначала думаем, что у приложений с высоким рейтингом должно быть больше установок. Поэтому мы применили кластеризацию методом k-средних на основе установки и рейтинга и построили график распределения. Мы обнаружили четыре кластера: высокие оценки, но низкие установки, низкие оценки и низкие установки, средние оценки и средние установки, а также высокие оценки и установки.

Мы предположили, что в некоторых категориях общее число установок может быть низким. Чтобы подтвердить это, мы сделали диаграмму, чтобы увидеть номер установки каждой категории, как показано ниже.

Согласно приведенному выше графику, мы разделили категории на три группы в зависимости от того, когда происходит значительное падение среднего уровня установки. Мы поместили первые 4 категории в группу 1 (низкая установка), следующие 15 категорий в группу 2 (средняя установка) и последние 13 категорий в группу 3 (высокая установка). Мы могли ясно увидеть разницу между этими тремя группами, используя визуализацию.

На основе визуализации данных мы решили построить модели для каждой группы различных уровней установки, чтобы узнать, какие переменные важны для получения более высоких установок для разных категорий.

Моделирование и оценка

Чтобы определить переменные, влияющие на количество установок, мы использовали K-кратную перекрестную проверку данных обучения, чтобы выбрать нашу модель в каждой группе. Мы сравнили R-квадрат для нулевой модели, лассо, пост-лассо, случайного леса, модели линейной регрессии и модели древовидной регрессии. Мы также попробовали модель линейного взаимодействия, но она работала хуже, чем линейная модель, и требовала большого времени вычислений.

Ниже приведен график 10-кратной перекрестной проверки для группы 1, и мы видим, что отношение r-квадрата для случайного леса является самым высоким, а нулевая модель — самым низким. Это означает, что модель случайного леса может объяснить около 52% вариаций переменных. Точно так же группа 2 имеет самый высокий r-квадрат для модели случайного леса с 41,1%. Для группы 3 модель случайного леса имеет самый высокий r-квадрат с 54%.

Мы видим, что производительность случайного леса является лучшей для всех трех групп на основе r-квадрата вне выборки. Основываясь на этой рекомендации, мы попытались переделать модель случайного леса со всем набором данных и использовать ее для создания прогноза. Случайный лес дает оценку того, какие переменные важны в регрессии, и является одним из наиболее точных методов моделирования, которые могут обнаруживать взаимодействия. Он имеет меньшую дисперсию, чем модель регрессии с одним деревом, и может преодолевать переоснащение. Однако, в отличие от деревьев регрессии, его трудно интерпретировать и гораздо сложнее построить из-за сложности. Кроме того, он требует меньше интуитивных и больше вычислительных ресурсов.

Развертывание

С помощью интеллектуального анализа данных мы обнаружили, что независимо от того, к какой категории относится приложение, рейтинг является наиболее важным фактором, влияющим на количество установок, за которым следуют дни и размеры. Итак, вернемся к вопросу, который возник на этапе изучения данных: почему у некоторых приложений высокий рейтинг, но низкая загрузка? Мы рекомендуем разработчикам этих приложений сократить цикл обновления и предоставить пользователям приложения с новыми функциями и большего размера. Для приложений с низкими рейтингами разработчикам, несомненно, следует сначала попытаться повысить их рейтинги.
Когда фирма внедряет наши предложения, они должны помнить следующее:

Следите за тем, чтобы каждое обновление улучшало качество обслуживания клиентов и добавляло новые функции. Отсутствие новых функций и баги отталкивают клиентов.
Должны быть предусмотрены стимулы для оценки, поскольку большинство клиентов не желают оценивать приложение, если у них нет лучшего/низшего опыта.

Важной этической проблемой, которую следует учитывать, является количество поддельных отзывов о приложении. Например, чтобы изменить восприятие потребителя, разработчик приложения может создать положительные отзывы, что повысит вероятность того, что потребитель загрузит приложение. Участие в таком мошенническом поведении не только неэтично, но и незаконно. К сожалению, поддельные отзывы могут остаться незамеченными и, следовательно, создать предвзятость в нашей модели.

Поскольку в этом наборе данных не так много переменных, мы могли опустить переменные в этой модели. Существуют и другие факторы, которые могут влиять на количество установок, кроме переменных в этом наборе данных. Например, мы должны учитывать тональность отзывов в этой модели, чтобы уменьшить количество ошибок. Даже если количество отзывов велико, негативные настроения этих отзывов не увеличат количество установок, что приводит к предвзятости. Чтобы решить эту проблему, мы должны рассмотреть возможность проведения анализа настроений путем извлечения отзывов из магазина приложений Google.

Приложение

https://www.kaggle.com/lava18/google-play-store-apps https://www.lawlytics.com/blog/attorneys-fake-reviews-unethical-and-illegal/ https: //www.statista.com/statistics/266210/количество-доступных-приложений-на-ходу ogle-play-store/

Спасибо моим товарищам по команде: Yanqing Shen, Haeun Park, Gaurav Singh, Will Jaohari @Duke Fuqua.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning