Что такое несбалансированные тренировочные данные и как с ними справиться с помощью точности, отзыва и оценки f1.
Во многих подробных статьях объясняется проблема несбалансированных обучающих выборок и способы ее решения. В этой статье я обобщаю понимание проблемы в виде наглядной шпаргалки. Я часто нахожу это полезным, поскольку мне это пригодится всякий раз, когда мне нужно вернуться к основным определениям (или у меня запланировано собеседование).
Шпаргалка ниже начинается с объяснения того, почему точность не всегда дает правильное представление о вашем алгоритме классификации, а затем переходит к определению других значимых показателей эффективности. Затем в шпаргалке приводится пример, показывающий, как вычислить эти показатели для задачи классификации трех классов. После того, как проблема определена с помощью надлежащих показателей, шпаргалка переходит к объяснению многих возможных решений для преодоления проблемы несбалансированных данных обучения.
Бонус:
Компактные шпаргалки по этой и многим другим важным темам машинного обучения можно найти по ссылке ниже.
Если эта статья была для вас полезной, не стесняйтесь хлопать в ладоши, делиться ей и отвечать на нее. Если вы хотите узнать больше о машинном обучении и науке о данных, подпишитесь на меня @ Aqeel Anwar или свяжитесь со мной в LinkedIn.