4 лучших набора данных для проекта Data Science на основе классификации

Новичку очень сложно выбрать, над какими проектами работать, а какие были бы простыми для начала и помогли бы увеличить свое резюме? Эта статья поможет вам в этом отношении.

В этой статье я покажу вам 4 набора данных, в которых вы можете использовать алгоритм классификации (обучение с учителем). Я просматриваю наборы данных, которые в основном ориентированы на алгоритмы классификации, чтобы увидеть, где вы можете использовать этот подход.

Я использовал Kaggle и отфильтровал наборы данных (классификация). Каждый перечисленный набор данных имеет ссылку. Вы также можете посмотреть, как подойти к ним, если вам нужно какое-то руководство или вдохновение.





Приготовьтесь начать работу над одними из самых захватывающих проектов Python!

1. Обнаружение мошенничества с кредитными картами

Набор данных включает транзакции по кредитным картам, совершенные держателями карт в Европе в сентябре 2013 года. Этот набор данных содержит 492 случая мошенничества из 284 807 транзакций, совершенных в течение двух дней. Функция «Класс» — это переменная ответа со значением 1, указывающим на мошенничество, и 0 в противном случае.

Набор данных: Ссылка

2. Виды ириса

Это небольшой и известный набор данных для новичков. Он включает в себя три вида ирисов, по 50 образцов каждого, а также основную информацию о каждом цветке. Классифицировать на основе SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm и видов.

Набор данных: Ссылка

3. Набор данных для анализа и прогнозирования сердечных приступов

Этот набор данных содержит информацию о возрасте пациентов, поле, типе боли в груди, холестерине, уровне сахара в крови натощак, результатах электрокардиографии в покое, максимальной достигнутой частоте сердечных сокращений и целевой переменной (0 = меньше вероятность сердечного приступа и 1 = больше вероятность сердечного приступа). .

С помощью метода классификации можно прогнозировать вероятность сердечного приступа.

Набор данных: Ссылка

4. Анализ личности клиента

Этот набор данных предназначен для прогнозирования того, купит ли потребитель что-либо или нет, исходя из года его рождения, образования, семейного положения, дохода и предыдущих расходов на фрукты, рыбу, мясо, вино, сладости, золото и так далее.

Есть 2240 строк и 29 функций.

Вы можете использовать это, чтобы определить, какая группа клиентов с наибольшей вероятностью купит продукт.

Набор данных: Ссылка

Эта статья, несомненно, улучшит ваше понимание того, как и когда применять алгоритмы классификации.

Я искренне надеюсь, что вам понравилось читать эту статью. Пожалуйста, следуйте за мной и оставьте комментарий, если у вас есть какие-либо рекомендации или критика; это поможет мне расти, чтобы я мог служить вам, улучшая свои писательские способности и опыт.

Ваша поддержка была бы потрясающей❤️