Прогнозирование количества доноров крови

Использование моделей классификации для прогнозов

Здоровая кровь является настоящим достоянием центров переливания крови. Одной из наиболее важных целей центров переливания крови является получение здоровой крови, которую собирают у добровольных доноров крови, которые могут сдавать здоровую кровь.

Есть несколько причин, по которым люди сдают кровь, и эти причины различаются у разных людей. Некоторые из этих причин включают в себя:

Пожертвование в случае чрезвычайных ситуаций
Пожертвование как акт благотворительности
Пожертвование только родственникам
Пожертвование только родственникам

В этом проекте мы будем использовать классификацию моделей машинного обучения, чтобы выяснить, будет ли донор сдавать кровь в марте, а также выясним важные факторы, которые могут помешать сдаче крови.

Цели и задачи

В этом проекте мы попытаемся сгруппировать домохозяйства на основе их использования электроэнергии.

Поток Процесс

Источник данных: набор данных из этого проекта загружается из Data Science Dojo.
Обучение модели. Здесь очищенные данные были обучены с использованием моделей RandomForest и GradientBoostingClassifier.
Оценка и проверка моделей. Производительность моделей измерялась с использованием показателей точности и отзыва в качестве показателей.

Подготовка данных и EDA

В наборе данных 5 признаков и 748 наблюдений.

Наличие выбросов в любом из признаков повлияет на показатели дисперсии. Итак, необходимо проверить наличие выбросов

В этом случае функция «volume_donated» используется для проверки выбросов, и это представлено следующей блочной диаграммой.

Выбросы были удалены с использованием наблюдений в квантилях 25–75; удаление этих выбросов подтверждается следующей гистограммой функции «months_since_first_donation»

Сильно коррелированные признаки линейно зависимы и почти одинаково влияют на модель. Следовательно, необходимо проверить коррелированные признаки. Следующая тепловая карта показывает, что функции «num_donations» и «volume_donated» сильно коррелированы, а «volume_donated» был исключен.

Построение моделей

Модели классификации Random Forest Classifier и Gradient Boosting Classifierбыли обучены с использованием следующих функций:

month_since_last_donation
объем_пожертвований
month_since_first_donation

Модели классификации являются контролируемой моделью, поэтому нам нужна целевая метка. В этом случае мы использовали функцию «класс» в качестве целевой метки.

Целевой ярлык «класс» содержит двоичные значения (0 и 1), отражающие, сдавал ли он/она кровь в марте 2007 г.

1 стойка для сдачи крови
0 означает отказ от сдачи крови

Обе модели были передискретизированы с использованием передискретизаторов и аномализаторов. Затем были настроены гиперпараметры с помощью GridSearchCV.

При оценке показателей мы получили следующие результаты.

Классификатор случайного леса

Оценка точности = 0,68
Напомним: 0,82

2. Классификатор повышения градиента

Оценка точности = 0,64
Напомним: 0,78

Модель Классификатор случайного леса работает лучше, чем классификатор с усилением градиента, и лучшими оценщиками модели являются

максимальная_глубина = 20
n_оценщиков = 75
случайное_состояние = 32

На следующей группированной гистограмме показаны средние субизмерения и глобальная интенсивность, сгруппированные по кластерам.

Выводы

В порядке важности следующие факторы могут помешать донорам сделать еще одно пожертвование:

Месяцы с момента первого пожертвования
Месяцы с момента последнего пожертвования
Объем пожертвований

Следующая матрица путаницы показывает процент людей, которые вернутся, чтобы сдать кровь в марте.

Ссылка на ноутбук: https://github.com/GentRoyal/Household-Electric-Power-Consumment/blob/main/Clustering%20with%20K-Means%20algorithm.ipynb

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning