Краткий обзор данных о сердечных заболеваниях и то, что они могут сказать мне, непрофессионалу
Я не очень разбираюсь в медицине. Моя дочь в настоящее время получает докторскую степень в области биомедицинских наук в престижном университете. Когда я спрашиваю свою дочь о ее исследованиях, я подозреваю, что она «тупо» отвечает мне. Что я действительно знаю, так это электронику, сигналы, кодирование, и что я хочу быть здоровым на долгие годы, чтобы я мог заботиться о тех, кого люблю, и наслаждаться временем с ними.
Данные
В Калифорнийском университете в Ирвине собрано множество наборов данных, и я использую их набор данных по сердечным заболеваниям для этой статьи. Набор данных содержит 303 пациента с 14 из 76 собранных признаков, к которым «относятся все опубликованные эксперименты».
1. возраст
2. пол
3. тип болей в грудной клетке (типичная стенокардия, атипичная стенокардия, неангинозная боль, бессимптомная)
4. артериальное давление в покое
5. сывороточный холестерин в мг/дл
6. уровень сахара в крови натощак > 120 мг/дл
7. результаты электрокардиографии в покое (нормальные, с аномалией ST-T (инверсия зубца T и/или подъем или депрессия ST > 0,05) мВ), что свидетельствует о вероятной или достоверной гипертрофии левого желудочка по критериям Эстеса)
8. Достигнута максимальная частота сердечных сокращений
9. Стенокардия, вызванная физической нагрузкой
10. Депрессия сегмента ST, вызванная физической нагрузкой, по сравнению с состоянием покоя
11. наклон сегмента ST пиковой нагрузки (возвышенный, пологий, нисходящий)
12. количество крупных сосудов (0–3), окрашенных при флюороскопии
13. таллиевая проба (3 = норма; 6 = постоянный дефект, 7 = обратимый дефект)
14. прогноз
Как я уже говорил ранее, я мирянин. Профессионально работаю архитектором программного обеспечения и программистом. У меня было несколько вопросов, на которые я надеялся ответить, исходя из данных: могут ли эти ежегодные проверки здоровья во время ярмарки здоровья в моем офисе помочь мне предсказать сердечные заболевания? Существует ли классификатор, который хорошо работает для прогнозирования сердечных заболеваний? При прогнозировании сердечных заболеваний было бы полезно использовать разные модели для мужчин и женщин?
Могут ли помочь несколько тестов?
Моя компания ежегодно проводит медосмотр в офисе. Среди измерений, которые они делают, кровяное давление, холестерин и быстрые тесты сахара в крови. Этого достаточно, чтобы проверить наличие болезней сердца?
Коробчатая диаграмма артериального давления и холестерина слева показывает более низкий уровень у тех, у кого были болезни сердца. Вот почему мы смотрим на данные. Я уверен, что анализы, взятые вместе с другими, помогают, но сами по себе они не предсказывают болезни сердца.
На приведенной ниже тепловой карте показана низкая корреляция между целевым значением (заболевание сердца) и trestbps (артериальное давление), chol (холестерин) и fbs_0 и fbs_1 (уровень сахара в крови натощак). Я понимаю. Я хотел избежать похода к врачу. Постановка диагноза сердечно-сосудистых заболеваний не так проста, и вместо этого лучше обратиться к врачу.
Какой хороший классификатор для моделирования этих данных?
Я подготовил данные и попробовал несколько классификаторов: логистическая регрессия, опорный вектор, K ближайший сосед, наивный байесовский метод и повышение градиента. Многие из них выглядят нормально, но я решил, что мне не нужно много ложноотрицательных результатов. Я не думаю, что кому-то захочется, чтобы его отправили домой со словами, что у него нет болезни сердца, хотя на самом деле она есть. Отзыв — это отношение истинно положительных результатов к истинно положительным плюс ложноотрицательным. (TP / (TP + FN) Классификатор K ближайших соседей имеет хороший отзыв и хорошо справляется с другими показателями оценки.
Должны ли мы использовать разные модели для мужчин и женщин?
Я разделил данные на два набора данных: один для женщин и один для мужчин. Я прогнал данные через те же пять классификаторов. Я просто показываю здесь показатель отзыва, но ясно, что женщины выиграют от использования модели, отличной от модели, объединенной с мужчинами. Для женщин, похоже, будут хорошо работать наивный байесовский алгоритм, градиентный импульс и классификатор опорных векторов. Для мужчин наивный байесовский классификатор выглядит лучше всего. Как правило, разделение наборов данных мужчин и женщин принесло бы им пользу. Подробнее о различиях симптомов можно прочитать здесь[5].
Чему я научился?
- Нет простых способов предсказать болезни сердца. Нужно много тестов.
- Вы можете обучить модель прогнозировать сердечные заболевания на основе данных. Если я хочу избежать ложноотрицательных результатов, я обращаюсь к классификатору с высоким показателем полноты.
- У женщин и мужчин должны быть отдельные модели.
Благодарности: Большое спасибо моей свекрови, которая много лет работала в кардиологическом отделении. Она объяснила мне атрибуты.
Процитированные работы
[1]: Венгерский институт кардиологии. Будапешт: Андраш Яноши, доктор медицины
[2]: Университетская больница, Цюрих, Швейцария: Уильям Штайнбрунн, доктор медицины
[3]: Университетская больница, Базель, Швейцария: Матиас Пфистерер, доктор медицины
[4] ]: ВА Медицинский центр, Лонг-Бич и Кливлендская клиника. Фонд: Роберт Детрано, доктор медицинских наук, доктор философии. -и-инсульт-мужчины-против-женщин»