Целью этого проекта является обнаружение метастазов рака на гистопатологических изображениях лимфатических узлов с использованием набора данных PatchCamelyon [1], размещенного на Kaggle.
Правильный диагноз развития болезни имеет решающее значение для выбора наиболее подходящего курса лечения, поэтому врачи полагаются на гистопатологические изображения биопсии ткани, в которой могут быть метастазы. В этом проекте мы обучим модель для автоматического обнаружения признаков злокачественного новообразования, чтобы помочь врачам принимать более правильные решения и, мы надеемся, обеспечить лучший уход за онкологическими пациентами.
Представленные здесь шаги также могут служить надежной базой для решения любой общей проблемы классификации изображений:
Данные
Набор данных представляет собой набор изображений 96x96, где каждое изображение помечено 1, если есть свидетельства злокачественности в центральной части изображения размером 32x32, или 0 в противном случае.
Увеличение
Чтобы уменьшить переоснащение и увеличить возможности обобщения модели, мы используем увеличение данных, которое представляет собой последовательность случайных возмущений, применяемых к изображению, которые сохраняют информацию метки. Обучение этим возмущениям также делает модель более устойчивой к шуму и увеличивает ее инвариантность к перемещению и вращению.
Модель
Мы используем NasNet для мобильных устройств, предварительно обученных в ImageNet (см. Трансферное обучение), потому что они быстрые и, следовательно, могут быть полностью обучены на ядрах Kaggle в течение 6 часов.
Обучение
Мы используем небольшую часть обучающего набора в качестве проверки, а затем используем модель Checkpoint Keras Callback, чтобы сохранить лучшие веса и загрузить их, прежде чем мы сделаем прогноз по данным Leaderboard.
Прогнозирование и постобработка
Для каждого изображения тестового набора мы усредняем прогнозы исходного изображения и версий, перевернутых по горизонтали / вертикали.
Этот подход дает оценку AUC, равную 0,9709, что сравнимо с современной оценкой (CNN, эквивалентной вращению для цифровой патологии), равной 0,963.
Вы можете запустить модель онлайн на Kaggle: https://www.kaggle.com/CVxTz/cnn-starter-nasnet-mobile-0-9709-lb
Репозиторий Github: https://github.com/CVxTz/malignancy_detection/tree/master/code