Достижение впечатляющих результатов с помощью самоконтроля с использованием трансформаторов и контрастного обучения

Прогноз Covid и скрининг - непростая задача, особенно при отсутствии данных. Решение этой проблемы с помощью ИИ в значительной степени доказало бы эффективность ИИ, поскольку помогло бы справиться с одной из худших пандемий. Единственная проблема заключается в том, что ИИ полагается на тонны данных, и миру нужно в короткие сроки решить чрезмерную нагрузку на больницы. Проще говоря, в ближайшее время не будет огромного набора полезных данных.

Если вы думаете о том, что уникально в этой статье, так это то, что они исследовали все ранее использованные методы для совершенствования рентгеновской диагностики и превзошли их. Кроме того, в отличие от многих статей по машинному обучению, они выпускают открытый исходный код для своей статьи. До сих пор это были следующие методы:

  • Только с использованием классического обучения с учителем. Обычно это не вариант из-за нехватки данных и проблем с конфиденциальностью пациентов.
  • Только с использованием трансферного обучения из разных похожих наборов данных. Это не обеспечивает требуемого уровня производительности.

Единственное оставшееся решение - использовать набор данных без меток, и это именно то, что было сделано в этой статье, которую мы собираемся объяснить. Честно говоря, я большой поклонник машинного обучения без учителя / частично под контролем, и, использовав его в своей диссертации, я понимаю, что это довольно сложно, но как только вы получаете что-то приличное, работающее, это очень полезно.

Мы рассматриваем задачу прогнозирования двух типов ухудшения состояния пациента на основе рентгеновских снимков грудной клетки: ухудшение состояния (например, перевод в отделение интенсивной терапии, интубация или смертность) и повышение потребности в кислороде свыше 6 л в день.

Источник: прогноз COVID-19 на arxiv

Их основная цель состоит в том, чтобы различать пациентов со смертельным исходом и без смертельного исхода. Это одна из самых важных вещей, которую необходимо знать больницам, поскольку количество отделений интенсивной терапии очень ограничено. Статья основана на использовании одного из самых эффективных современных методов машинного обучения:

  • Трансформеры (вы, наверное, этого ожидали!)
  • Контрастные потери. Они доминировали во многих статьях, таких как OpenAI CLIP, OpenAI CURL и OpenAI DALL-E. Если вы не знакомы с контрастным обучением, оно в основном сводится к тому, чтобы отличать примеры друг от друга. Вместо того, чтобы подталкивать представления изображений к метке одного класса, потеря способствует тому, чтобы представление было похоже на обрезку того же изображения и настолько отличным от других изображений в наборе данных, насколько это возможно. Это главный фактор успеха применяемого здесь самоконтролируемого обучения.
  • Архитектура DenseNet.

DenseNet - одно из новых открытий в нейронных сетях для распознавания визуальных объектов. DenseNet очень похож на ResNet с некоторыми фундаментальными отличиями. ResNet использует аддитивный метод (+), который объединяет предыдущий уровень (идентичность) с будущим уровнем, тогда как DenseNet объединяет (.)

Источник: Pluralsight

Итак, как это работает?

Прежде чем мы начнем, давайте установим сцену. Цель модели - выполнить 3 задачи, а именно [1]:

  1. Прогнозирование нежелательных явлений с помощью одного рентгеновского снимка грудной клетки
  2. Прогнозировать повышенную потребность в кислороде с помощью одного рентгеновского снимка грудной клетки.
  3. Прогнозирование нежелательных явлений с помощью серии рентгеновских снимков (это более точно и моделирует картину болезни «естественное ухудшение»)

Я думаю, что один из наиболее важных аспектов проблем машинного обучения - это то, как вы моделируете проблему. Каковы цели вашей модели? Каков формат ваших данных? Какие методы вы собираетесь использовать и как они способствуют достижению ваших целей?

Что мне здесь нравится, так это то, что они сформулировали прогноз Covid в его наиболее важных элементах, представленных этими тремя задачами. Обратите внимание, что побочные эффекты представляют собой гораздо более опасные события, чем вы думаете, например, процесс передачи COVID-положительного пациента по больнице.

Хорошо, а теперь давайте углубимся в бумагу. Модель начинается с увеличения входного изображения на 2 варианта, назовем их X и Y. Чтобы избежать каких-либо предубеждений, увеличение, применяемое к каждому изображению, является случайным. Оба изображения проходят через кодировщики для выделения признаков и уменьшения размерности. Первый энкодер является классическим, а второй - датчиком импульса.

Шаг 1. Кодирование

Кодировщики моментума были представлены вместе с подходом контрастного обучения Momentum (MoCo), который является разновидностью контрастного обучения. Если подумать о контрастном обучении как о дискриминаторе, ищущем словарь [2], Moco - это своего рода «динамический словарь с очередью и кодировщиком с скользящим усреднением». [2].

Основная цель этого подхода - уменьшить потребность в больших пакетах данных, которые помогают оптимизировать контрастное обучение, которое здесь весьма необходимо.

Теперь, после того, как 2 изображения проходят через кодировщики, они проходят через контрастную потерю, которая пытается идентифицировать i f эти 2 кодировки пришли из одного и того же базового представления. Это чем-то похоже на сети GAN, где дискриминатор пытается проверить выходные данные генератора.

Шаг 2. Самостоятельное обучение

До этого момента наблюдение не применялось. Однако для выполнения третьей задачи (прогнозирование неблагоприятных событий на основе последовательности) они начинают использовать время сканирования каждого изображения, и проблема начинает двигаться в сторону проблемы прогнозирования временных рядов.

Таким образом, для каждого изображения его относительное время сканирования передается параллельно модулю непрерывного кодирования положения. Это используется для сопоставления каждой временной точки с другим встраиванием. Вы можете думать об этом как о вспомогательной функции, которая помогает задокументировать различные моменты времени, в которые происходили эти сканирования, чтобы можно было точно смоделировать определение пациента.

Шаг 3. Смешайте и сопоставьте

Теперь, когда у нас есть 2 выхода, первый - от 2 кодировщиков, а второй - для модулей кодирования положения, мы используем полностью связанный слой (Dense), чтобы объединить их и спроецировать в более низкое измерение.

Шаг 4. Позвольте Трансформатору творить чудеса

Теперь, когда у нас есть одна хорошая кодировка изображения и время сканирования, мы передаем их в преобразователь seq2seq, который затем кодирует их, используя самовнимание. Выход преобразователя имеет ту же длину, что и последовательность входных изображений.

Наконец, выходные данные преобразователя суммируются [1] для получения одного окончательного прогноза, содержащего всю вышеуказанную агрегированную информацию. Sum pooling использует сумму входных данных для уменьшения их размерности (аналогично max-pooling в CNN, но суммируется вместо получения максимального значения).

Они также используют Регуляризатор DropImage [1], чтобы уменьшить переоснащение. Это похоже на выпадение в том смысле, что случайным образом отбрасывает подмножество изображений, однако окончательное изображение никогда не удаляется.

Вот каковы настоящие конвейеры машинного обучения: данные продолжают передаваться от одного модуля к другому, сжимаясь до самого необходимого. Настоящая уловка заключается в выборе наиболее подходящих модулей для ваших данных и правильном выполнении этих преобразований. И я искренне думаю, что эта статья осветила этот аспект!

Оценка

Они используют несколько различных экспериментов и оценочных показателей для проверки своих моделей. Я не хочу перечислять их, так как вы можете просто быстро проверить их в исходной статье, однако я собираюсь обсудить свой любимый эксперимент.

В этом эксперименте они проверяют модели на примере двух рентгенологов-рентгенологов из NYU Langone Health [1], и я лично нашел результаты весьма впечатляющими.

Причина, по которой я выбрал этот эксперимент, заключается в том, что хотя ИИ не так сильно доверяют в клинических условиях из-за принципа черного ящика и его неопределенности. Из этих чисел ясно видно, что представленной здесь модели удается превзойти экспертов-радиологов (или, в худшем случае, почти так же). Я думаю, что это придает модели ИИ определенное доверие и доказывает, что ее можно использовать в реальных клинических условиях.

Заключительные мысли

Всегда нужно видеть инновации и видеть, как ИИ используется для решения актуальных проблем. Кроме того, с тех пор, как они выпустили код, буквально каждый может просто разработать графический интерфейс поверх этой модели, и у вас будет что-то, чем можно будет поработать в условиях реальной больницы, и это действительно основная идея открытого исходного кода и широкого технического сообщества. Я надеюсь увидеть больше инноваций с использованием самоконтроля, потому что полная маркировка данных в большинстве случаев является очень неэффективным вариантом.

Если вы хотите получать регулярные обзоры последних статей в области искусственного интеллекта и машинного обучения, добавьте сюда свой адрес электронной почты и подпишитесь!

Https://artisanal-motivator-8249.ck.page/5524b8f934

Ссылки:

[1] Прогноз COVID-19 с помощью самостоятельного обучения репрезентации и прогнозирования нескольких изображений. Ануруп Шрирам и Мэтью Макли, Костув Синха и Фара Шамут, Джоэл Пино и Кшиштоф Дж. Герас, Леа Азур и Йиндалон Афиньянафонгс, а также Нафисса Якубова и Уильям Мур. 2021. В arxiv

[2] Импульсный контраст для обучения визуальному представлению без учителя. Каймин Хэ, Хаоци Фань, Юйсинь Ву, Сайнин Се и Росс Гиршик. 2020. В arxiv