Введение:

Прежде всего, хочу поблагодарить kaggle и OSIC за проведение этого конкурса. Также хочу поблагодарить своих товарищей по команде Джагадиш и Шубхам. В этом соревновании нас попросили спрогнозировать степень тяжести снижения функции легких у пациента на основе компьютерной томографии легких и данных спирометра, который измеряет объем вдыхаемого и выдыхаемого воздуха, а также данные таблицы были предоставлены в качестве входных данных для конкурентов, которые включали базовый FVC (принудительный жизненный коэффициент), недель, возраста, пола, процента. Задача заключалась в том, чтобы использовать методы машинного обучения для прогнозирования с изображением, метаданными и исходным FVC в качестве входных данных. конкуренция табличных данных, но использование компьютерной томографии даст импульс, в то же время это приведет к резкому падению в таблице лидеров, когда ей будет отдан более высокий приоритет, чем табличным данным. В этом конкурсе я понял, что это соревнование как по регрессии, так и по классификации Более того, рейтинг общедоступной таблицы лидеров был основан только на 15% тестовых данных, и мы увидели огромную встряску в таблице лидеров, когда была объявлена ​​частная оценка. Таким образом, нашим окончательным решением был ансамбль эффективных net-b5 (обученных на компьютерных томографах), elastic-net (обученных на табличных данных) и квантильной регрессионной модели (обученных на табличных данных).

Модели:

Наша окончательная модель effnet была обучена с помощью компьютерной томографии «Эффективная модель b5», а обучение представляло собой модель - ›GlobalAveragePooling -› Добавление гауссовского шума - ›Dropout -› Dense с Adam Optimizer. Таким образом, это выводит наклон и начальную FVC (форсированную жизненную емкость), и с этим наклоном мы рассчитали FVC для последующих недель на основе начального FVC. Мы обучили эту модель 50 эпох и получили оценку CV (средняя абсолютная ошибка) 3,4775497118631997.

Показанное выше изображение легкого является образцом изображения легкого, которое было использовано в качестве входных данных для нашей модели.

Показатели конкуренции:

Модифицированная версия журнала правдоподобия была дана в качестве показателя конкуренции.

Для каждого истинного измерения FVC участников просят предсказать как FVC, так и меру достоверности (стандартное отклонение σ). Погрешность составляет 1000 мл, чтобы избежать больших ошибок, отрицательно сказывающихся на результатах, в то время как достоверность значения ограничены 70 мл, чтобы отразить приблизительную погрешность измерения ФЖЕЛ. Окончательная оценка рассчитывается путем усреднения показателя, полученного за последние 3 недели для пациента по всему набору тестов. Моя реализация метрики конкуренции на python приведена ниже.

Обучение:

Это было обучено с использованием следующих параметров:

  • Оптимизатор Adam с планировщиком уменьшения на плато
  • Обучен с LR 0,003 на 50 эпох и 5 крат
  • Размер партии 4 для effnet-модели
  • Затем мы использовали квантильную регрессию для табличных данных с новой квантильной потерей:

  • Обучил модель квантильной регрессии для 10 кратностей и 855 эпох.
  • Обучен с Adam Optimizer и LR 0,1
  • Затем мы использовали ElasticNet для табличных данных с альфа = 0,3 и l1_ratio = 0,8.
  • Мы тренировали это для 10 складок
  • Затем мы использовали LassoRegressor для табличных данных со random_state = 42, не так много изменений, которые мы сделали.
  • Мы тренировали это для 10 складок.
  • Нет пакетного накопления или смешанной точности
  • Мы использовали только ядра kaggle - одно для обучения effnet, а другое - для вывода effnet и онлайн-обучения и вывода остальных моделей.

Объединение:

Мы использовали средневзвешенное значение, и веса были рассчитаны с использованием функций scipy’s optimize и Minimize.

Окончательная отправка:

Моим последним представлением был ансамбль из трех вышеупомянутых моделей. Однако мы обнаружили, что эластичная сетка получила очень хорошие оценки, но мы не выбрали ее для нашей окончательной заявки, иначе мы поднялись на несколько ступенек вверх в таблице лидеров.

Это мое первое серебро на Kaggle, и я очень этому рад. Пытаюсь получить золото в следующий раз. Это было действительно хорошее соревнование, и мы поняли, что рост общественного результата в фунтах без уважения к резюме - это нехорошо, как вы можете видеть из вышеизложенного. оценки.

Я прикрепил репозиторий на github, содержащий код.

Github Repo