Медицинским организациям необходима прогностическая аналитика для обеспечения качественного здравоохранения и управления здоровьем населения. Построение прогнозных моделей путем применения алгоритмов машинного обучения является сложной задачей в среде «инфраструктура как услуга» или «платформа как услуга», поскольку она включает в себя распределенные вычисления. Появление прогнозной аналитики в отрасли здравоохранения предоставило огромные возможности для прогнозирования событий в организациях здравоохранения и других отраслях, например, в аэрокосмической отрасли. Прогнозная аналитика - это область науки о данных, которая включает несколько междисциплинарных областей, таких как статистический вывод, машинное обучение, кластеризация, визуализация данных и машинное обучение, итеративно в течение всего жизненного цикла аналитики данных. Этапы могут быть определены как определение постановки проблемы для организации, масштаб проекта анализа данных, сбор больших данных, исследовательский анализ данных, подготовка данных, развертывание прогнозных моделей с использованием алгоритмов машинного обучения.

Определение постановки и объема проблемы

На начальном этапе проекта аналитики данных крайне важно понять болевые точки бизнеса и требования, прежде чем разрабатывать архитектуру решения для прогнозной аналитики с машинным обучением. Бизнес-требования должны быть определены на этапе обнаружения данных и должны быть преобразованы в головоломку анализа данных. Например, в сфере здравоохранения медицинская организация может отслеживать эпидемии и вспышки в разных частях мира. Постановка проблемы может заключаться в прогнозировании вспышек на основе перевода звонков, полученных отделением неотложной помощи, и запуска глубоких нейронных сетей для определения распознавания речи и определения местоположения для определения затронутых эпидемией мест и способности прогнозировать вспышки на основе скорости скорости, географического положения и демографии.

Сбор данных

Сбор данных может производиться из разрозненных каналов источников данных как в структурированном, так и в неструктурированном формате. Для медицинских организаций данные могут уже быть доступны в озерах данных или хранилищах данных. Однако для этого требуется извлечение данных и загрузка из исходного формата в целевой как часть фазы сбора данных.

Исследовательский анализ данных

После завершения процесса миграции, подготовки данных и преобразования данных организация может исследовать данные для выполнения методов статистического вывода, кластеризации, интеллектуального анализа данных и алгоритмов машинного обучения, а также предоставлять визуализацию данных. Данные по-прежнему могут быть не в точном формате для построения прогнозных моделей. В таком случае обработка данных может выполняться для более точного построения данных.

Разработка моделей прогнозирования

Это критический этап для построения моделей прогнозирования путем выбора и применения определенного алгоритма машинного обучения путем построения прогнозной модели. Наборы данных делятся на наборы данных для обучения и тестирования. Данные обучения используются для обучения модели; другой раздел необученных данных используется для тестирования, чтобы определить оценку производительности прогнозной модели. Модели тестирования можно итеративно запускать через несколько итераций с помощью ансамблевого алгоритма машинного обучения, чтобы избежать неполной и чрезмерной подгонки и исключения выбросов, а также оценить алгоритм машинного обучения, который идеально подходит для построения модели прогнозирования.

Развертывание модели для Интернета вещей

Модель может быть развернута после того, как будет завершена наиболее подходящая для модели прогнозирования и оценки производительности. Однако существует возможность многократного использования модели прогнозирования в нескольких отделах организаций здравоохранения или других организаций аэрокосмической отрасли. Такая возможность многократного использования модели прогнозирования требует развертывания через веб-службу и базу данных в организации по всей стране или по всему миру.

Машинное обучение Azure

Машинное обучение Azure - это инструмент Microsoft, работающий в распределенной среде облачных вычислений. Сервис можно запустить в браузере. Организациям не требуется приобретение дополнительного оборудования или программного обеспечения для запуска машинного обучения Azure. Машинное обучение Azure также является службой визуализации данных, которая позволяет использовать методы перетаскивания для построения моделей прогнозирования и применения алгоритмов машинного обучения. Машинное обучение Azure - это интегрированная среда от Microsoft. Служба машинного обучения Azure может извлекать крупномасштабные большие данные из экосистемы Hadoop через Microsoft HDInsight и передавать данные в машинное обучение Azure. В результате исследований Microsoft в различных отраслях Microsoft использовала машинное обучение Azure с помощью ряда алгоритмов. Microsoft также использует эти алгоритмы для работы своих внутренних продуктов, таких как Cortana и Bing.

Студия машинного обучения является частью интегрированной браузерной среды разработки машинного обучения Azure. В последнее время машинное обучение Azure создало записные книжки Azure для обмена работой от одного отдела с другим, которые работают на записных книжках Jupyter с открытым исходным кодом. Студия машинного обучения или ML Studio позволяет визуально создавать прогнозные модели и выполнять итерации данных обучения и тестирования в интерактивном режиме. Предварительно определенные процессы в библиотеке машинного обучения Azure могут не охватывать все сценарии. Может оказаться невозможным найти модель перетаскивания для конкретного сценария, в этом случае код может быть написан либо на проприетарном языке R, либо на языке Python и расширять модель с помощью разработанного кода. ML Studio также предоставляет доступ для запроса данных. Наборы данных можно просто перетащить в среду ML Studio для создания эксперимента, и, отправив его в ML Studio с алгоритмом, он может построить прогнозную модель без кода. Код может быть написан на R или Python только в том случае, если конкретная бизнес-логика должна быть объединена с алгоритмом машинного обучения, выходящим за рамки уже разработанной ML Studio. Доступ к Azure ML Studio можно получить, подписавшись на учетную запись Microsoft. Инструмент можно использовать, создав рабочее пространство машинного обучения, назначив информацию о рабочем пространстве и владельца рабочего пространства. После создания рабочего пространства появляется страница машинного обучения. В левой части ML Studio будет отображаться ряд вкладок, таких как веб-службы, эксперименты, наборы данных, настройки и обученные модели. В эксперименте статистический анализ или прогнозная аналитика могут выполняться на модулях, которые инкапсулируют библиотеку машинного обучения. После загрузки набора данных в ML Studio он может работать как экспериментальный модуль. Добавление портов ввода и вывода может создать рабочий процесс. Входные порты могут иметь один или несколько выходных портов. Процедура создания нового эксперимента заключается в нажатии новой кнопки и выборе эксперимента.

Машинное обучение Azure может применяться не только в медицинских организациях, но и в аэрокосмической отрасли. Создав эксперимент по прогнозированию задержки пассажирских самолетов с бинарной классификацией. Большой объем исторической информации о запланированном рейсе собирается на первом этапе Министерством транспорта США. Следующим шагом будет выполнение некоторой обработки данных путем предварительной обработки данных с помощью фильтрации для учета наиболее загруженных аэропортов США и ряда других атрибутов в каждом поле. После того, как окончательный набор данных кодов аэропортов обработан и готов к обработке, необходимо подготовить другой набор данных о погоде, который будет содержать все атрибуты данных, связанные с погодными условиями. Оба набора данных необходимо объединить в Студии машинного обучения Azure, построить модель прогнозирования с помощью двухклассового дерева решений с усилением и обучить наборы данных. Для целей сравнения также необходимо выбрать двухклассовую регрессию, поскольку это задача двоичной классификации. Результаты показывают ROC (рабочая характеристика приемника) с параметрами точности и отзыва в дополнение к площади под кривой. Результаты могут быть интерпретированы из модели расширенного дерева решений для целей анализа.

Список алгоритмов машинного обучения Azure

использованная литература

Команда Azure ML для Microsoft (2014 г.). Бинарная классификация: прогноз задержки рейса. Получено 25 октября 2016 г. из Двоичной классификации: прогноз задержки рейса.

Microsoft (2016). Как выбрать алгоритмы для машинного обучения Microsoft Azure. Получено 1 ноября 2016 г. с сайта https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-choice.

Мунд, С. (2015). Машинное обучение Microsoft Azure. Бирмингем, Англия: Packt Publishing - электронные книги