Система позволяет неспециалистам использовать модели машинного обучения для прогнозирования медицинских исследований, продаж и многого другого.

Этот контент был опубликован MIT Research and Press Inquiries:

В фильмах о Железном человеке Тони Старк использует голографический компьютер, чтобы проецировать трехмерные данные в воздух, манипулировать ими руками и находить решения своих супергеройских проблем. В том же духе исследователи из Массачусетского технологического института и Университета Брауна разработали систему интерактивного анализа данных, которая работает на сенсорных экранах и позволяет всем, а не только гениям-миллиардерам, решать реальные проблемы.

В течение многих лет исследователи разрабатывали интерактивную систему обработки данных под названием Northstar, которая работает в облаке, но имеет интерфейс, поддерживающий любое устройство с сенсорным экраном, включая смартфоны и большие интерактивные доски. Пользователи загружают наборы данных системы, манипулируют, комбинируют и извлекают функции в удобном интерфейсе, используя пальцы или цифровое перо, чтобы выявить тенденции и закономерности.

В документе, представленном на конференции ACM SIGMOD, исследователи подробно описывают новый компонент Northstar, называемый VDS, что означает «виртуальный исследователь данных», который мгновенно генерирует модели машинного обучения для выполнения задач прогнозирования на своих наборах данных. Врачи, например, могут использовать систему, чтобы предсказать, у каких пациентов больше шансов заболеть определенными заболеваниями, а владельцы бизнеса могут захотеть прогнозировать продажи. При использовании интерактивной доски каждый также может сотрудничать в режиме реального времени.

Цель состоит в том, чтобы демократизировать науку о данных, упростив сложную аналитику, быстро и точно.

Даже владелец кофейни, не разбирающийся в науке о данных, должен быть в состоянии предсказать свои продажи в течение следующих нескольких недель, чтобы понять, сколько кофе нужно купить, — говорит соавтор и давний руководитель проекта Northstar Тим Краска, доцент кафедры электротехники и информатики в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и со-директор новой Системы данных и лаборатории искусственного интеллекта (DSAIL). В компаниях, в которых есть специалисты по обработке и анализу данных, специалисты по данным и неспециалисты часто обмениваются мнениями, поэтому мы также можем собрать их в одной комнате для совместной аналитики.

VDS основан на все более популярной технике искусственного интеллекта, называемой автоматическим машинным обучением (AutoML), которая позволяет людям с ограниченными знаниями в области обработки данных обучать модели ИИ делать прогнозы на основе своих наборов данных. В настоящее время этот инструмент лидирует в конкурсе автоматического машинного обучения DARPA D3M, который каждые шесть месяцев выбирает лучший инструмент AutoML.

К Краске в статье присоединились: первый автор Зейюань Шанг, аспирант, и Эмануэль Зграгген, постдокторант и главный участник Northstar, EECS, CSAIL и DSAIL; Бенедетто Буратти, Йеуно Чанг, Филипп Эйхманн и Эли Апфал, все из Брауна; и Карстен Бинниг, недавно переехавший из Брауна в Технический университет Дармштадта в Германии.

«Неограниченный холст» для аналитики

Новая работа основана на многолетнем сотрудничестве исследователей Northstar из Массачусетского технологического института и Брауна. За четыре года исследователи опубликовали множество статей с подробным описанием компонентов Northstar, включая интерактивный интерфейс, операции на нескольких платформах, ускорение результатов и исследования поведения пользователей.

Northstar запускается как пустой белый интерфейс. Пользователи загружают наборы данных в систему, которые отображаются в поле «наборы данных» слева. Любые метки данных будут автоматически заполняться отдельным полем «атрибуты» ниже. Также есть поле «операторы», которое содержит различные алгоритмы, а также новый инструмент AutoML. Все данные хранятся и анализируются в облаке.

Исследователям нравится демонстрировать систему на общедоступном наборе данных, который содержит информацию о пациентах отделения интенсивной терапии. Возьмем исследователей-медиков, которые хотят изучить сочетание определенных заболеваний в определенных возрастных группах. Они перетаскивают в середину интерфейса алгоритм проверки шаблонов, который сначала выглядит как пустое поле. В качестве входных данных они помещают в коробку признаки болезни, помеченные, скажем, как «кровь», «инфекционный» и «метаболический». Процент этих заболеваний в наборе данных указан в рамке. Затем они перетаскивают функцию «возраст» в интерфейс, который отображает гистограмму распределения пациентов по возрасту. Проведение линии между двумя прямоугольниками связывает их вместе. Обводя возрастные диапазоны, алгоритм немедленно вычисляет совместную встречаемость трех заболеваний в возрастном диапазоне.

«Это похоже на большой неограниченный холст, на котором вы можете расположить все так, как хотите», — говорит Зграгген, главный изобретатель интерактивного интерфейса Northstar. «Затем вы можете связать вещи вместе, чтобы создать более сложные вопросы о ваших данных».

Приближение AutoML

С помощью VDS пользователи теперь также могут выполнять прогнозную аналитику этих данных, получая модели, адаптированные к их задачам, таким как прогнозирование данных, классификация изображений или анализ сложных графических структур.

Используя приведенный выше пример, предположим, что медицинские исследователи хотят предсказать, у каких пациентов может быть заболевание крови, на основе всех признаков в наборе данных. Они перетаскивают «AutoML» из списка алгоритмов. Сначала он создаст пустое поле, но с вкладкой «цель», под которой они поместят функцию «кровь». Система автоматически найдет наиболее эффективные конвейеры машинного обучения, представленные в виде вкладок с постоянно обновляемыми процентами точности. Пользователи могут остановить процесс в любое время, уточнить поиск и изучить частоту ошибок каждой модели, структуру, вычисления и другие вещи.

По словам исследователей, VDS — это самый быстрый интерактивный инструмент AutoML на сегодняшний день, отчасти благодаря их специальному «механизму оценки». Движок находится между интерфейсом и облачным хранилищем. Механизм автоматически создает несколько репрезентативных выборок набора данных, которые можно постепенно обрабатывать для получения высококачественных результатов за считанные секунды.

«Вместе с моими соавторами я потратил два года на разработку VDS, чтобы имитировать образ мышления специалиста по обработке и анализу данных, — говорит Шанг. правила. Сначала он выбирает из большого списка возможных конвейеров машинного обучения и запускает симуляции на наборе образцов. При этом он запоминает результаты и уточняет свой выбор. После предоставления быстрых приблизительных результатов система уточняет результаты в серверной части. Но окончательные цифры обычно очень близки к первому приближению.

«При использовании предиктора вы не хотите ждать четыре часа, чтобы получить свои первые результаты. Вы хотите уже видеть, что происходит, и, если вы обнаружите ошибку, вы можете сразу же ее исправить. Обычно это невозможно ни в одной другой системе», — говорит Краска. Предыдущее исследование пользователей, проведенное исследователями, фактически «показывает, что в тот момент, когда вы откладываете предоставление пользователям результатов, они начинают терять взаимодействие с системой».

Исследователи оценили инструмент на 300 реальных наборах данных. По сравнению с другими современными системами AutoML приближения VDS были такими же точными, но генерировались в течение нескольких секунд, что намного быстрее, чем у других инструментов, которые работают от минут до часов.

Затем исследователи хотят добавить функцию, которая предупреждает пользователей о потенциальной необъективности данных или ошибках. Например, чтобы защитить конфиденциальность пациентов, исследователи иногда помечают наборы медицинских данных пациентами в возрасте 0 (если они не знают возраст) и 200 (если возраст пациента старше 95 лет). Но новички могут не распознать такие ошибки, что может полностью сбить их аналитику.

«Если вы новый пользователь, вы можете получить результаты и подумать, что они великолепны», — говорит Краска. «Но мы можем предупредить людей, что на самом деле в наборе данных могут быть некоторые выбросы, которые могут указывать на проблему».

Вы можете проверить более подробную информацию и обновления об этом на https://northstar.mit.edu/

А чтобы узнать о новых технологиях, следите за обновлениями с помощью нашего приложения Ionic Firebase.

Или вы можете оставаться с нами в наших социальных сетях для дальнейших обновлений:

Веб-сайт: https://www.ionicfirebaseapp.com/

LinkedIn: https://www.linkedin.com/company/ionicfirebaseapp

Facebook: https://www.facebook.com/ionicfirebaseapp

Твиттер: https://twitter.com/ionicfirebaseap

GitHub: https://github.com/ionicfirebaseapp

YouTube: https://www.youtube.com/channel/UCAes_uRy_H3pJ7z4OO78oIg