(с колокольчиками)
Наука и разработка искусственного интеллекта
Люди, с которыми я общаюсь в более широком научном сообществе, часто бывают шокированы тем, что они могут понять, что связано с разработкой продуктов искусственного интеллекта (ИИ). Несколько раз они отвечают: «Вы имеете в виду, как в настоящей науке?»
В любой области науки нас учат научным принципам и процессам. С одной стороны, методы исследования, относящиеся к ним, последовательно применяются в нашем поиске, чтобы понять, объяснить или смоделировать реальный мир. С другой стороны, повторяемость должна быть краеугольным камнем при составлении отчетов о наших результатах. А развитие ИИ? Да! Поразительно (или не так поразительно), но процесс разработки эффективного ИИ, который соответствует стандартам и может регулироваться (например, для использования в медицинских учреждениях), идет по тому же пути. Зачем нам быть строгими? Поскольку ИИ, разработанный с научной точностью, заслуживает дальнейшего развития, с гораздо большей вероятностью он попадет в реальный мир, а усилия клиницистов-исследователей в конечном итоге будут иметь большую ценность для лечения пациентов.
Для разработки полезных алгоритмов для здравоохранения наука ожидает четкого объяснения: процессов, используемых для получения данных (например, медицинских изображений); этика и разрешения, связанные с данными пациентов; и как обеспечивается качество и достоверность набора данных. Но именно здесь начинает оправдываться ожидание более позднего доказательства справедливости — то есть отсутствия предвзятости — в разработке ИИ. Хороший набор данных — это тот, в котором можно применять статистические и другие методы для изучения и объяснения систематических ошибок в наборе данных. Также должно быть достаточное количество и качество данных. И анонимизация не должна удалять доступ к метаданным. Хорошая наука с самого начала означает, что ИИ, разработанный в дальнейшем, может быть показан как честный.
Как и в других науках, где целью является разработка продуктов, а не просто исследование, ранние этапы разработки модели машинного обучения должны учитывать требования предполагаемой группы пациентов. У предполагаемых пациентов для ИИ будут одни и те же заболевания, однако подгруппы будут различаться по многим параметрам: по расе/этнической принадлежности, доходу, возрасту и т. д. (FDA, январь 2021 г.). Предвзятость — предпочтение одних вещей, людей или групп перед другими — является препятствием, которое стало исключительно важным для разработки надежного ИИ. Предвзятость должна быть выявлена и устранена на этапе разработки модели, если клиницист-исследователь хочет убедить потенциальных инвесторов в том, что в дальнейшем использование предвзятого ИИ при принятии решений не причинит вреда.
Отсутствие предвзятости на раннем этапе на научном уровне создает барьер для финансирования разработки программного обеспечения и разработки убедительных доказательств того, что инструмент работает везде, где это необходимо, без предпочтения одной группы перед другой. Следовательно, необходима надежная методологическая база для разработки алгоритмов.
Представьте, что группа исследователей создает радикально новое средство для закрытия ран… и они теряют список ингредиентов, работая над этим в лаборатории. Можно показать, что образцовое покрытие для ран самоприжигается — удивительно прочное и легкое! Но без метода никто не может сделать больше, и нет никакого способа заверить регуляторов в отсутствии проблемных ингредиентов, таких как, например, латекс. И способ их изготовления не может быть запатентован.
Как вы видите, большая часть разработки ИИ опирается на те же базовые процессы, что и в «настоящей» науке. Это включает в себя соблюдение принципов надежности, валидности и повторяемости. То есть разработчики ИИ должны иметь возможность задержать свою работу, подробно описать данные, которые использовались для разработки модели, тем самым продемонстрировать достоверность и качество ИИ.
В следующем гипотетическом сценарии ИИ разрабатывается с использованием данных визуализации, включающих МРТ-сканирование суставов костей. Ожидается, что инструмент ИИ будет поддерживать диагностику артрита. Тех, кто создал ИИ, допрашивает педиатр, который хочет знать, можно ли использовать этот ИИ для диагностики детей. Справедливым вопросом будет: «Включали ли данные визуализации, использованные для разработки этого ИИ, МРТ-сканы детей или только взрослых?» Разумно ожидать, что разработчики ИИ с уверенностью ответят на такие вопросы. Если они использовали подходящие процессы и вспомогательное программное обеспечение для курирования своих наборов данных, то выполнение проверок не должно быть проблемой.
А как насчет лишних колокольчиков?
Возьмем стандарт ANSI для ИИ в здравоохранении, разработанный рабочей группой по искусственному интеллекту Ассоциации потребительских технологий США (CTA).
В нем есть три раздела о доверии. Человеческое доверие и нормативное доверие касаются того, как работает Программное обеспечение как медицинское устройство (SaMD). Принимая во внимание, что Техническое доверие, которое является наиболее подробным, гораздо более конкретно касается того, как разрабатывается ИИ. Требования Технического доверия показывают по пунктам, что программное обеспечение как медицинское изделие с ИИ должно быть разработано на основе высококачественного набора данных, который был собран с научной точностью. Это служит для демонстрации основного различия между разработанными стандартами. для SaMD в целом и для SaMD с ИИ.
Требования технического доверия в основном могут быть удовлетворены только тогда, когда набор данных собирается и курируется, и они специфичны для искусственного интеллекта. Подводя итог, они заявляют, что:
- ИИ должен быть справедливым, что означает не только минимизацию уровня смещения, присущего набору данных, но также и того, что может быть вызвано объединением или объединением наборов данных.
- Безопасность и конфиденциальность данных должны соответствовать GDPR. С момента сбора, использования, хранения и управления личной медицинской информацией собираемая информация должна быть соответствующей, и разработчик ИИ должен быть в состоянии обеспечить соблюдение этих требований.
- Данные, используемые для обучения модели, должны быть качественными, актуальными и надежными, поэтому было бы неплохо указать, оценивала ли какая-либо независимая третья сторона данные на предмет их целостности и достоверности. И должно быть достаточно деталей, чтобы другие могли повторить работу для проверки или дальнейшего развития.
Эти дополнительные требования напрямую связаны с разработкой ИИ, которая заслуживает доверия и этична. Поскольку это в конечном итоге увеличивает внедрение приложений ИИ в медицину, так что и пациенты, и врачи могут извлечь выгоду из этой технологии, они имеют первостепенное значение.
Выбор инструментов для разработки ИИ
Эксперту в предметной области, разработчику модели и владельцу решения ИИ потребуется безопасная, зашифрованная, масштабируемая и этичная платформа для создания своих высококачественных наборов данных, если они стремятся разработать ИИ, который соответствует стандартам и может быть принят регулирующими органами. - мировое использование. Например, платформа Machine Learning Operations (MLOPs), созданная нами в gliff.ai. Эта платформа предназначена непосредственно для удовлетворения потребностей разработчиков ИИ в здравоохранении, биомедицине и фармацевтике. Более того, это позволяет разработчикам моделей возвращаться к любой версии своих наборов данных и безопасно проверять их по мере необходимости.
Надежное и воспроизводимое развертывание
Если разработка ИИ следует традиционным научным методам, то развертывание и обслуживание также должны следовать хорошо понятным процессам. Производство и поставка других строго регулируемых продуктов, будь то лекарства, электроника для опасных зон или другие «рискованные» продукты, управляются с помощью согласованных международных стандартов и режимов правового регулирования, которые вызывают доверие.
Нормативно-правовая база для использования ИИ в средах с высоким уровнем риска только сейчас формируется, но разработка новых согласованных стандартов и перепрофилирование существующих стандартов для систем качества, безопасности данных и кодирования, которые уже доказали свою эффективность, также будут быть краеугольным камнем будущего надежного ИИ.
Реальность такова, что если разработка ИИ — это просто наука, то развертывание ИИ — это просто инженерия.
Процесс разработки высококачественного ИИ не обязательно должен быть эзотерическим — и не должен им быть. Это просто наука. С колокольчиками.