Федеративное обучение - это не только многообещающая технология, но и возможная новая бизнес-модель искусственного интеллекта. Действительно, как консультант мне недавно было поручено дать рекомендации о том, как медицинская компания может создать «альянс данных». »С некоторыми конкурентами, создав структуру федеративного обучения. Цель этой статьи - объяснить вам, как FL может породить новую экосистему данных и создать альянсы данных.

Что такое федеративное обучение (FL)?

Не вдаваясь в технические детали, FL можно определить как распределенную структуру машинного обучения, которая позволяет строить коллективную модель из данных, распределенных между владельцами данных.

Данные, необходимые для проектов ИИ, включают несколько элементов. Я бы сказал, что наши возможности по созданию отличных проектов ИИ всегда ограничены. Доступ к внешним данным очень ограничен и представляет собой реальную проблему при создании сложных приложений искусственного интеллекта. Хуже всего то, что из-за конкуренции в отрасли, обеспечения конфиденциальности и других административных процедур даже интеграция данных между различными отделами одной компании представляет собой проблему.

В целом централизованное машинное обучение далеко от совершенства. Действительно, обучение моделей требует, чтобы компании накапливали горы соответствующих данных на центральных серверах или центрах обработки данных. В некоторых проектах это означает сбор конфиденциальных данных пользователя.

Как следствие, централизованное машинное обучение часто недоступно для большинства предприятий. Излишне говорить, что «простая» задача по сбору всех данных, необходимых для проекта, довольно дорога и требует много времени.

При работе над проектом машинного обучения я часто сталкиваюсь с двумя проблемами:

В зависимости от проекта владелец нужных вам данных может просто не захотеть делиться ими с вашей компанией. Это тот случай, когда речь идет о конфиденциальных данных или медицинских данных, защищенных законом.

Во-вторых, значительный объем ценных обучающих данных создается на оборудовании на границе медленных и ненадежных сетей, например на смартфонах или оборудовании на промышленных объектах. Я понял, что взаимодействие с такими устройствами может быть медленным и дорогостоящим для компании.

Федеративное обучение дает ответ на большинство проблем, связанных с традиционным машинным обучением. Действительно, обучение алгоритму перемещается на край сети, поэтому данные никогда не покидают устройство, будь то мобильный телефон или серверы отделения больницы. После того, как модель учится на данных, результаты загружаются и объединяются с обновлениями со всех других устройств в сети. Затем улучшенная модель используется для всей сети. (1)

Новая бизнес-модель?

Модель облачных вычислений подвергается серьезным испытаниям, как никогда раньше. Компании больше не могут игнорировать растущее значение конфиденциальности и безопасности данных. Более того, в эпоху искусственного интеллекта связь между прибылью компании и ее данными становится все более очевидной. Однако бизнес-модель федеративного обучения предоставила новую парадигму для приложений, использующих данные.

Цель федеративного обучения состоит в том, что когда изолированный набор данных, используемый каждой компанией, не может создать точную модель, механизм федеративного обучения позволяет компаниям совместно использовать единую модель без прямого обмена данными. Компании смогут получить доступ к большему количеству данных и лучше обучать свои модели.

Справедливого обмена данными можно достичь либо путем построения метамодели из подмоделей, которые каждая сторона строит, чтобы передавались только параметры модели, либо путем использования методов шифрования, чтобы обеспечить безопасную связь между различными сторонами. Технологии блокчейн также могут помочь усилить контроль данных.

Проще говоря, федеративное обучение позволяет различным владельцам данных на уровне организации сотрудничать и обмениваться данными. В недавней статье исследователи (Цян Ян и др.) Представляют различные конфигурации, в которых это может происходить.

Вертикальное и горизонтальное федеративное обучение

Возьмем, к примеру, два банка из одной страны. Несмотря на то, что у них есть неперекрывающаяся клиентура, их данные будут иметь аналогичные пространства функций, поскольку у них очень похожие бизнес-модели. Они могли бы собраться вместе, чтобы сотрудничать на примере горизонтального федеративного обучения.

В вертикальном федеративном обучении две компании, предоставляющие разные услуги (например, банковское дело и электронная коммерция), но имеющие большое пересечение клиентуры, могут найти место для совместной работы над различными областями функций, которыми они владеют, что приведет к лучшим результатам для обеих.

В обоих случаях владельцы данных могут сотрудничать, не раскрывая конфиденциальность своих клиентов, например, благодаря технологиям блокчейна. У них обоих будет доступ к большему количеству данных, чтобы лучше улучшить свои инициативы в области ИИ.

Прямо сейчас федеративное обучение кажется идеальным для здравоохранения и банковской отрасли. Что касается банков, мы можем представить себе систему, в которой несколько банков могли бы обучить общую мощную модель обнаружения мошенничества, не делясь друг с другом конфиденциальными данными о клиентах с помощью федеративного обучения. Что касается больниц и других медицинских учреждений, они могли бы выиграть, если бы согласились делиться данными пациентов для обучения модели с сохранением конфиденциальности.

Создание альянсов данных

Когда мне было поручено создать альянс данных на основе федеративной среды обучения, я заметил, что компании часто крайне скептически относятся к конфиденциальности данных. Действительно, никто из них не хочет помогать конкурентам, делясь своими данными. Здесь будет главная проблема… Как убедить компании открыть свой ящик для хранения данных и поделиться им с другими?

Я считаю, что эту новую бизнес-модель, основанную на федеративном обучении, должен поддерживать союз промышленных данных, иначе она обречена на провал. В альянсе может быть несколько субъектов, присоединяясь к альянсу, субъекты могут сотрудничать, используя данные в рамках федеративной структуры обучения.

Альянс данных, над которым я работаю, будет выглядеть следующим образом:
Это будет многопартийная система, состоящая из двух или все больше организаций формируют альянс для обучения общей модели на своих индивидуальных наборах данных с помощью федеративного обучения. Выбранным компаниям и организациям будет предложено присоединиться к альянсу, и этот же альянс будет иметь четкий механизм стимулирования.

Я считаю, что для полной коммерциализации федеративного обучения между различными организациями необходимо разработать справедливую платформу и механизмы стимулирования.

Члены альянса пользуются правами и интересами, а также выполняют обязанности. На мой взгляд, альянс должен использовать блокчейн для достижения консенсуса всех сторон, записи вклада каждой из сторон в постоянный механизм записи данных и награждения сторон, внесших выдающийся вклад.

Сохранение конфиденциальности данных является основным дополнительным преимуществом федеративного обучения для каждой участвующей организации в достижении общей цели. (2)

Я бы рекомендовал положиться на нейтральную стороннюю организацию. Они могут отвечать за обеспечение инфраструктуры для агрегирования весов моделей и установление доверия между компаниями, входящими в альянс. (3)

Более того, структуры данных и параметры обычно похожи, но не обязательно должны быть одинаковыми, но на каждом клиенте требуется большая предварительная обработка для стандартизации входных данных модели. Нейтральная третья сторона может отлично справиться с этой частью проекта.

В настоящее время разрозненные хранилища данных и акцент на конфиденциальности данных являются важными проблемами для искусственного интеллекта, но федеративное обучение могло бы стать решением. Это может создать единую модель для нескольких организаций, в то время как локальные и конфиденциальные данные будут защищены, чтобы они могли получать выгоду вместе, не беспокоясь о конфиденциальности данных.

Проблемы федеративного обучения

Переход федеративного обучения от концепции к производству сопряжен с проблемами. Действительно, многое было достигнуто в отношении эффективности и точности федеративного обучения, наиболее важные проблемы, на мой взгляд, связаны с безопасностью.

Ключевым фактором для федеративного обучения является сохранение конфиденциальности, связанной с данными. Похоже, что даже когда фактические данные не раскрываются, повторяющиеся обновления весов модели могут использоваться для выявления свойств, не глобальных для данных, а специфичных для отдельных участников. (4)

Этот вывод может быть выполнен как на стороне сервера, так и на стороне клиента. Возможное решение - использовать методы «дифференциальной конфиденциальности» для снижения этого риска.

Заключение

Федеративное обучение упрощает, безопаснее и дешевле применять машинное обучение в регулируемых и конкурентных отраслях. С помощью FL компании могут улучшать свои модели и улучшать свои приложения AI. В области медицины FL может быть синонимом лучшего лечения и более быстрого открытия лекарств.

Я считаю, что нынешний образ мышления, заключающийся в централизованном агрегировании данных и создании разрозненных хранилищ крупными фирмами для получения конкурентных преимуществ, станет серьезным препятствием для внедрения федеративного обучения. Большинство компаний только недавно начали свой путь к искусственному интеллекту ... Нам потребуются эффективные политики защиты данных, соответствующие стимулы и бизнес-модели, связанные с децентрализацией данных, чтобы решить эти проблемы и развить экосистему федеративного искусственного интеллекта.

Вскоре я ожидаю увидеть больше альянсов промышленных данных на многих вертикальных рынках, например, финансовая отрасль может сформировать альянс финансовых данных, а медицинская промышленность может сформировать альянс медицинских данных. В долгосрочной перспективе мы также можем ожидать объединения данных между компаниями из разных отраслей, но с одним и тем же видением ИИ.

Если вас интересует более подробная техническая информация, я рекомендую этот веб-сайт.