Машинное обучение на децентрализованных данных
Сегодняшние проблемы моделирования ИИ
Сегодня модель ИИ не идеальна, существует несколько трудностей при построении комплексной модели, отвечающей потребностям компании:
- Данные не в хорошем качестве
- Отсутствие размеченных данных
- Хранилища данных и информации
- Конфиденциальность данных
Нелегко преодолеть перечисленные выше проблемы и построить модель, которая действительно помогает. Было несколько новостей о том, что крупнейшие технологические компании не смогли построить модель ИИ, такие как Microsoft Twitter AI Chatbot Tay, IBM Watson on Health Care.
Что такое федеративное обучение?
Итак, как же на самом деле может помочь федеративное обучение? Во-первых, позвольте понять концепцию федеративного обучения.
Федеративное обучение позволяет различным компаниям вместе строить модели, не подвергая конфиденциальности данных. Это новая практика, с помощью которой специалисты по данным могут преодолевать требования конфиденциальности, обучая модели на локальных данных путем обмена параметрами модели, а не необработанными данными.
В соответствии с GDPR и политиками конфиденциальности данных во всем мире обмен данными между разными сторонами затруднен. Федеративное обучение использует несколько методов шифрования и безопасности, чтобы участники федерации могли создавать и улучшать модель ИИ без раскрытия какой-либо информации о клиенте.
Категоризация федеративного обучения
- Горизонтальное федеративное обучение
Подумайте о сценарии, в котором наборы данных имеют одну и ту же функцию, но разные образцы.
Например, 2 региональных банка могут иметь очень разные группы пользователей из соответствующих регионов, а набор пересечений их пользователей очень мал. Тем не менее, их бизнес очень похож. В этом случае мы используем горизонтальное федеративное обучение. Что также является наиболее распространенным способом выполнения FL.
2. Вертикальное федеративное обучение
На этот раз есть 2 набора данных, которые используют одно и то же пространство ID образца, но различаются по пространству признаков.
Например: банк и компания электронной коммерции, пользователи которых находятся в одном и том же районе. Банк регистрирует доход пользователя, поведение расходов и кредитный рейтинг. Электронная коммерция сохраняет историю просмотров и покупок пользователя.
Их функциональные пространства сильно различаются. С помощью вертикального FL мы могли бы построить модель прогнозирования покупки продукта на основе информации о пользователе и продукте.
3. Федеративное трансферное обучение
Сценарии, в которых два набора данных различаются не только образцами, но и пространством признаков.
Рассмотрим 2 учреждения: банк, расположенный в Китае, и компания электронной коммерции, расположенная в США. Из-за разных предприятий только небольшая часть функционального пространства с обеих сторон перекрывается. В этом случае методы федеративного трансферного обучения могут применяться для предоставления решений для всей выборки и пространства признаков в рамках федерации.
Архитектура аналогична вертикальному федеративному обучению.
Механизм поощрения
Полностью коммерциализировать федеративное обучение среди различных организаций. Необходима справедливая платформа и механизмы стимулирования. После того, как модель построена, производительность модели будет проявляться в реальных приложениях.
Выступление может быть записано в постоянном механизме записи данных (например, блокчейне). Эффективность модели может зависеть от вклада поставщика данных в систему, и компании, которые предоставляют больше данных, будут в лучшем положении. Этот метод также может побудить больше организаций присоединиться к объединению данных.
Случаи применения
Современное машинное обучение без централизации данных и с конфиденциальностью по умолчанию. (от Google)
Федеративное обучение впервые было упомянуто Google. Google использует этот метод для улучшения модели своей мобильной клавиатуры — Gboard.
Ввод текста с клавиатуры мобильного телефона является наиболее важной конфиденциальной информацией для пользователя. Google использует федеративное машинное обучение для обучения моделей прогнозирования поисковых запросов на мобильных телефонах пользователей без необходимости отправлять отдельные поисковые запросы обратно в Google.
TensorFlow Federated (TFF) — это платформа с открытым исходным кодом от Google для машинного обучения и других вычислений с децентрализованными данными. TFF был разработан для облегчения открытых исследований и экспериментов с Федеративным обучением (FL).
Tencent — WeBank
WeBank, первый цифровой банк, созданный в Китае, разрабатывает модель федеративного обучения искусственного интеллекта, поскольку регулирующие органы укрепляют правила конфиденциальности и безопасности.
Они построили модель, используя собственные данные WeBank, а также зашифрованные данные счетов, которые остаются на серверах центра счетов. Чтобы повысить эффективность моделей кредитного риска, WeBank безопасно учится на основе зашифрованных данных, собранных в электронных счетах, также известных как «e-Fapiao». Совместно разработанная модель строго ограничена измерением кредитного риска малых и микропредприятий.
Эти электронные счета-фактуры совместно используются организациями в Китае для улучшения оценки KYC и измерения кредитного риска для МСП. Необработанные данные из центров выставления счетов шифруются и агрегируются перед передачей банкам, и банки могут затем использовать эти данные в качестве обучающих переменных для улучшения своих моделей, в то время как сами данные остаются зашифрованными.
WeBank опробовал технологию федеративного обучения с указанным выше вариантом использования в национальном центре электронных счетов-фактур и разработал свою первую модель федеративного обучения для оценки кредитоспособности в апреле 2019 года.
Вывод
Федеративное обучение перевернет страницу путешествия ИИ с новой методологией машинного обучения. Тем не менее, есть еще много недостающих деталей, например, как минимизировать потерю точности с зашифрованными данными для каждого алгоритма.
использованная литература
- Цян Ян, Ян Лю, Тяньцзянь Чен, Юнсин Тонг. Федеративное машинное обучение: концепция и приложения. Транзакции ACM по интеллектуальным системам и технологиям 10(2):1–19, 2019 г.
- https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
- https://www.fedai.org/
- https://www.digfingroup.com/webank-clustar/