Риски принятия решений с помощью черного ящика
Андреа разговаривает с Кришной Гейд, соучредителем и генеральным директором Fiddler Labs, о точности, справедливости и рисках принятия решений методом черного ящика.
****
АНДРЕА: Как вы определяете Explainable AI в Fiddler?
КРИШНА: Объяснимый искусственный интеллект - это преодоление разрыва между группами специалистов по анализу данных, которые создают модели искусственного интеллекта, и другими заинтересованными сторонами в своих организациях. Наша платформа [предоставляет] способ объяснить эти модели искусственного интеллекта деловым людям.
[Аналитические] продукты, используемые для принятия решений на основе правил на основе бизнес-логики, но по мере того, как ИИ проникает в эти продукты, [эта бизнес-логика] заменяется моделями машинного обучения. При этом вы не знаете, что получите, поэтому очень важно проанализировать, как работает продукт. Как улучшить продукт? Как ты исправляешь ошибки? Как исправить ошибки? В будущем Explainable AI станет новым способом анализа продуктов, потому что каждый продукт станет продуктом AI.
АНДРЕА: Вы можете привести мне пример продуктов, о которых вы говорите?
КРИШНА: Это могут быть продукты на основе рекомендаций, классификация спама, сокращение мошенничества или любой продукт для принятия решений, например [модель, которая определяет], должен ли банк давать кому-то ссуду. До появления «больших данных» все это было основано на правилах. Теперь, когда доступны данные и вычисления, вы можете создавать модели машинного обучения для их оптимизации. Но без простых правил решения больше нельзя интерпретировать, поэтому нам нужен этот новый слой [объяснения], который обеспечивает непрерывное понимание того, что происходит в системах ИИ.
АНДРЕА: Кто основные пользователи платформы Fiddler?
КРИШНА: В нашем понимании есть создатель ценности и потребитель ценности. Создатель ценности - это специалист по данным или инженер машинного обучения, который импортирует модель в Fiddler и создает отчет для потребителя ценности. Этот отчет может быть аудитом для группы управления рисками - работает ли модель в разных демографических группах? Это честно? Есть ли лазейки, которые [создают] риск? Или это может быть отчет для команды бизнес-аналитиков, чтобы помочь им понять, как работает продукт. Или это может быть непрерывная информационная панель для группы ИТ-операций.
Основная ценность - для людей, которые используют эти отчеты, но мы также хотим побудить специалистов по обработке данных делиться своими моделями в Fiddler. Мы делаем это, помогая им отслеживать все их модели в одном месте и [открывая] способы улучшения этих моделей.
АНДРЕА: Как люди взаимодействуют со Fiddler как с платформой? Какой интерфейс он предоставляет для разных пользователей?
КРИШНА: Это очень хороший вопрос. Интерфейс для специалистов по данным очень технический. Например, у нас есть библиотеки для импорта моделей из Jupyter Notebook. У нас есть инструменты командной строки для импорта моделей непосредственно из файлов, сохраненных в файловой системе. У нас также есть способ напрямую построить модель нашей системы. После того, как [специалист по данным] импортирует модель, появляется полный пользовательский интерфейс [пользовательский интерфейс] для создания отчетов и информационных панелей. И этот пользовательский интерфейс может использоваться как специалистами по данным, так и бизнесменами.
АНДРЕА: А как насчет упомянутых вами отчетов? Дает ли Fiddler рекомендации о том, какие аспекты модели следует проявлять в различных обстоятельствах?
КРИШНА: Это еще один хороший вопрос. Разным командам нужны разные отчеты. То, что мы сейчас строим, является общей [структурой] - системой, подобной Таблице. С помощью Tableau вы импортируете данные, а затем можете создавать различные виды отчетов с разным уровнем детализации, чтобы делиться ими с разными организациями. С Fiddler вы импортируете модели вместо данных.
АНДРЕА: Табло - интересная аналогия. Очевидно, что предоставить такую основу для создания информационных панелей и визуализаций полезно, но есть еще один набор проблем, связанных с принятием решения, какие аспекты данных отображать, и выбором эффективного представления. Что касается Объяснимого ИИ, как узнать, что делать в первую очередь?
КРИШНА: Сегодня мы создаем структуру и изучаем, как люди ее используют. Как только мы видим, что находит отклик, мы можем извлекать закономерности.
АНДРЕА: Одно из приложений Объясняемого ИИ, о котором, я знаю, вы много думали, - это оценка рисков. Как Fiddler поддерживает это?
КРИШНА: В финансовых учреждениях отчеты о рисках необходимы для проверки модели. По сути, у вас есть бизнес-команда, и они могут работать с командой по анализу данных, чтобы попытаться использовать машинное обучение, чтобы увидеть, какие выгоды и прибыль они могут получить. Они создают модели, но не могут запускать эти модели без одобрения группы управления рисками, которая отвечает за проверку модели. [Часто есть также] внутренний аудитор, который дает рекомендации по анализу рисков. Мы рассматриваем Fiddler как связующее звено между бизнес-командой, командой по анализу данных и командой по управлению рисками.
АНДРЕА: Как это выглядит на практике?
КРИШНА: Итак, большинство банков не принимают автоматизированных решений. Чаще бывает человек, который смотрит на [рекомендованное машиной] решение и говорит: «Хорошо, это имеет смысл» или «Это не имеет смысла». Если поступает новый запрос на одобрение ссуды, а модель говорит «одобрить», человек рассмотрит [рекомендацию машины] и либо одобрит [ссуду], либо нет. Этот человек хочет объяснения, чтобы решить исход.
Если компания [полностью] автоматизирует кредитование и никто не замешан в этом, кто-то может пожаловаться [на решение] и захотеть узнать, почему его кредит не был одобрен. Сотруднику службы поддержки клиентов нужно будет найти какое-то объяснение, чтобы [понять] причины, по которым им разрешено рассказать этому человеку, чтобы объяснить, что произошло. Например, возможно, отношение долга к доходу человека было слишком высоким или его оценка FICO была слишком низкой.
АНДРЕА: С точки зрения объяснимого ИИ, как вы думаете, финансовая отрасль продвинулась дальше, чем другие отрасли?
КРИШНА: Есть два аспекта, почему нам вообще нужен этот слой объяснения. Один - это регулирование, а другой - бренд компании. Оба они очень важны в финансовой индустрии. В некоторых случаях в финансах вы даже не можете запускать модели без прохождения аудиторов из-за Закона о справедливой кредитной отчетности и Закона о равных возможностях. Например, если есть большая разница в производительности моделей по демографическим или гендерным группам, вы не можете запустить эту модель. Но дело не только в регулировании; вы также хотите избегать того, что подвергает риску ваш бренд. Допустим, банк постоянно не одобряет ссуды от определенного района, и есть судебный процесс. Это риск для бренда.
АНДРЕА: Какие правила объяснимости или прозрачности существуют за пределами финансовой индустрии?
КРИШНА: GDPR и CCPA обращаются к конечным пользователям с объяснениями. Например, статья 22 GDPR гласит, что потребители имеют право требовать объяснения любого автоматизированного спора. Это очень интересно с точки зрения объяснимости, и компании должны быть готовы. Они не могут просто предположить, что могут использовать систему искусственного интеллекта черного ящика для принятия решений за людей, не неся ответственности за эти решения.
АНДРЕА: Насколько я понимаю, GDPR не указывает, что является объяснением в этом контексте. Видите ли вы возможность для Fiddler создать этот тест? Например, может ли Fiddler предложить: «Вот как должно выглядеть объяснение в данной ситуации; и вот какие вещи он должен обеспечивать »?
КРИШНА: Совершенно верно. Есть возможность создать знаковый дизайн, каким должно быть объяснение. Даже в финансовом секторе мы были удивлены отсутствием стандартизированного формата.
АНДРЕА: Как вы думаете, что делает объяснение хорошим?
КРИШНА: [Объяснимый ИИ] пытается реконструировать то, что делал базовый алгоритм машинного обучения. [Мы] пытаемся сделать это так, чтобы человек мог понять, оставаясь верным базовой модели. Но есть компромисс. Если вам нужно быть предельно верным, вас не будет очень легко объяснить. Чтобы быть предельно верным глубокой нейронной сети, я должен быть глубокой нейронной сетью. И это не поддается интерпретации человеком. [Мы] можем придумать автоматизированную метрику, чтобы найти разницу между точностью реконструированной модели и точностью [исходной] модели, но этого недостаточно. Человек должен увидеть, действительно ли это имеет смысл.
АНДРЕА: Похоже, у вас есть два критерия «хороших» объяснений: один - насколько они верны базовой модели.
КРИШНА: Верно. Во-вторых, насколько легко это понять человеку. У нас есть три столпа для нашего продукта: один - это алгоритмы, второй - масштабируемая инфраструктура, а третий - очень хорошая визуализация, потому что мы считаем, что лучшие объяснения передаются через визуализацию.
АНДРЕА: Какие визуализации вы нашли особенно полезными?
КРИШНА: Таблица торнадо - одна из них - она показывает главные факторы, которые оказали наибольшее положительное или отрицательное влияние [на то или иное решение]. Специалист по анализу рисков может использовать это, чтобы доказать, что [некоторая функция] оказывает негативное влияние на риск.
АНДРЕА: Рисуя влияние различных факторов, вы выдвигаете на первый план вопрос о том, что делать бизнес-пользователям. Как вы думаете, что политикам необходимо понимать об Объяснимом ИИ?
КРИШНА: Автоматизированные решения будут названием игры. Если модели не строятся тщательно, они могут быть предвзятыми, потому что [они обучаются] историческим данным, которые [отражают] социальные предубеждения. С ИИ эти предубеждения будут усиливаться, когда решения будут приниматься быстро.
Нам необходимо иметь возможность проводить аудит моделей, чтобы сравнивать различия в точности между группами. В некоторых случаях могут быть законные различия. Например, при принятии решения об условно-досрочном освобождении женская и мужская точность не совпадает, потому что в реальных данных гораздо больше женщин, получивших условно-досрочное освобождение и больше не становящихся правонарушителями.
АНДРЕА: Что вы подразумеваете под «точностью» в данном случае? Похоже, вы говорите о справедливости.
КРИШНА: Большинство показателей справедливости основаны на точности. Если у вас есть две оценки точности, одна для мужчин и одна для женщин, простой показатель справедливости может заключаться в том, что [эти оценки] должны быть одинаковыми. Или что ошибка разницы между ними должна быть меньше одного процента.
АНДРЕА: Что может сделать модель более точной для одной группы?
КРИШНА: Это может произойти, если у вас нет [достаточно разнообразной] выборки положительных примеров. Модель - это, по сути, дискриминатор. Вы кормите его положительными примерами и отрицательными примерами. Примеры людей, которые вернули свои ссуды, и примеры людей, которые не выполнили свои обязательства.
Допустим, вы пытаетесь предсказать, кто вернет ссуду, но - по какой-то причине - в наборе отрицательных примеров у вас есть много людей с одним почтовым индексом. Модель видит, что все эти люди в этом почтовом индексе не выплачивают свои ссуды, и вы попадаете в ситуацию, когда - из-за отсутствия достаточного количества положительных примеров - эта [группа] не будет иметь такой же точности. По сравнению с другими [группами], не будет достаточно разрешений на кредиты. Если кто-то придет с этого почтового индекса, это снизит [их рейтинг].
АНДРЕА: В общем, недостаточно просто взглянуть на общую точность модели, потому что мы знаем, что поведение в прошлом было несправедливым. Как вы думаете, мы увидим закон, запрещающий несправедливое использование моделей?
КРИШНА: Для нас, с точки зрения бизнеса, было бы здорово, если бы было регулирование. Страх несоблюдения правил может быть движущей силой для компаний, которые принимают наш продукт. Но в законодательных кругах нет никого, кто продвигает это вперед.
Кроме того, мы не знаем, привыкнут ли люди к тому, что ИИ - это черный ящик. Может быть, это будет новая норма. Мы пережили множество [технологических] революций - электричество, паровые двигатели, Интернет. [AI] последний. Я не знаю, хорошо это на самом деле или плохо, но, если нет никаких правил и люди просто привыкнут к этому, это может стать для нас проблемой.
АНДРЕА: Надеюсь, этого не произошло по очень другой причине. Как гражданину страшно думать о будущем, в котором мы привыкаем к тому, что никто не знает, почему принимаются решения, а затем мы забываем, что раньше нам было не все равно. Звучит ужасающе.
КРИШНА: В Google считают, что глубокое обучение - это новая технологическая революция, и что через несколько лет мы все к ней привыкнем.
Думаю, будет интересно посмотреть, как пойдут следующие четыре или пять лет. Как вы думаете, почему глубокое обучение не вошло в финансы? Потому что они просто ждут, когда это сделает первый человек. В одной из ведущих компаний Долины их руководитель в области обработки данных говорил нам: «Мы хотим сделать это, но мы просто не хотим быть первыми».
****
Этот пост является частью серии интервью, которые IQT Labs проводит с технологами и лидерами мнений по поводу объяснимого ИИ. Первоначальное интервью с Кришной состоялось 15 июля 2019 года; эти вопросы и ответы содержат отрывки, отредактированные для ясности и одобренные Кришной.
Скриншоты продукта предоставлены Fiddler .
Иллюстрации Андреа.