В первой части нашего обзора Как объяснимого ИИ мы рассмотрели объяснимость до моделирования. Однако истинная возможность объяснения намного шире. Объяснимость можно рассматривать на всех этапах разработки ИИ, а именно на предварительном моделировании, разработке модели и постмоделировании.

Большая часть литературы по объяснимости ИИ направлена ​​на объяснение уже разработанной модели черного ящика, а именно, объяснимости после моделирования. Мы рассмотрим методологии объяснимости после моделирования в следующей части. Однако в идеале мы можем избежать проблемы черного ящика с самого начала, разработав модель, которую можно объяснить дизайном. Этому объяснимому подходу к моделированию и посвящена эта статья из серии.

Объясняемое моделирование

Достижение объяснимого моделирования иногда считается синонимом ограничения выбора модели ИИ конкретным семейством моделей, которые считаются по своей сути объяснимыми. Мы рассмотрим это семейство моделей ИИ. Однако наше обсуждение выходит далеко за рамки обычных семейств объяснимых моделей и включает более свежие и новые подходы, такие как совместное прогнозирование и объяснение, гибридные модели и многое другое.

В идеале мы можем избежать проблемы черного ящика с самого начала, разработав модель, которую можно объяснить дизайном.

Принятие внутренне объяснимого семейства моделей

Традиционный подход к достижению объяснимого моделирования состоит в том, чтобы заимствовать конкретное семейство моделей, которые считаются объяснимыми. Это семейство моделей часто обеспечивает один (или несколько) из трех уровней прозрачности модели, предложенных Заком Липтоном, а именно моделируемость, разложимость и алгоритмическую прозрачность. Примеры этих семейств включают линейные модели, деревья решений, наборы правил, наборы решений, обобщенные аддитивные модели и методы рассуждений на основе конкретных случаев.

Однако на практике простое заимствование модели из объяснимой семьи не гарантирует автоматически объяснимости. Например, модель линейной регрессии, которая работает с входными данными большой размерности, может не поддаваться моделированию и, следовательно, не поддается объяснению. Чтобы избежать этой проблемы, мы могли бы ограничить количество важных входных функций во время обучения модели, используя какую-то регуляризацию, например Норма L1 как в регрессии Лассо. Кроме того, в случае мультиколлинеарности признаков, то есть признаков, которые коррелированы из-за того, что они вызваны наблюдаемыми или ненаблюдаемыми смешивающими признаками, коэффициенты, оцененные для модели линейной регрессии, могут быть нестабильными. Дальнейшая регуляризация, например, Норма L2 , может быть применена для решения этой проблемы.

Простое заимствование модели из объяснимой семьи не гарантирует автоматически объяснимости.

Хотя для конкретных методов доступны некоторые меры по снижению рисков, объяснимые семейства моделей в целом относительно просты и, следовательно, неадекватны для отражения сложности некоторых реальных проблем. Это наблюдение привело к так называемому компромиссу между объяснимостью и производительностью, а именно, чем выше производительность модели, тем она менее объяснима, и наоборот.

Тем не менее, ряд исследователей показали, что предполагаемая компромисс между объяснимостью и производительностью не всегда выполняется при разработке моделей, которые одновременно объяснимы и эффективны. Основная задача при разработке такой модели - сделать ее достаточно простой, чтобы ее понимала аудитория, но при этом достаточно сложной, чтобы должным образом соответствовать базовым данным. В этой категории имеется относительно большое количество связанных методологий. Итак, мы группируем их на основе их основных и, возможно, частично совпадающих идей, чтобы упростить понимание нашей презентации.

Ряд исследователей показали, что предполагаемый компромисс между объяснимостью и производительностью не всегда выполняется при разработке моделей, которые одновременно объяснимы и эффективны.

Гибридные объяснимые модели

Возможно, удастся гибридизировать подход к моделированию, объяснимый по своей сути, со сложным методом черного ящика, чтобы разработать высокопроизводительную и объяснимую модель. Это основная интуиция гибридных объяснимых моделей.

Подход глубоких k-ближайших соседей (DkNN) предлагает использовать вывод K-ближайшего соседа (kNN) для скрытого представления обучающего набора данных, полученного через слои глубокой сети. Затем структура конформного прогнозирования используется для комбинирования прогнозов kNN всех уровней математически строгим образом. Доказано, что DkNN является эффективной и надежной, обеспечивая при этом объяснения своих прогнозов на основе примеров в терминах ближайших обучающих выборок, используемых на каждом уровне. Однако DkNN требует хранения скрытого представления всего обучающего набора данных, что может быть невозможно для больших наборов данных.

Метод Классификатор с глубоким взвешенным усреднением (DWAC) похож на DkNN с точки зрения прогнозирования в рамках структуры конформного прогнозирования, полагаясь на метки обучающих выборок, аналогичных заданному входному экземпляру. Однако подобие вычисляется с использованием только низкоразмерного представления последнего слоя.

Другой пример - Самообъясняющая нейронная сеть (SENN). Ключевая идея, лежащая в основе SENN, состоит в том, чтобы обобщить линейный классификатор, позволяя изучать его характеристики, соответствующие им коэффициенты и способ их объединения в прогноз с использованием трех нейронных сетей. Эти нейронные сети называются кодировщиком понятий, параметризатором релевантности и агрегатором соответственно. Утверждается, что получившийся гибридный классификатор имеет объяснимую структуру линейной модели, а также выразительную мощь и гибкость нейронной сети. SENN предоставляет гибкую и привлекательную основу для изучения гибридных объяснимых моделей. Однако предварительная работа, представленная авторами, неадекватно решает проблему изучения высокоуровневых функций с использованием концептуальной сети кодировщика. В частности, авторы признают, что эти концепции должны иметь непосредственную понятную человеку интерпретацию, что делает их изучение субъективной задачей и трудной для количественной оценки.

В качестве еще одного примера рассмотрим структуру Сети контекстного объяснения (CEN), которая имеет некоторое сходство с SENN. CEN предполагает проблему обучения, когда необходимо сделать прогноз для входных данных в заданном контексте. Идея состоит в том, чтобы сначала использовать сложную модель для кодирования контекста в пространстве параметров модели, объяснимой по своей сути, вероятностным образом. Затем исходные данные вводятся в эту по своей сути объяснимую модель, чтобы сделать прогноз.

Архитектура BagNets - еще один и очень интересный пример гибридных объяснимых моделей. BagNets - это, по сути, модель набора функций, в которой функции изучаются с использованием глубоких сетей. Для задачи классификации изображений предлагается рассматривать каждое изображение как набор функций. Этот пакет представлений функций получается путем разделения изображения на участки, которые передаются через глубокую сеть, чтобы получить свидетельства локального класса для каждого участка. Эти локальные свидетельства затем суммируются для каждого класса и передаются через функцию softmax для получения общей вероятности для каждого класса. Интересно, что в применении к набору данных ImageNet, BagNet дает производительность, сравнимую с производительностью современных глубоких сетевых архитектур черного ящика, например ВГГ-16, оставаясь при этом конструктивно объяснимым.

Совместное предсказание и объяснение

Модель ИИ можно обучить, чтобы совместно предоставлять прогноз и соответствующее объяснение. Другими словами, сложную модель можно явно обучить, чтобы дать объяснение ее предсказаниям. Тем не менее, эти подходы имеют несколько ограничений, как мы обсудим ниже.

Например, Структура обучения объяснениям для принятия решений (TED) предлагает расширить набор обучающих данных, где каждая выборка включает набор функций, решение и обоснование этого решения пользователем, а также объяснение. Данное решение и его объяснение кодируются в одну метку во время обучения. Во время тестирования выходные данные модели декодируются для принятия решения и соответствующего объяснения. Утверждается, что структура TED имеет несколько преимуществ, включая создание объяснений, соответствующих ментальной модели конечных пользователей, и широкое применение.

Park et al. предложить подход к моделированию для генерации мультимодальных объяснений. Их решение похоже на TED, поскольку для него требуется набор обучающих данных, дополненный как визуальными, так и текстовыми пояснениями. Чтобы оценить свой подход, авторы собирают два новых набора данных, дополненных такими мультимодальными объяснениями для задач распознавания активности и визуальных ответов на вопросы. Их эксперименты показывают, что включение мультимодальных объяснений приводит к повышению эффективности прогнозирования.

Упомянутые выше методы имеют два основных недостатка. Во-первых, они предполагают наличие объяснений в наборе обучающих данных, что часто бывает не так. Во-вторых, объяснения, генерируемые этими методами, не обязательно отражают то, как были сделаны предсказания модели, а скорее то, что люди хотели бы видеть в качестве объяснения.

Некоторые методы в этой категории не требуют объяснений для каждого прогноза в наборе обучающих данных. Например, Hendricks et al. предложить подход генерации визуального объяснения для задачи распознавания объектов на изображениях с использованием глубоких сетей. Их метод требует только текстового описания изображений и их метки класса во время обучения, чтобы сгенерировать зависящее от класса визуальное объяснение предсказаний изображения во время тестирования.

Рационализация нейронных предсказаний Lei et al. другой пример. Предложенная ими модель НЛП состоит из двух компонентов, а именно генератора и кодировщика, которые обучаются вместе. Первый определяет распределение по фрагментам входного текста в качестве возможных объяснений (также известных авторами), которые затем передаются второму для преобразования в прогноз. Важно отметить, что эти доводы обнаруживаются, а не предоставляются во время обучения. Это достигается только путем выполнения двух требований, а именно, они должны быть короткими и связными фрагментами текста, и они должны быть достаточными сами по себе в качестве замены исходного текста для данной задачи прогнозирования. Поскольку кодировщик полагается на логику, сгенерированную генератором, чтобы делать прогнозы, его подход не страдает ни одним из двух недостатков, упомянутых ранее. Однако предоставления только обоснований недостаточно, чтобы позволить конечному пользователю смоделировать прогноз.

Объяснение через архитектурные изменения

Методы этой категории улучшают объяснимость модели, внося корректировки в архитектуру модели. Кроме того, они ориентированы исключительно на архитектуры глубоких сетей.

Например, Zhang et al. разработать архитектуру объяснимой сверточной нейронной сети, которая может автоматически выдвигать представления фильтров более высокого уровня, чтобы они были частью объекта, а не смесью шаблонов. Это достигается путем добавления специальной функции потерь, которая применяется к картам характеристик фильтров в обычных сверточных сетях. Эта функция потерь отдает предпочтение определенным частям объекта категории класса и не использует изображения других категорий классов. Важно отметить, что при таком подходе не требуются данные аннотации частей объекта. Показано, что объяснимые сверточные сети, обученные с использованием этого подхода, кодируют более семантически значимые знания в своих фильтрах верхнего уровня, чем традиционные сверточные сети. Более того, с точки зрения производительности прогнозирования, объяснимые сверточные сети выгодно сравнивались с их необъяснимыми аналогами в задаче классификации по одной категории и даже превосходили их по задаче классификации по нескольким категориям.

Другой пример - объяснимая глубокая архитектура This Looks Like That, предложенная Chen et al. Эта архитектура вдохновлена ​​тем, как люди описывают свои собственные рассуждения о классификации в терминах сравнения частей изображения с набором изученных прототипов частей изображения. Авторы предлагают добавить слой прототипа к обычным сверточным сетям, который находится между сверточными слоями и полносвязным слоем. Уровень прототипа содержит предварительно заданное количество прототипов частей изображения для каждого класса. Каждый специфичный для класса прототип предназначен для захвата наиболее релевантных частей или семантических концепций для идентификации изображений данного класса. Параметры слоя-прототипа вместе с параметрами обычных сверточных слоев изучаются вместе с использованием специальной функции потерь. Затем веса полносвязного слоя изучаются с использованием метода разреженной выпуклой оптимизации. Экспериментальные результаты для двух задач классификации изображений показывают, что предлагаемая объяснимая глубокая сеть дает производительность, сравнимую с производительностью необъяснимых глубинных моделей.

Механизмы внимания направлены на выявление наиболее важных частей входных данных для данной задачи. Обычно эта релевантность характеризуется набором весов / баллов, присваиваемых входным частям, а именно картой внимания. Существует множество разновидностей механизмов внимания. Модели, основанные на внимании, обычно используются в различных задачах моделирования НЛП, видения и временных рядов и, как утверждается, обеспечивают некоторый уровень объяснимости. Глубокие сетевые архитектуры, которые включают некоторую форму внимания, часто для повышения производительности модели, иногда считаются объяснимыми моделями.

Однако недавнее официальное исследование внимания как механизма объяснимости не нашло доказательств, подтверждающих это давнее убеждение. Другими словами, внимание не может быть объяснением. Обширный набор экспериментов по различным задачам НЛП показывает, что карты внимания слабо коррелируют с градиентными мерами важности характеристик. Кроме того, часто можно идентифицировать очень разные наборы карт внимания, которые приводят к одному и тому же прогнозу.

Объяснение через регуляризацию

Для улучшения прогнозных характеристик моделей ИИ часто используются различные методы регуляризации. Однако регуляризация также может использоваться для улучшения объяснимости модели.

Например, Wu et al. представить Регуляризацию дерева для повышения объяснимости глубоких сетей. Ключевая идея состоит в том, чтобы стимулировать изучение модели, граница решения которой может быть хорошо аппроксимирована с помощью небольшого дерева решений, что делает ее прогнозы симулируемыми людьми. Это достигается путем добавления нового члена регуляризации к функции потерь, используемой для обучения модели. Их экспериментальные результаты для нескольких реальных задач показывают, что модели, разработанные с использованием этого подхода, более объяснимы без ущерба для прогнозной производительности.

Кроме того, растет объем работ по использованию регуляризации для явного ограничения объяснений прогнозов моделей, чтобы гарантировать их правильность по лучшим причинам.

Росс и др. предложить структуру для ограничения локальных объяснений предсказаний модели, чтобы они соответствовали знаниям предметной области во время обучения. Они рассматривают входные градиенты как линейное приближение первого порядка локального поведения модели, то есть объяснение первого порядка для заданных входных данных модели. Предполагается, что знания предметной области закодированы как матрица двоичных аннотаций, которая указывает, следует ли использовать каждую функцию для прогнозирования каждого ввода. Функция потерь, используемая для обучения модели, затем дополняется новым термином, чтобы штрафовать входные градиенты, которые не соответствуют этой матрице аннотаций. Их экспериментальные результаты показывают, что модели, обученные с их подходом, гораздо лучше обобщают при обучении и тестировании на наборах данных, которые значительно различаются.

Растет объем работ по использованию регуляризации для явного ограничения объяснений предсказаний моделей, чтобы убедиться, что они верны по лучшим причинам.

Метод с аналогичными характеристиками, что и Росс и др. под названием Важное обучение был предложен Ghaeini et al. Обучение значимости включает экспертные аннотации, которые сосредотачиваются на релевантных частях ввода, в отличие от нерелевантных частей, а также аннотации на уровне встраивания слов, а не на уровне измерения ввода. Эксперименты, проведенные над несколькими задачами с использованием смоделированных объяснений, показывают, что модели, обученные с помощью обучения значимости, обеспечивают более точные и надежные прогнозы.

Другие методики

Есть ряд других заслуживающих внимания объяснимых методологий моделирования. Подход Certifiable Optimal RulE ListS (CORELS), предложенный Angelino et al. - привлекательный выбор, поскольку он предоставляет решение для поиска оптимальных списков правил для минимизации эмпирического риска заданных обучающих данных. Кроме того, CORELS демонстрирует свою скорость и простую в использовании программную реализацию. Однако его главное ограничение - возможность работать только с категориальными данными.

Что дальше?

Об объяснимости модели часто думают второстепенно. Другими словами, некоторый метод объяснимости после моделирования используется для извлечения объяснений для заранее разработанной модели. Частично это связано с предполагаемым компромиссом между объяснимостью и производительностью. Однако мы представили постоянно растущий и разнообразный набор методологий, демонстрирующих возможность разработки моделей, которые одновременно объяснимы и эффективны. Дальнейшие исследования объяснимого моделирования предоставят более веские доказательства в поддержку этой возможности в будущем.

В настоящее время основная часть исследований XAI сосредоточена на методологиях объяснимости постмоделирования. В следующей и последней части этой серии исследуется соответствующая литература в этой области на основе новой таксономии.

Особая благодарность Ксавье Снельгроув, Эльназ Баршан, Линдси Брин, Сантьяго Сальсидо и Манон Груаз за ценные комментарии и иллюстрации. Отредактировал Питер Хендерсон.