Понять MolKGNN, интерпретируемую GNN, предназначенную для разработки лекарств, принятую на AAAI2023

В этом блоге представлена ​​наша последняя модель Molecular Kernel Graph Neural N etwork (MolKGNN) из статьи
Интерпретируемая нейронная сеть с учетом хиральности графа для количественного моделирования взаимосвязей структуры и активности при открытии лекарств

Эта работа принята на AAAI2023 (устный и постерный доклад) и Learning on Graph Conference (неархивный постер).

Введение:

Выяснение молекулярных структур и их фармакологической активности было давней проблемой в истории открытия лекарств. В 1859 г. немецкий химик Карл Штальшмидт показал, что добавление йодистого метила к стрихнину и бруцину, по-видимому, нарушает их физиологическое действие [1]. Его работа побудила двух шотландских ученых, Алксандра Крама Брауна (1838–1922) и Томаса Р. Фрейзера (1841–1920), провести эксперименты с рядом химических соединений. Эти эксперименты помогли им подтвердить, что существует взаимосвязь структура-активность (SAR) [1]. В то время существовал значительный оптимизм в отношении открытия общего закона, описывающего взаимосвязь между молекулярной структурой и их фармакологической активностью. С тех пор было разработано несколько математических/статистических методов и методов машинного обучения, пытающихся предсказать эту взаимосвязь. Этот процесс известен как моделирование количественной зависимости структуры и активности (QSAR). Примеры попыток QSAR включают множественную линейную регрессию, частичные наименьшие квадраты, дискриминантный анализ, дерево решений, генетические алгоритмы и т. д. [2]. Большие надежды возлагаются на терапевтическое применение исследований QSAR. Однако до сих пор прогнозирование биологической активности малых молекул остается сложной задачей.

Задача:

Моделирование QSAR, т. е. предсказание бинарной метки 0 (неактивная) или 1 (активная) по структуре молекулы. Молекула представлена ​​в виде графа, где узлы — атомы, а связи — ребра.

Основные моменты бумаги:

  • В этой статье представлена ​​новая модель SE(3)/конформационно-инвариантности под названием MolKGNN, адаптированная для задачи QSAR при открытии лекарств.
  • MolKGNN отличается новой молекулярной сверткой, упрощенным расчетом хиральности и интерпретируемостью.
  • Реалистичный эксперимент по открытию лекарств демонстрирует прагматическую ценность предложенного MolKGNN.

Архитектура модели MolKGNN

MolKGNN черпает вдохновение из свертки 2D-изображений (рис. 2). В 2D-изображении операцию свертки можно рассматривать как вычисление сходства между патчем изображения и ядром изображения. Большие выходные значения указывают на большее визуальное сходство шаблонов, таких как края, полосы и кривые [3]. Однако свертка двумерных изображений не может быть легко распространена на трехмерные молекулярные графы из-за их нерегулярности. Поэтому новая молекулярная свертка предназначена для свертки между молекулярным окружением (соседи с 1 шагом) и молекулярным ядром (1-шаг), подобно патчу изображения, свернутому с ядром изображения. Молекулярная свертка обладает следующими свойствами:

  • Как и в случае свертки изображения, чем больше молекулярное окружение похоже на молекулярное ядро, тем выше должно быть значение молекулярной свертки.
  • В отличие от свертки изображений, молекулярная свертка должна быть инвариантной к вращению.
  • Молекулярное ядро ​​может обеспечить интерпретируемость.

Следующий вопрос: как спроектировать молекулярную свертка, чтобы она обладала вышеупомянутыми свойствами?

Сходство между молекулярным соседством S и ядром S’количественно определяется показателем сходства ϕ(S, S’). Эта оценка представляет собой комбинацию трех подоценок ϕ_cs, ϕ_ns и ϕ_es, которая отражает центральное сходство, окрестности сходство узлов и сходство ребер соответственно. Их расчеты показаны ниже (обозначения полностью описаны в конце):

Оценка сходства между подграфом соседства и ядром рассчитывается из комбинации трех подоценок. Подоценки количественно определяют сходство различных аспектов между подграфом соседства и ядром. Подпоказатель центрального сходстваϕ_cs отражает сходство между атрибутами центрального узла (v и v’). Подпоказатель сходства соседних узловϕ_ns отражает сходство атрибутов соседних узлов (u1 и u1', u2 и u2', u3 и u3'). Подпоказатель схожести ребер соседства ϕ_es фиксирует сходство атрибутов соседних ребер.

Поскольку атрибуты узла/ребра являются векторами, функция сходства sim(⋅) используется для вычисления сходства векторов. В нашей реализации мы используем косинусное сходство. ϕ_cs вычисляется между атрибутами центрального узла v и v’, как показано на рисунке 3(a).

Обратите внимание, что для вычисления ϕ_ns существует несколько способов сопоставления соседей, и каждое совпадение дает нам оценку. Мы перечисляем все паросочетания и определяем то, которое дает наивысший балл, как оптимальное соседнее паросочетание χ* (например, u1 и u2', u2 и u3', u3 и u1' справа на рис. 3(b)). Это перечисление паросочетаний возможно, потому что в молекулах, подобных наркотикам, существует не более четырех соседей.

Для ϕ_es, посколькусоседние узлы взаимно однозначно соответствуют соседним ребрам, мы можем найти оптимальное соответствие ребер χ^{e,*} на основе на оптимальном паросочетании соседей χ* (рис. 3(c)).

Далее мы хотели бы интегрировать вычисление хиральности. Идея состоит в том, чтобы использовать ядро ​​как якорь для ссылки. Затем молекулярное соседство сравнивается с ядром, чтобы увидеть, имеет ли оно тот же порядок соседей, что и ядро, или нет. Мы используем вычисление объема тетраэдра в векторной форме, чтобы зафиксировать порядок соседей [4]. См. иллюстрацию ниже.

В окрестности 1 три вектора a1, b1 и c1 составлены из произвольно выбранных соседей без ограничения общности. Объем тетраэдра можно рассчитать как 1/6* a1×b1⋅c1. Обратите внимание, что этот объем может иметь положительные или отрицательные знаки, которые указывают направление объема. Такой же расчет можно выполнить в ядре для соответствующих соседних узлов в оптимальном паросочетании. Если знак объема тетраэдра окрестности 1 такой же, как и в ядре, мы знаем, что у них одинаковый порядок соседних узлов. В случае описанной выше окрестности 2 ее объем имеет разные знаки, и мы знаем, что у окрестности 2 другой порядок узлов-соседей. Также обратите внимание, что константа 1/6 тривиальна при определении знака и может быть опущена в фактической реализации.

Наконец, мы используем структуру нейронной сети передачи сообщений (MPNN) [5], чтобы получить большее рецептивное поле. Идея состоит в том, чтобы заменить традиционную агрегацию атрибутов соседних узлов агрегацией сходств между молекулярным окружением и ядрами. См. иллюстрацию ниже.

Окончательное встраивание атома можно узнать, повторив процесс вычисления молекулярной свертки и распространения сообщений несколько раз. Окончательное молекулярное встраивание может быть получено с помощью различных методов объединения. Дальнейшее предсказание может быть сделано путем присоединения классификатора, такого как многослойное восприятие (MLP), поверх молекулярного встраивания.

Эксперименты

Реалистичные наборы данных, полученные при открытии лекарств, используются для сравнительного анализа MolKGNN [6, 7]. Эти наборы данных тщательно отбираются, чтобы исключить ложноположительные сигналы, часто встречающиеся в кампаниях по поиску лекарств. Статистику набора данных можно увидеть ниже, и они доступны на FigShare.

Две таблицы ниже показывают результаты. Здесь используется logAUC_[0,001, 0,1] для смещения соединений с высокими предсказанными оценками. Это соответствует реальному сценарию открытия лекарств: будут куплены или синтезированы только те лекарства, для которых предсказано высокое значение активности. Следовательно, более интересно увидеть производительность модели на этих соединениях, а не общую производительность модели. См. оригинальную статью для получения дополнительных результатов и деталей эксперимента.

Кроме того, MolKGNN может фиксировать шаблоны, соответствующие знаниям предметной области. Ниже приведен пример шаблонов, переведенных из изученного ядра. Этот паттерн также известен как важная структура в медицинской химии под названием трифторметильные группы.

Кроме того, эксперимент по экспрессивности MolKGNN подтверждает его способность различать хиральные молекулы. Используется набор данных CHIRAL1 [8]. который содержит 102 389 пар энантиомеров для одного скелетного каркаса 1,3-ициклогексилпропана с одним хиральным центром. Данные помечены стереоцентром R или S, и мы используем точность для оценки производительности. Для сравнения мы используем GCN [9] и модифицированную версию нашей модели MolKGNN-NoChi, в которой удален модуль расчета хиральности. Наши эксперименты показали, что GCN и MolKGNN-NoChi достигают 50% точности, а MolKGNN достигает почти 100%, что эмпирически демонстрирует способность предложенного нами метода различать хиральные молекулы.

Исследования абляции

Подробности этого исследования можно найти в оригинальной статье.

Компонент ϕ(S, S′)

Удаление любого из компонентов отрицательно влияет на logAUC[0,001,0,1]. На самом деле влияние logAUC[0,001,0,1] больше, чем AUC с точки зрения процентного изменения производительности. Обратите внимание, что в некоторых случаях, например при удалении φes, наблюдается увеличение производительности в соответствии с AUC, но это значительно ухудшит метрику logAUC[0,001,0,1].

Номер ядра

Когда количество ядер слишком мало (‹ 5), это сильно влияет на производительность. Однако, как только он станет достаточно большим до определенного момента, большее количество ядер мало повлияет на производительность.

Обсуждение сложности вычислений

Может показаться сложным перечислить все возможные соответствия, описанные выше. Однако у большинства узлов есть только один сосед (например, водород, фтор, хлор, бром и йод). Возьмем, к примеру, AID 1798. 49,03%, 6,12%, 31,08% и 13,77% узлов имеют одного, двух, трех
и четырех соседей среди всех узлов соответственно. Для узлов с четырьмя соседями необходимо перечислить только 12 из 24 паросочетаний из-за хиральности [8]. Поскольку матрица смежности молекулярных графов разрежена, большинство GNN имеют временную сложность O (|E|). И, как проанализировано выше, перестановка ограничена до четырех соседей (12 соответствий). Таким образом, поиск оптимального паросочетания имеет временную сложность O(1). Вычисление молекулярной свертки линейно зависит от числа K ядер и, следовательно, имеет временную сложность O (K). В целом, наш метод требует времени вычисления O(|E|K)

Заключение

В этой работе мы представляем новую модель GNN с именем MolKGNN для решения проблемы моделирования QSAR. MolKGNN использует недавно разработанную молекулярную свертку, в которой молекулярное соседство сравнивается с молекулярным ядром для получения оценки сходства, которая используется в качестве нового внедрения атома для следующего слоя. Для оценки МолКГНН проводится комплексный бенчмаркинг. Для оценки используются тщательно отобранные наборы данных, состоящие из экспериментальных данных HTS для различных целевых классов белков. Наборы данных сильно несбалансированы, что подчеркивает
недостаток положительных сигналов в этой реальной проблеме. Для оценки мы используем не только традиционный AUC, но и logAUC[0,001,0,1], чтобы оценить эффективность метода в условиях высокого порога. Это условие высокой отсечки типично для реальных приложений и демонстрирует применимость MolKGNN для открытия лекарств. Кроме того, в этой статье дается теоретическое обоснование и экспериментальная демонстрация того, что MolKGNN способен различать хиральные молекулы, обеспечивая при этом интерпретируемость своих результатов.

Ссылки:

[1] Параскандола, Джон. «Отношения структура-деятельность — ранний мираж». Аптека в истории 13.1 (1971): 3–10.

[2] Вермут, Камилла Жорж, изд. Практика медицинской химии. Академическая пресса, 2011.

[3] Линь, Чжи-Хао, Шэн-Юй Хуан и Ю-Чян Франк Ван. «Изучение сверточных сетей трехмерных графов для анализа облака точек». IEEE Transactions on Pattern Analysis and Machine Intelligence 44.8 (2021): 4212–4224.

[4] Сливоски, Грегори и др. «BCL:: EMAS — энантиоселективный дескриптор молекулярной асимметрии для 3D-QSAR». Molecules 17.8 (2012): 9971–9989.

[5] Гилмер, Джастин и др. «Передача нейронных сообщений для квантовой химии». Международная конференция по машинному обучению. ПМЛР, 2017.

[6] Буткевич, Мариуш и др. «Сравнительный анализ виртуального высокопроизводительного скрининга на основе лигандов с базой данных PubChem». Molecules 18.1 (2013): 735–756.

[7] Буткевич, Мариуш и др. «Наборы данных высокопроизводительного скрининга из базы данных pubchem». Химическая информатика (Уилмингтон, Делавэр) 3.1 (2017).

[8] Паттанаик, Лагнаджит и др. «Сети передачи сообщений для молекул с тетраэдрической хиральностью». препринт arXiv arXiv:2012.00094 (2020 г.).

[9] Кипф, Томас Н. и Макс Веллинг. «Полуконтролируемая классификация с использованием графовых сверточных сетей». препринт arXiv arXiv:1609.02907 (2016 г.).

Эта работа написана в соавторстве с Yu Wang, Oanh Vu, Rocco Moretti, Bobby Bodenheimer, Jens Meiler и Tyler Derr.

Юньчао «Лэнс» Лю выражает признательность за поддержку в рамках программы грантов на оборудование NVIDIA для учебных заведений.