Встраивания графов знаний (KGE) — это модели, которые пытаются изучить вложения и векторное представление узлов и ребер, используя преимущества обучения с учителем. Они делают это, проецируя в непрерывное низкоразмерное пространство. Эти векторы имеют несколько сотен измерений, что предполагает эффективность памяти. Векторное пространство, в котором каждая точка представляет понятие, а положение каждой точки в пространстве семантически значимо, подобно встраиванию слов.

Предпосылки:

  1. Основы машинного обучения и нейронных сетей.
  2. Понимание математических взаимосвязей, трехмерного расчета расстояний, тригонометрии и функций.
  3. Чашка кофе и ваша любимая музыка, потому что будет так много математики.

KGE должен быть достаточно выразительным, чтобы уловить свойства KG, которые относятся к способности представлять отличительные логические шаблоны для отношений. Ваш KG может добавлять или удалять определенные свойства в соответствии с вашими требованиями. Ниже приводится сравнение моделей KGE с точки зрения захвата типов отношений.

Модели перевода:

  • TransE. Предлагается модель встраивания графа знаний на основе перевода, чтобы зафиксировать явление инвариантности перевода в многореляционных графах. Принцип, лежащий в основе принятия этого подхода, состоит в том, чтобы признать наиболее общий и интерпретируемый способ обнаружения допустимых троек как трансляционную активность элементов, характеризующую функцию подсчета очков, а затем ограничивающую функцию потерь, чтобы ознакомиться с вложением троек.

где l1/l2 — нормальные ограничения.

Преимущество: TransE неоднократно демонстрировал хорошую производительность для крупномасштабных графов знаний.

Ограничения: он не может эффективно фиксировать сложные отношения, такие как «один ко многим» и «многие ко многим».

  • TransH: TransH дает разные векторы представления каждой сущности в зависимости от отношения. TransH работает, выдавая совершенно отдельную гиперплоскость, специфичную для отношения, для каждого отношения, так что объекты, связанные с ним, имеют различную семантику только в контексте этого отношения. TransH проецирует векторы встраивания объектов, h и t, на гиперплоскость (зависит от отношения) в направлении вектора отображения Wᵣ.

Здесь Dᵣ представляет вектор перевода, специфичный для отношения, h и t следуют подходу к расчету, приведенному ниже:

TransH в некоторой степени решает проблемы. Он использует то же пространство векторных признаков.

  • TransR: TransR разделяет очень похожую идею с TransH. Но он вводит пространства, специфичные для отношений, а не гиперплоскости. Сущности представлены в виде векторов в пространстве сущностей Rᵈ, и каждое отношение связано с определенным пространством Rᵏ и моделируется как вектор перевода в этом пространстве. Учитывая факт, TransR сначала проецирует представление объекта h и t в пространство, характерное для отношения r, т. е.

Здесь Mᵣ - матрица проекции из пространства сущностей в пространство отношений r. Функция оценки снова определяется как

Преимущество: он может моделировать сложные отношения.

Ограничения: для каждого отношения требуется O(dk) параметров. Он теряет простоту и эффективность TransE/TransH.

  • TransD: TransD является усовершенствованием TransR. Он принял матрицу отображения, которая эффективно генерирует две отдельные матрицы отображения для головных и хвостовых сущностей. Он использует два вектора встраивания для представления каждой сущности и отношения. Первый вектор внедрения используется для представления семантики сущности и отношений. Второй вектор внедрения используется для создания двух матриц динамической проекции, как показано ниже.

Модели семантического сопоставления

  • RESCAL: RESCAL связывает каждый объект с вектором для захвата скрытой семантики. Каждое отношение представлено в виде матрицы, которая моделирует парные взаимодействия между скрытыми факторами. Оценка факта (h,r,t) определяется билинейной функцией.

где h,t ∈Rᵈ — векторные представления сущностей, а Mᵣ ∈ Rᵈ*ᵈ — матрица, связанная с отношением. Эта оценка фиксирует попарные взаимодействия между всеми компонентами h и t, для чего требуется параметр O (d²) на отношение, а также предполагает, что все Mᵣ разлагаются по общему набору метрик ранга 1.

Ограничение: вычислительно сложный и затратный.

  • TATEC: TATEC моделирует не только трехстороннее взаимодействие

но также и двусторонние взаимодействия, например, между сущностью и отношением. Функция подсчета очков

где D — диагональная матрица, общая для всех различных отношений.

  • DistMult: DistMult упрощает RESCAL, ограничивая Mᵣ диагональными матрицами. Для каждого отношения r оно вводит векторное вложение r ∈ Rᵈ и требует, чтобы Mᵣ = diag(r)

Преимущество: Это вычислительно просто и дешево.

Ограничение: это чрезмерно упрощенная модель, способная обрабатывать только симметричные отношения. Он недостаточно мощный для обычных КГ.

  • Голографические встраивания (HolE): HolE сочетает в себе выразительную мощь RESCAL с эффективностью и простотой DistMult. Он повторно представляет как сущности, так и отношения как векторы в Rᵈ. Учитывая факт (h, r, t), представления объекта сначала составляются в h * t ∈ Rᵈ с использованием операции круговой корреляции, а именно

Основная цель принятия * состоит в том, чтобы использовать уменьшенную сложность составного представления в форме сжатого тензорного произведения. Кроме того, HolE использует быстрое преобразование Фурье, которое может еще больше ускорить процесс вычислений за счет:

Преимущество: HolE требует только O(d) параметров на отношение, что более эффективно, чем RESCAL.

Ограничение: HolE не может моделировать асимметричные отношения.

Отказ от ответственности: HolE не может моделировать асимметричные отношения, но в некоторых исследовательских работах они путают его с его расширенной формой HolEX, которая может обрабатывать асимметричные отношения.

  • Комплексные вложения (ComplEx): ComplEx расширяет DistMult, вводя вложения с комплексными значениями, чтобы лучше моделировать асимметричные отношения. В ComplEx вложения сущностей и отношений h, r, t больше не лежат в реальном пространстве, а являются сложным пространством, скажем, Cᵈ.

Эта функция оценки больше не является симметричной, и факты из асимметричных отношений могут получать разные оценки в зависимости от порядка задействованных сущностей. HolE включен в состав ComplEx как частный случай, когда сопряженная симметрия накладывается на вложения.

  • ANALOGY: ANALOGY расширяет RESCAL для дальнейшего моделирования аналогичных свойств сущностей и отношений. Он использует билинейную функцию подсчета очков.

DistMult, HolE и ComplEx могут быть включены в ANALOGY как частные случаи принципиальным образом.

Функции глубокой оценки

  • ConvE: ConvE — одна из первых моделей, использующих сверточные нейронные сети (CNN) для прогнозирования недостающих звеньев в графе знаний. В отличие от полносвязных плотных слоев, CNN могут помочь зафиксировать сложные нелинейные отношения, обучаясь с очень небольшим количеством параметров. ConvE обеспечивает локальные связи между различными объектами в нескольких измерениях.

где concat — оператор конкатенации, * представляет свертку, а eₛ и eᵣ отвечают за двумерное изменение формы субъекта и отношения соответственно.

Ограничения: невозможно зафиксировать глобальное отношение тройных вложений.

  • ConvKB: ConbKB использует одномерную свертку, чтобы сохранить свойства интерпретации TransE, достаточные для захвата глобальных отношений и временных атрибутов между объектами. Он обращается к встраиванию каждой тройки в виде трехсегментной сети и передает ее в сверточный анализ. слой с целью достижения глобальных связей между размерными классами фактов.

где , Ω (набор фильтров) и e (весовой вектор) представляют общие параметры.

  • HypER: векторные вложения каждого отношения полностью изменяются после проецирования их через плотный слой, а затем настраивается группа векторных отношений сверточных каналов в каждом слое. HypER имеет гораздо более широкий диапазон экспрессии и меньшее количество параметров.

где оператор vec⁻¹ преобразует вектор в матрицу, а нелинейность f выбирается как ReLU.

Ограничения: CNN не могут предсказывать трансляционно-инвариантные события. Пример: рассмотрим задачу угадать, присутствует ли кошка на данном изображении, но она не может сообщить никакой дополнительной информации.

  • Сети капсул (CapsNets): CapsNets — это новый тип архитектуры, недавно представленный для ограничения ограничений CNN. CapsNets состоит из множества капсул и может фиксировать инвариантные к трансляции свойства.

Сравнение моделей пространственной и временной сложности

Использованная литература:

  1. Внедрение графа знаний: обзор подходов и приложений, авторы Цюань Ван, Чжэндун Мао, Бинь Ван и Ли Го
  2. А. Бордес, Н. Усюнье, А. Гарсия-Дюран, Дж. Уэстон, О. Яхненко, Преобразование вложений для моделирования многореляционных данных, Достижения в системах обработки нейронной информации 26 (2013)
  3. З. Ван, Дж. Чжан, Дж. Фэн, З. Чен, Встраивание графа знаний путем перевода на гиперплоскости, в:
    Материалы конференции AAAI по искусственному интеллекту, том 28.
  4. Ю. Линь, З. Лю, М. Сунь, Ю. Лю, X. Чжу, Вложения обучающихся объектов и отношений для завершения графа знаний, в:
    Двадцать девятая конференция AAAI по искусственному интеллекту.
  5. Г. Цзи, С. Хе, Л. Сюй, К. Лю, Дж. Чжао, Встраивание графа знаний с помощью матрицы динамического отображения, в:
    Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-го Международного Совместная конференция по обработке естественного языка (Том 1: Длинные статьи), стр. 687–696.
  6. М. Никель, В. Тресп, Х.-П. Кригель, Трехсторонняя модель коллективного обучения на многореляционных данных, в: Icml.
  7. Б. Ян, В.-т. Yih, X. He, J. Gao, L. Deng, Встраивание сущностей и отношений для обучения и вывода в базы знаний, препринт arXiv arXiv: 1412.6575 (2014).
  8. М. Никель, Л. Росаско, Т. Поджио, Голографические вложения графов знаний, в: Материалы конференции AAAI по искусственному интеллекту, том 30.
  9. Ю. Сюэ, Ю. Юань, З. Сюй, А. Сабхарвал, Расширение голографических вложений для пополнения знаний, в:
    NeurIPS, стр. 4496–4506.
  10. К. Хаяши, М. Шимбо, Об эквивалентности голографических и комплексных вложений для прогнозирования ссылок, в: Материалы 55-го ежегодного собрания Ассоциации вычислительной лингвистики (Том 2: Краткие статьи), стр. 554– 559.
  11. Х. Лю, Ю. Ву, Ю. Ян, Аналогический вывод для многореляционных вложений, в: Международная конференция по машинному обучению, PMLR, стр. 2168–2178.
  12. Т. Деттмерс, П. Минервини, П. Стенеторп, С. Ридель, Вложения сверточных двухмерных графов знаний, в: Тридцать вторая конференция AAAI по искусственному интеллекту.
  13. Д. К. Нгуен, Т. Д. Нгуен, Д. К. Нгуен, Д. Фунг, Новая модель встраивания для заполнения базы знаний на основе сверточной нейронной сети, препринт arXiv arXiv: 1712.02121 (2017).
  14. И. Балажевиц, К. Аллен, Т. М. Хоспедалес, Вложения графов знаний гиперсетей, в: Международная конференция по искусственным нейронным сетям, Springer, стр. 553–565.
  15. С. Сабур, Н. Фросс, Г. Э. Хинтон, Динамическая маршрутизация между капсулами, препринт arXiv arXiv: 1710.09829 (2017).