Встраивания графов знаний (KGE) — это модели, которые пытаются изучить вложения и векторное представление узлов и ребер, используя преимущества обучения с учителем. Они делают это, проецируя в непрерывное низкоразмерное пространство. Эти векторы имеют несколько сотен измерений, что предполагает эффективность памяти. Векторное пространство, в котором каждая точка представляет понятие, а положение каждой точки в пространстве семантически значимо, подобно встраиванию слов.
Предпосылки:
- Основы машинного обучения и нейронных сетей.
- Понимание математических взаимосвязей, трехмерного расчета расстояний, тригонометрии и функций.
- Чашка кофе и ваша любимая музыка, потому что будет так много математики.
KGE должен быть достаточно выразительным, чтобы уловить свойства KG, которые относятся к способности представлять отличительные логические шаблоны для отношений. Ваш KG может добавлять или удалять определенные свойства в соответствии с вашими требованиями. Ниже приводится сравнение моделей KGE с точки зрения захвата типов отношений.
Модели перевода:
- TransE. Предлагается модель встраивания графа знаний на основе перевода, чтобы зафиксировать явление инвариантности перевода в многореляционных графах. Принцип, лежащий в основе принятия этого подхода, состоит в том, чтобы признать наиболее общий и интерпретируемый способ обнаружения допустимых троек как трансляционную активность элементов, характеризующую функцию подсчета очков, а затем ограничивающую функцию потерь, чтобы ознакомиться с вложением троек.
где l1/l2 — нормальные ограничения.
Преимущество: TransE неоднократно демонстрировал хорошую производительность для крупномасштабных графов знаний.
Ограничения: он не может эффективно фиксировать сложные отношения, такие как «один ко многим» и «многие ко многим».
- TransH: TransH дает разные векторы представления каждой сущности в зависимости от отношения. TransH работает, выдавая совершенно отдельную гиперплоскость, специфичную для отношения, для каждого отношения, так что объекты, связанные с ним, имеют различную семантику только в контексте этого отношения. TransH проецирует векторы встраивания объектов, h и t, на гиперплоскость (зависит от отношения) в направлении вектора отображения Wᵣ.
Здесь Dᵣ представляет вектор перевода, специфичный для отношения, h и t следуют подходу к расчету, приведенному ниже:
TransH в некоторой степени решает проблемы. Он использует то же пространство векторных признаков.
- TransR: TransR разделяет очень похожую идею с TransH. Но он вводит пространства, специфичные для отношений, а не гиперплоскости. Сущности представлены в виде векторов в пространстве сущностей Rᵈ, и каждое отношение связано с определенным пространством Rᵏ и моделируется как вектор перевода в этом пространстве. Учитывая факт, TransR сначала проецирует представление объекта h и t в пространство, характерное для отношения r, т. е.
Здесь Mᵣ - матрица проекции из пространства сущностей в пространство отношений r. Функция оценки снова определяется как
Преимущество: он может моделировать сложные отношения.
Ограничения: для каждого отношения требуется O(dk) параметров. Он теряет простоту и эффективность TransE/TransH.
- TransD: TransD является усовершенствованием TransR. Он принял матрицу отображения, которая эффективно генерирует две отдельные матрицы отображения для головных и хвостовых сущностей. Он использует два вектора встраивания для представления каждой сущности и отношения. Первый вектор внедрения используется для представления семантики сущности и отношений. Второй вектор внедрения используется для создания двух матриц динамической проекции, как показано ниже.
Модели семантического сопоставления
- RESCAL: RESCAL связывает каждый объект с вектором для захвата скрытой семантики. Каждое отношение представлено в виде матрицы, которая моделирует парные взаимодействия между скрытыми факторами. Оценка факта (h,r,t) определяется билинейной функцией.
где h,t ∈Rᵈ — векторные представления сущностей, а Mᵣ ∈ Rᵈ*ᵈ — матрица, связанная с отношением. Эта оценка фиксирует попарные взаимодействия между всеми компонентами h и t, для чего требуется параметр O (d²) на отношение, а также предполагает, что все Mᵣ разлагаются по общему набору метрик ранга 1.
Ограничение: вычислительно сложный и затратный.
- TATEC: TATEC моделирует не только трехстороннее взаимодействие
но также и двусторонние взаимодействия, например, между сущностью и отношением. Функция подсчета очков
где D — диагональная матрица, общая для всех различных отношений.
- DistMult: DistMult упрощает RESCAL, ограничивая Mᵣ диагональными матрицами. Для каждого отношения r оно вводит векторное вложение r ∈ Rᵈ и требует, чтобы Mᵣ = diag(r)
Преимущество: Это вычислительно просто и дешево.
Ограничение: это чрезмерно упрощенная модель, способная обрабатывать только симметричные отношения. Он недостаточно мощный для обычных КГ.
- Голографические встраивания (HolE): HolE сочетает в себе выразительную мощь RESCAL с эффективностью и простотой DistMult. Он повторно представляет как сущности, так и отношения как векторы в Rᵈ. Учитывая факт (h, r, t), представления объекта сначала составляются в h * t ∈ Rᵈ с использованием операции круговой корреляции, а именно
Основная цель принятия * состоит в том, чтобы использовать уменьшенную сложность составного представления в форме сжатого тензорного произведения. Кроме того, HolE использует быстрое преобразование Фурье, которое может еще больше ускорить процесс вычислений за счет:
Преимущество: HolE требует только O(d) параметров на отношение, что более эффективно, чем RESCAL.
Ограничение: HolE не может моделировать асимметричные отношения.
Отказ от ответственности: HolE не может моделировать асимметричные отношения, но в некоторых исследовательских работах они путают его с его расширенной формой HolEX, которая может обрабатывать асимметричные отношения.
- Комплексные вложения (ComplEx): ComplEx расширяет DistMult, вводя вложения с комплексными значениями, чтобы лучше моделировать асимметричные отношения. В ComplEx вложения сущностей и отношений h, r, t больше не лежат в реальном пространстве, а являются сложным пространством, скажем, Cᵈ.
Эта функция оценки больше не является симметричной, и факты из асимметричных отношений могут получать разные оценки в зависимости от порядка задействованных сущностей. HolE включен в состав ComplEx как частный случай, когда сопряженная симметрия накладывается на вложения.
- ANALOGY: ANALOGY расширяет RESCAL для дальнейшего моделирования аналогичных свойств сущностей и отношений. Он использует билинейную функцию подсчета очков.
DistMult, HolE и ComplEx могут быть включены в ANALOGY как частные случаи принципиальным образом.
Функции глубокой оценки
- ConvE: ConvE — одна из первых моделей, использующих сверточные нейронные сети (CNN) для прогнозирования недостающих звеньев в графе знаний. В отличие от полносвязных плотных слоев, CNN могут помочь зафиксировать сложные нелинейные отношения, обучаясь с очень небольшим количеством параметров. ConvE обеспечивает локальные связи между различными объектами в нескольких измерениях.
где concat — оператор конкатенации, * представляет свертку, а eₛ и eᵣ отвечают за двумерное изменение формы субъекта и отношения соответственно.
Ограничения: невозможно зафиксировать глобальное отношение тройных вложений.
- ConvKB: ConbKB использует одномерную свертку, чтобы сохранить свойства интерпретации TransE, достаточные для захвата глобальных отношений и временных атрибутов между объектами. Он обращается к встраиванию каждой тройки в виде трехсегментной сети и передает ее в сверточный анализ. слой с целью достижения глобальных связей между размерными классами фактов.
где , Ω (набор фильтров) и e (весовой вектор) представляют общие параметры.
- HypER: векторные вложения каждого отношения полностью изменяются после проецирования их через плотный слой, а затем настраивается группа векторных отношений сверточных каналов в каждом слое. HypER имеет гораздо более широкий диапазон экспрессии и меньшее количество параметров.
где оператор vec⁻¹ преобразует вектор в матрицу, а нелинейность f выбирается как ReLU.
Ограничения: CNN не могут предсказывать трансляционно-инвариантные события. Пример: рассмотрим задачу угадать, присутствует ли кошка на данном изображении, но она не может сообщить никакой дополнительной информации.
- Сети капсул (CapsNets): CapsNets — это новый тип архитектуры, недавно представленный для ограничения ограничений CNN. CapsNets состоит из множества капсул и может фиксировать инвариантные к трансляции свойства.
Сравнение моделей пространственной и временной сложности
Использованная литература:
- Внедрение графа знаний: обзор подходов и приложений, авторы Цюань Ван, Чжэндун Мао, Бинь Ван и Ли Го
- А. Бордес, Н. Усюнье, А. Гарсия-Дюран, Дж. Уэстон, О. Яхненко, Преобразование вложений для моделирования многореляционных данных, Достижения в системах обработки нейронной информации 26 (2013)
- З. Ван, Дж. Чжан, Дж. Фэн, З. Чен, Встраивание графа знаний путем перевода на гиперплоскости, в:
Материалы конференции AAAI по искусственному интеллекту, том 28. - Ю. Линь, З. Лю, М. Сунь, Ю. Лю, X. Чжу, Вложения обучающихся объектов и отношений для завершения графа знаний, в:
Двадцать девятая конференция AAAI по искусственному интеллекту. - Г. Цзи, С. Хе, Л. Сюй, К. Лю, Дж. Чжао, Встраивание графа знаний с помощью матрицы динамического отображения, в:
Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-го Международного Совместная конференция по обработке естественного языка (Том 1: Длинные статьи), стр. 687–696. - М. Никель, В. Тресп, Х.-П. Кригель, Трехсторонняя модель коллективного обучения на многореляционных данных, в: Icml.
- Б. Ян, В.-т. Yih, X. He, J. Gao, L. Deng, Встраивание сущностей и отношений для обучения и вывода в базы знаний, препринт arXiv arXiv: 1412.6575 (2014).
- М. Никель, Л. Росаско, Т. Поджио, Голографические вложения графов знаний, в: Материалы конференции AAAI по искусственному интеллекту, том 30.
- Ю. Сюэ, Ю. Юань, З. Сюй, А. Сабхарвал, Расширение голографических вложений для пополнения знаний, в:
NeurIPS, стр. 4496–4506. - К. Хаяши, М. Шимбо, Об эквивалентности голографических и комплексных вложений для прогнозирования ссылок, в: Материалы 55-го ежегодного собрания Ассоциации вычислительной лингвистики (Том 2: Краткие статьи), стр. 554– 559.
- Х. Лю, Ю. Ву, Ю. Ян, Аналогический вывод для многореляционных вложений, в: Международная конференция по машинному обучению, PMLR, стр. 2168–2178.
- Т. Деттмерс, П. Минервини, П. Стенеторп, С. Ридель, Вложения сверточных двухмерных графов знаний, в: Тридцать вторая конференция AAAI по искусственному интеллекту.
- Д. К. Нгуен, Т. Д. Нгуен, Д. К. Нгуен, Д. Фунг, Новая модель встраивания для заполнения базы знаний на основе сверточной нейронной сети, препринт arXiv arXiv: 1712.02121 (2017).
- И. Балажевиц, К. Аллен, Т. М. Хоспедалес, Вложения графов знаний гиперсетей, в: Международная конференция по искусственным нейронным сетям, Springer, стр. 553–565.
- С. Сабур, Н. Фросс, Г. Э. Хинтон, Динамическая маршрутизация между капсулами, препринт arXiv arXiv: 1710.09829 (2017).