Сравнение моделей встраивания графов знаний (KGE)

Встраивания графов знаний (KGE) — это модели, которые пытаются изучить вложения и векторное представление узлов и ребер, используя преимущества обучения с учителем. Они делают это, проецируя в непрерывное низкоразмерное пространство. Эти векторы имеют несколько сотен измерений, что предполагает эффективность памяти. Векторное пространство, в котором каждая точка представляет понятие, а положение каждой точки в пространстве семантически значимо, подобно встраиванию слов.

Предпосылки:

Основы машинного обучения и нейронных сетей.
Понимание математических взаимосвязей, трехмерного расчета расстояний, тригонометрии и функций.
Чашка кофе и ваша любимая музыка, потому что будет так много математики.

KGE должен быть достаточно выразительным, чтобы уловить свойства KG, которые относятся к способности представлять отличительные логические шаблоны для отношений. Ваш KG может добавлять или удалять определенные свойства в соответствии с вашими требованиями. Ниже приводится сравнение моделей KGE с точки зрения захвата типов отношений.

Модели перевода:

TransE. Предлагается модель встраивания графа знаний на основе перевода, чтобы зафиксировать явление инвариантности перевода в многореляционных графах. Принцип, лежащий в основе принятия этого подхода, состоит в том, чтобы признать наиболее общий и интерпретируемый способ обнаружения допустимых троек как трансляционную активность элементов, характеризующую функцию подсчета очков, а затем ограничивающую функцию потерь, чтобы ознакомиться с вложением троек.

где l1/l2 — нормальные ограничения.

Преимущество: TransE неоднократно демонстрировал хорошую производительность для крупномасштабных графов знаний.

Ограничения: он не может эффективно фиксировать сложные отношения, такие как «один ко многим» и «многие ко многим».

TransH: TransH дает разные векторы представления каждой сущности в зависимости от отношения. TransH работает, выдавая совершенно отдельную гиперплоскость, специфичную для отношения, для каждого отношения, так что объекты, связанные с ним, имеют различную семантику только в контексте этого отношения. TransH проецирует векторы встраивания объектов, h и t, на гиперплоскость (зависит от отношения) в направлении вектора отображения Wᵣ.

Здесь Dᵣ представляет вектор перевода, специфичный для отношения, h и t следуют подходу к расчету, приведенному ниже:

TransH в некоторой степени решает проблемы. Он использует то же пространство векторных признаков.

TransR: TransR разделяет очень похожую идею с TransH. Но он вводит пространства, специфичные для отношений, а не гиперплоскости. Сущности представлены в виде векторов в пространстве сущностей Rᵈ, и каждое отношение связано с определенным пространством Rᵏ и моделируется как вектор перевода в этом пространстве. Учитывая факт, TransR сначала проецирует представление объекта h и t в пространство, характерное для отношения r, т. е.

Здесь Mᵣ - матрица проекции из пространства сущностей в пространство отношений r. Функция оценки снова определяется как

Преимущество: он может моделировать сложные отношения.

Ограничения: для каждого отношения требуется O(dk) параметров. Он теряет простоту и эффективность TransE/TransH.

TransD: TransD является усовершенствованием TransR. Он принял матрицу отображения, которая эффективно генерирует две отдельные матрицы отображения для головных и хвостовых сущностей. Он использует два вектора встраивания для представления каждой сущности и отношения. Первый вектор внедрения используется для представления семантики сущности и отношений. Второй вектор внедрения используется для создания двух матриц динамической проекции, как показано ниже.

Модели семантического сопоставления

RESCAL: RESCAL связывает каждый объект с вектором для захвата скрытой семантики. Каждое отношение представлено в виде матрицы, которая моделирует парные взаимодействия между скрытыми факторами. Оценка факта (h,r,t) определяется билинейной функцией.

где h,t ∈Rᵈ — векторные представления сущностей, а Mᵣ ∈ Rᵈ*ᵈ — матрица, связанная с отношением. Эта оценка фиксирует попарные взаимодействия между всеми компонентами h и t, для чего требуется параметр O (d²) на отношение, а также предполагает, что все Mᵣ разлагаются по общему набору метрик ранга 1.

Ограничение: вычислительно сложный и затратный.

TATEC: TATEC моделирует не только трехстороннее взаимодействие

но также и двусторонние взаимодействия, например, между сущностью и отношением. Функция подсчета очков

где D — диагональная матрица, общая для всех различных отношений.

DistMult: DistMult упрощает RESCAL, ограничивая Mᵣ диагональными матрицами. Для каждого отношения r оно вводит векторное вложение r ∈ Rᵈ и требует, чтобы Mᵣ = diag(r)

Преимущество: Это вычислительно просто и дешево.

Ограничение: это чрезмерно упрощенная модель, способная обрабатывать только симметричные отношения. Он недостаточно мощный для обычных КГ.

Голографические встраивания (HolE): HolE сочетает в себе выразительную мощь RESCAL с эффективностью и простотой DistMult. Он повторно представляет как сущности, так и отношения как векторы в Rᵈ. Учитывая факт (h, r, t), представления объекта сначала составляются в h * t ∈ Rᵈ с использованием операции круговой корреляции, а именно

Основная цель принятия * состоит в том, чтобы использовать уменьшенную сложность составного представления в форме сжатого тензорного произведения. Кроме того, HolE использует быстрое преобразование Фурье, которое может еще больше ускорить процесс вычислений за счет:

Преимущество: HolE требует только O(d) параметров на отношение, что более эффективно, чем RESCAL.

Ограничение: HolE не может моделировать асимметричные отношения.

Отказ от ответственности: HolE не может моделировать асимметричные отношения, но в некоторых исследовательских работах они путают его с его расширенной формой HolEX, которая может обрабатывать асимметричные отношения.

Комплексные вложения (ComplEx): ComplEx расширяет DistMult, вводя вложения с комплексными значениями, чтобы лучше моделировать асимметричные отношения. В ComplEx вложения сущностей и отношений h, r, t больше не лежат в реальном пространстве, а являются сложным пространством, скажем, Cᵈ.

Эта функция оценки больше не является симметричной, и факты из асимметричных отношений могут получать разные оценки в зависимости от порядка задействованных сущностей. HolE включен в состав ComplEx как частный случай, когда сопряженная симметрия накладывается на вложения.

ANALOGY: ANALOGY расширяет RESCAL для дальнейшего моделирования аналогичных свойств сущностей и отношений. Он использует билинейную функцию подсчета очков.

DistMult, HolE и ComplEx могут быть включены в ANALOGY как частные случаи принципиальным образом.

Функции глубокой оценки

ConvE: ConvE — одна из первых моделей, использующих сверточные нейронные сети (CNN) для прогнозирования недостающих звеньев в графе знаний. В отличие от полносвязных плотных слоев, CNN могут помочь зафиксировать сложные нелинейные отношения, обучаясь с очень небольшим количеством параметров. ConvE обеспечивает локальные связи между различными объектами в нескольких измерениях.

где concat — оператор конкатенации, * представляет свертку, а eₛ и eᵣ отвечают за двумерное изменение формы субъекта и отношения соответственно.

Ограничения: невозможно зафиксировать глобальное отношение тройных вложений.

ConvKB: ConbKB использует одномерную свертку, чтобы сохранить свойства интерпретации TransE, достаточные для захвата глобальных отношений и временных атрибутов между объектами. Он обращается к встраиванию каждой тройки в виде трехсегментной сети и передает ее в сверточный анализ. слой с целью достижения глобальных связей между размерными классами фактов.

где , Ω (набор фильтров) и e (весовой вектор) представляют общие параметры.

HypER: векторные вложения каждого отношения полностью изменяются после проецирования их через плотный слой, а затем настраивается группа векторных отношений сверточных каналов в каждом слое. HypER имеет гораздо более широкий диапазон экспрессии и меньшее количество параметров.

где оператор vec⁻¹ преобразует вектор в матрицу, а нелинейность f выбирается как ReLU.

Ограничения: CNN не могут предсказывать трансляционно-инвариантные события. Пример: рассмотрим задачу угадать, присутствует ли кошка на данном изображении, но она не может сообщить никакой дополнительной информации.

Сети капсул (CapsNets): CapsNets — это новый тип архитектуры, недавно представленный для ограничения ограничений CNN. CapsNets состоит из множества капсул и может фиксировать инвариантные к трансляции свойства.

Сравнение моделей пространственной и временной сложности

Использованная литература:

Внедрение графа знаний: обзор подходов и приложений, авторы Цюань Ван, Чжэндун Мао, Бинь Ван и Ли Го
А. Бордес, Н. Усюнье, А. Гарсия-Дюран, Дж. Уэстон, О. Яхненко, Преобразование вложений для моделирования многореляционных данных, Достижения в системах обработки нейронной информации 26 (2013)
З. Ван, Дж. Чжан, Дж. Фэн, З. Чен, Встраивание графа знаний путем перевода на гиперплоскости, в:
Материалы конференции AAAI по искусственному интеллекту, том 28.
Ю. Линь, З. Лю, М. Сунь, Ю. Лю, X. Чжу, Вложения обучающихся объектов и отношений для завершения графа знаний, в:
Двадцать девятая конференция AAAI по искусственному интеллекту.
Г. Цзи, С. Хе, Л. Сюй, К. Лю, Дж. Чжао, Встраивание графа знаний с помощью матрицы динамического отображения, в:
Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-го Международного Совместная конференция по обработке естественного языка (Том 1: Длинные статьи), стр. 687–696.
М. Никель, В. Тресп, Х.-П. Кригель, Трехсторонняя модель коллективного обучения на многореляционных данных, в: Icml.
Б. Ян, В.-т. Yih, X. He, J. Gao, L. Deng, Встраивание сущностей и отношений для обучения и вывода в базы знаний, препринт arXiv arXiv: 1412.6575 (2014).
М. Никель, Л. Росаско, Т. Поджио, Голографические вложения графов знаний, в: Материалы конференции AAAI по искусственному интеллекту, том 30.
Ю. Сюэ, Ю. Юань, З. Сюй, А. Сабхарвал, Расширение голографических вложений для пополнения знаний, в:
NeurIPS, стр. 4496–4506.
К. Хаяши, М. Шимбо, Об эквивалентности голографических и комплексных вложений для прогнозирования ссылок, в: Материалы 55-го ежегодного собрания Ассоциации вычислительной лингвистики (Том 2: Краткие статьи), стр. 554– 559.
Х. Лю, Ю. Ву, Ю. Ян, Аналогический вывод для многореляционных вложений, в: Международная конференция по машинному обучению, PMLR, стр. 2168–2178.
Т. Деттмерс, П. Минервини, П. Стенеторп, С. Ридель, Вложения сверточных двухмерных графов знаний, в: Тридцать вторая конференция AAAI по искусственному интеллекту.
Д. К. Нгуен, Т. Д. Нгуен, Д. К. Нгуен, Д. Фунг, Новая модель встраивания для заполнения базы знаний на основе сверточной нейронной сети, препринт arXiv arXiv: 1712.02121 (2017).
И. Балажевиц, К. Аллен, Т. М. Хоспедалес, Вложения графов знаний гиперсетей, в: Международная конференция по искусственным нейронным сетям, Springer, стр. 553–565.
С. Сабур, Н. Фросс, Г. Э. Хинтон, Динамическая маршрутизация между капсулами, препринт arXiv arXiv: 1710.09829 (2017).

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning