1. Рекуррентный внимательный нейронный процесс для последовательных данных (arXiv)

Автор: Шенхао Цинь, Цзячэн Чжу, Джимми Цинь, Вэньшо Ван, Дин Чжао.

Аннотация: Нейронные процессы (НП) изучают стохастические процессы и предсказывают распределение целевого результата, адаптивно обусловленное контекстным набором наблюдаемых пар вход-выход. Кроме того, Attentive Neural Process (ANP) повысил точность прогнозирования NP за счет включения механизма внимания среди контекстов и целей. В ряде реальных приложений, таких как робототехника, финансы, речь и биология, очень важно изучить временной порядок и повторяющуюся структуру из последовательных данных. Однако способность NP улавливать эти свойства ограничена из-за его инстинкта инвариантности к перестановкам. В этой статье мы предложили рекуррентный нейронный процесс внимания (RANP) или, альтернативно, нейронный процесс внимания — рекуррентную нейронную сеть (ANP-RNN), в котором ANP включен в рекуррентную нейронную сеть. Предлагаемая модель включает в себя как индуктивные смещения рекуррентных нейронных сетей, так и силу NP для моделирования неопределенности. Мы демонстрируем, что RANP может эффективно моделировать последовательные данные и значительно превосходит NP и LSTM в игровом примере одномерной регрессии, а также в приложениях автономного вождения.

2. Внимательные нейронные процессы (arXiv)

Автор: Хёнджик Ким, Андрей Мних, Джонатан Шварц, Марта Гарнело, Али Эслами, Дэн Розенбаум, Ориол Виньялс, Йи Уай Тэх

Аннотация: Neural Processes (NPs) (Garnelo et al 2018a;b) приближается к регрессии, обучаясь сопоставлять контекстный набор наблюдаемых пар вход-выход с распределением по функциям регрессии. Каждая функция моделирует распределение выходных данных с учетом входных данных в зависимости от контекста. Преимущество NP заключается в эффективном сопоставлении наблюдаемых данных с линейной сложностью по количеству пар ввода-вывода контекста и может изучать широкий набор условных распределений; они изучают прогностические распределения, зависящие от наборов контекстов произвольного размера. Тем не менее, мы показываем, что NP страдают фундаментальным недостатком недообучения, что дает неточные прогнозы на входе наблюдаемых данных, на которых они основываются. Мы решаем эту проблему, включив внимание в NP, позволяя каждому входному местоположению уделять внимание соответствующим точкам контекста для прогноза. Мы показываем, что это значительно повышает точность прогнозов, приводит к заметно более быстрому обучению и расширяет диапазон функций, которые можно моделировать.