1. GFlowNet-EM для изучения композиционных моделей скрытых переменных (arXiv)

Автор: Эдвард Дж. Ху, Николай Малкин, Мокш Джейн, Кэти Эверетт, Александрос Грайкос, Йошуа Бенжио.

Аннотация: Модели скрытых переменных (LVM) с дискретными композиционными латентными элементами являются важным, но сложным параметром из-за комбинаторно большого количества возможных конфигураций скрытых элементов. Ключевым компромиссом в моделировании апостериорных и латентных данных является выбор между выразительностью и приемлемой оптимизацией. Для алгоритмов, основанных на максимизации ожидания (EM), E-шаг часто невозможен без ограничительных приближений к апостериорным. Мы предлагаем использовать GFlowNets, алгоритмы выборки из ненормализованной плотности путем изучения стохастической политики последовательного построения выборок для этого сложного E-этапа. Обучая GFlowNet выборке из апостериорной по сравнению со скрытой, мы используем их сильные стороны в качестве алгоритмов амортизированного вариационного вывода для сложных распределений по дискретным структурам. Наш подход, GFlowNet-EM, позволяет обучать выразительные LVM с дискретными композиционными латентными данными, как показано в экспериментах по индукции неконтекстно-свободной грамматики и на изображениях с использованием дискретных вариационных автокодировщиков (VAE) без принудительной условной независимости в кодировщике.

2. Распределительные GFlowNets с квантильными потоками (arXiv)

Автор: Dinghuai Zhang, Ling Pan, Ricky T.Q. Chen, Aaron Courville, Yoshua Bengio.

Аннотация: Генеративные потоковые сети (GFlowNet) — это новое семейство вероятностных семплеров, в которых агент изучает стохастическую политику для создания сложной комбинаторной структуры посредством ряда шагов принятия решений. Несмотря на то, что текущая структура GFlowNet вдохновлена ​​​​обучением с подкреплением, она относительно ограничена в своей применимости и не может обрабатывать стохастичность в функции вознаграждения. В этой работе мы принимаем парадигму распределения для GFlowNets, превращая каждую функцию потока в распределение, тем самым обеспечивая более информативные обучающие сигналы во время обучения. Путем параметризации каждого граничного потока через их квантильные функции предложенный нами алгоритм обучения \textit{сопоставление квантилей} GFlowNet способен изучить политику, чувствительную к риску, что является важным компонентом для обработки сценариев с неопределенностью риска. Более того, мы обнаружили, что распределительный подход может обеспечить существенное улучшение существующих эталонных показателей по сравнению с предыдущими методами благодаря нашему усовершенствованному алгоритму обучения даже в условиях детерминированного вознаграждения.