- Статистическая теория обучения для управления: перспектива конечной выборки (arXiv)
Автор: Анастасиос Циамис, Ингвар Циманн, Николай Матни, Джордж Дж. Паппас.
Аннотация: В этом учебном обзоре представлен обзор последних неасимптотических достижений в статистической теории обучения, имеющих отношение к управлению и идентификации систем. Несмотря на то, что был достигнут значительный прогресс во всех областях управления, теория наиболее хорошо разработана, когда речь идет об идентификации и обучении линейной системы для линейно-квадратичного регулятора, которым посвящена эта статья. С теоретической точки зрения большая часть работы, лежащей в основе этих достижений, была связана с адаптацией инструментов современной многомерной статистики и теории обучения. Хотя это очень важно для теоретиков управления, заинтересованных в интеграции инструментов машинного обучения, базовый материал не всегда был легко доступен. Чтобы исправить это, мы предоставляем автономное представление соответствующего материала, обрисовывая в общих чертах все ключевые идеи и технические механизмы, лежащие в основе недавних результатов. Мы также представляем ряд открытых проблем и будущих направлений
2. Переосмысление мультимодального выравнивания в видеоответах на вопросы с точки зрения характеристик и образцов (arXiv)
Автор: Шаонин Сяо, Лун Чен, Кайфэн Гао, Чжао Ван, И Ян, Чжимэн Чжан, Цзюнь Сяо.
Аннотация: Рассуждения о причинно-следственных и временных отношениях событий в видео являются новым направлением Ответов на видеовопросы (VideoQA). Основным камнем преткновения для достижения этой цели является семантический разрыв между языком и видео, поскольку они находятся на разных уровнях абстракции. Существующие усилия в основном сосредоточены на разработке сложных архитектур с использованием визуальных представлений на уровне кадра или объекта. В этой статье мы пересматриваем проблему мультимодального выравнивания в VideoQA с точки зрения функций и примеров, чтобы добиться лучшей производительности. С точки зрения функции мы разбиваем видео на траектории и сначала используем функцию траектории в VideoQA, чтобы улучшить согласование между двумя модальностями. Кроме того, мы используем архитектуру гетерогенного графа и разрабатываем иерархическую структуру, чтобы согласовать визуальные функции на уровне траектории и кадра с языковыми функциями. Кроме того, мы обнаружили, что модели VideoQA в значительной степени зависят от априорных языков и всегда игнорируют визуально-языковые взаимодействия. Таким образом, две эффективные, но портативные стратегии расширения обучения предназначены для усиления кросс-модальной способности соответствия нашей модели с точки зрения выборки. Обширные результаты показывают, что наш метод превосходит все современные модели в сложном эталонном тесте NExT-QA, что демонстрирует эффективность предлагаемого метода.