- ChildGAN: крупномасштабные синтетические данные о лицах детей с использованием доменной адаптации в StyleGAN (arXiv)
Автор: Мухаммад Али Фарук, Ван Яо, Габриэль Косташ, Питер Коркоран.
Аннотация: В этой исследовательской работе мы предложили новый ChildGAN, пару сетей GAN для создания синтетических данных о лицах мальчиков и девочек, полученных из StyleGAN2. ChildGAN построен путем плавного переноса домена с использованием трансферного обучения. Он предоставляет фотореалистичные образцы данных высокого качества. Крупномасштабный набор данных визуализируется с различными интеллектуальными преобразованиями лица: выражением лица, возрастным прогрессом, эффектами моргания, позой головы, вариациями цвета кожи и волос и переменными условиями освещения. Набор данных содержит более 300 тыс. различных выборок данных. Кроме того, уникальность и характеристики визуализированных черт лица проверяются путем запуска различных прикладных тестов компьютерного зрения, которые включают классификатор пола ребенка на основе CNN, тест на локализацию лица и обнаружение ориентиров лица, оценку сходства личности с использованием ArcFace и, наконец, запуск обнаружения глаз и глаз. тесты соотношения сторон. Результаты показывают, что синтетические данные о лицах детей высокого качества предлагают альтернативу стоимости и сложности сбора крупномасштабного набора данных от реальных детей.
2. Инверсия StyleGAN с помощью CLIP для редактирования реальных изображений с использованием текста (arXiv)
Автор: Ахмет Джанберк Байкал, Абдул Басит Анис, Дуйгу Джейлан, Эркут Эрдем, Айкут Эрдем, Дениз Юрет.
Аннотация: Недавно исследователи начали изучать возможности использования моделей на основе StyleGAN для редактирования реальных изображений. Одним из особенно интересных приложений является использование описаний на естественном языке для управления процессом редактирования. Существующие подходы к редактированию изображений с помощью языка либо прибегают к оптимизации скрытого кода на уровне экземпляра, либо сопоставляют предопределенные текстовые подсказки с некоторыми направлениями редактирования в скрытом пространстве. Однако эти подходы имеют присущие им ограничения. Первый не очень эффективен, а второй часто с трудом справляется с изменениями нескольких атрибутов. Чтобы устранить эти недостатки, мы представляем CLIPInverter, новый текстовый подход к редактированию изображений, способный эффективно и надежно выполнять изменения нескольких атрибутов. В основе нашего метода лежит использование новых, облегченных слоев адаптера с текстовым преобразованием, интегрированных в предварительно обученные сети GAN-инверсии. Мы демонстрируем, что, обусловливая начальный шаг инверсии внедрением CLIP целевого описания, мы можем получить более успешные направления редактирования. Кроме того, мы используем этап уточнения с помощью CLIP для внесения исправлений в результирующие остаточные скрытые коды, что еще больше улучшает согласование с текстовой подсказкой. Наш метод превосходит конкурирующие подходы с точки зрения точности манипулирования и фотореализма в различных областях, включая человеческие лица, кошек и птиц, как показывают наши качественные и количественные результаты.