Синтетические данные относятся к любым данным, которые генерируются исключительно с помощью вычислений, а не измеряются непосредственно датчиком в реальном мире. Использование синтетических данных имеет много преимуществ: специалисты по машинному обучению имеют явный контроль над своим набором данных, могут генерировать почти бесконечные обучающие выборки, и им не нужно выполнять трудоемкий процесс маркировки каждой выборки. В этой статье мы представляем распространенную проблему, возникающую при использовании синтетических данных, — разрыв между симуляцией и реальностью — и обсуждаем подходы к его устранению.
Узнайте больше о преимуществах синтетических данных в нашей недавней записи в блоге и ознакомьтесь с нашим набором синтетических данных с открытым исходным кодом для фитнес-приложений InfiniteForm. Если вы предпочитаете видео/аудио, вы также можете посмотреть нашу недавнюю презентацию, посвященную сокращению разрыва между симуляцией и реальностью.
Понимание разрыва между симом и реальным
Синтетические данные — по определению — генерируются другим процессом, чем их реальный аналог. В контексте компьютерного зрения реальными данными могут быть любые данные, от фотографий до сканирования медицинских изображений. Эти данные отражают статистические свойства, характерные как для объекта съемки (например, самолета или опухоли), так и для используемого метода сбора данных (например, датчика камеры или МРТ-сканера). Когда мы создаем синтетические данные, мы фундаментально оцениваем как содержание, так и метод получения. В результате синтетические данные могут демонстрировать статистические свойства, отличные от свойств реальных данных. Мы называем эти различия разрывом между симулятором и реальным.
Как люди, у нас нет проблем с просмотром верхней строки моделей САПР на рисунке ниже и анализом их семантического содержания. Другими словами, нам легко идентифицировать объекты, которые они представляют. Однако когда исследователи обучили модель компьютерного зрения исключительно на изображениях CAD-моделей, она не смогла обобщить на фотографии тех же объектов. Основная причина этого заключается в том, что модель не изучила соответствующие статистические закономерности объектов в целевой области. Это преподносит важный урок — в зависимости от характера синтетического набора данных могут потребоваться определенные меры, чтобы помочь смягчить влияние разрыва между симуляцией и реальностью на производительность модели. В следующем разделе мы расскажем о нескольких стратегиях, которые специалисты по машинному обучению могут использовать, чтобы получить максимальную отдачу от своих синтетических данных.
Преодоление разрыва между симулятором и реальным с помощью адаптации предметной области
Адаптация домена относится к любому процессу, направленному на преодоление снижения производительности, которое может возникнуть, когда домен обучения модели отличается от домена данных, наблюдаемых во время тестирования. В контексте синтетических данных адаптация предметной области — это, по сути, процесс сокращения разрыва между симуляцией и реальностью — задача, над решением которой работают многие исследователи. За последние несколько лет количество обращений Google Scholar по запросу «разрыв между симулятором и реальным» резко возросло, и количество методов адаптации домена неуклонно растет. К ним относятся импорт существенных аспектов реального мира в моделирование, фотореализм, рандомизация доменов и генеративно-состязательные сети (GAN).
Импорт реального мира в симуляцию
Один из подходов, который можно использовать для устранения разрыва между симуляцией и реальностью, — это импорт аспектов реального мира непосредственно в симуляцию. Это может включать импорт определенных объектов в качестве 3D-активов, импорт всей сцены или импорт определенных поз или действий. Например, алгоритмы «структура из движения» и растущая распространенность LiDAR на мобильных устройствах позволили любому, у кого есть смартфон, превращать произвольные объекты в 3D-активы с помощью в основном автоматизированного процесса. Точно так же внешние параметры камеры могут быть извлечены из 2D-изображений, что позволяет проецировать их в 3D-пространство и использовать в качестве фоновой среды с реалистичными перспективами камеры, как показано ниже. В будущем модели машинного обучения можно будет использовать для автоматизации этого процесса и сегментации этажей для реалистичного размещения аватара.
Трехмерные позы и действия тела также можно импортировать из реального мира с помощью современных моделей машинного обучения, таких как VIBE. Это позволяет управлять новыми 3D-аватарами из единого источника движения, как показано ниже. Более традиционные методы захвата движения могут использоваться для высокоточных приложений, но мы обнаружили, что импорт из изображений и видео является гораздо более доступным решением. В конечном счете, мы — как и многие другие — предвидим будущее, в котором цифровые двойники реального мира могут быть воссозданы в моделировании практически без потери информации, что позволит должным образом представить существенные аспекты реального мира в синтетических наборах данных.
Фотореализм
Самый интуитивный подход к сокращению разрыва между симуляцией и реальностью в компьютерном зрении может быть и одним из самых сложных — сделать компьютерные изображения более реалистичными. Действительно, индустрия развлечений и видеоигр десятилетиями работала над этой проблемой, чтобы предоставить потребителям высококачественные виртуальные эффекты и богатый опыт повествования. Эти же инструменты сейчас используются для создания более реалистичных синтетических данных. Конвейеры физически обоснованного рендеринга явно моделируют поток света в реальном мире, что обеспечивает более реалистичное затенение для сложных материалов, таких как человеческая кожа. Исторически существовал компромисс между вычислительными затратами и фотореализмом, что делало невозможным создание больших фотореалистичных наборов данных. Однако методы также становятся более удобными для вычислений, о чем свидетельствует недавняя работа от NVIDIA, в которой высокореалистичные цифровые аватары рендерились менее чем за 30 секунд. Хотя эти достижения обнадеживают и будут продолжать улучшать качество синтетических данных, достижение фотореализма за счет физического рендеринга может не требоваться строго для сокращения разрыва между симуляцией и реальностью. Другие методы направлены на то, чтобы сделать модели более устойчивыми к разрыву между симуляцией и реальностью, добавляя высокую степень вариации (например, рандомизация предметной области) или изучая сопоставление, которое может преодолеть разрыв (например, генеративно-состязательные сети). Эти подходы обсуждаются ниже.
Рандомизация домена
Рандомизация домена относится к процессу добавления высокой степени дисперсии к синтетическому набору данных, чтобы увеличить вероятность того, что он будет обобщен на реальные данные во время тестирования. Интересно, что эта дисперсия часто происходит за счет фотореализма. Вместо того, чтобы пытаться сделать синтетические изображения гиперреалистичными, рандомизация доменов стремится добавить как можно больше разнообразия. Основная причина этого подхода заключается в том, что обучающие данные с достаточным разнообразием заставят модель изучить степень инвариантности предметной области, что позволит ей хорошо работать как в синтетических, так и в реальных средах.
Дисперсия, которая вводится в синтетический набор данных для рандомизации предметной области, может принимать разные формы. Например, нереалистичные синтетические текстуры часто применяются к объектам в синтетических наборах данных, используемых для обнаружения объектов. Другие аспекты сцены, которыми можно управлять программно, также являются популярными мишенями для рандомизации доменов. SURREAL, синтетический набор данных для оценки позы человека, программно варьирует элементы каждой сцены, такие как освещение, фоновое изображение и перспектива камеры, для создания высокой степени вариации. Модели, обученные на сочетании СЮРРЕАЛЬНЫХ и реальных данных, показали лучшие результаты в нескольких тестах, чем модели, обученные только на реальных данных.
Генеративно-состязательные сети
Генеративно-состязательные сети (GAN) становятся все более популярным методом глубокого обучения для генеративного моделирования. GAN имеет два основных компонента: генератор, который создает синтетические изображения (обычно путем преобразования вектора шума в пространство данных), и дискриминатор, который пытается отличить, является ли выход генератора реальным или нет. Поскольку GAN настолько эффективны при изучении распределения данных (и не требуют меток), они стали популярным инструментом для дополнения синтетически сгенерированных изображений, чтобы лучше отражать визуальные особенности, наблюдаемые в реальных данных. Например, недавняя работа Apple использовала GAN для уточнения синтетически сгенерированных изображений глаз, чтобы они лучше соответствовали визуальным характеристикам изображений реального мира. Тонкое, но важное различие между этим направлением работы и разделом Фотореализм выше заключается в том, что GAN учатся преобразовывать синтетические изображения в те, которые лучше отражают статистику реальных изображений. Другими словами, физически обоснованные конвейеры рендеринга создают фотореализм в восходящем подходе с использованием первых принципов (то есть поведения света), тогда как GAN изучают эти свойства неявным образом из данных.
Синтетические данные в Infinity AI
В Infinity AI мы предоставляем синтетические данные по запросу для команд компьютерного зрения через Pixelate API. Заинтересованы в использовании синтетических данных в своих проектах? Свяжитесь с нами по адресу [email protected] или ознакомьтесь с нашим недавно выпущенным набором синтетических данных с открытым исходным кодом для фитнес-приложений InfiniteForm.