Вслед за производительностью архитектур-трансформеров SOTA в задачах обработки естественного языка появляется новое поколение преобразователей зрения (ViT), которые меняют правила игры в области компьютерного зрения. Тем не менее, ViT унаследовали большие вычислительные возможности оригинальных трансформеров с высоким качеством изображения…