В новой статье исследователи Оксфордского университета представляют новый подход к сжатию изображений, который превосходит стандарт JPEG при низких скоростях передачи данных, даже без энтропийного кодирования или изучения распределения по весам.

Недавно разработанные методы автоматического кодирования для сжатия изображений с потерями привлекли внимание в сообществах машинного обучения и обработки изображений. Такие автокодеры работают по простому принципу: изображение, обычно моделируемое как вектор яркости пикселей, квантуется, таким образом уменьшая объем информации, необходимой для его хранения или передачи.

Вместо хранения значений RGB для каждого пикселя изображения предлагаемый подход сохраняет веса нейронной сети, переоборудованной для изображения. Исследователи называют свой метод «МОНЕТЫ» (COmpressed Implicit Neural представления).

COIN кодирует изображение, заменяя его небольшим многослойным персептроном (MLP) - разновидностью искусственной нейронной сети прямого распространения. Подход отображает расположение пикселей в значения RGB (часто называемое неявным нейронным представлением), а затем передает веса этого MLP. Во время декодирования переданный MLP оценивается во всех местоположениях пикселей для восстановления изображения.

Самая сложная часть всего процесса сжатия изображения - это переоснащение MLP из-за наличия высокочастотной информации в естественных изображениях. Недавние подходы использовали синусоидальное кодирование и активацию для смягчения этого процесса, и новое исследование обнаруживает, что использование MLP с синусоидальной активацией может соответствовать большим изображениям (393k пикселей) с удивительно маленькими сетями (8k параметров).

Чтобы уменьшить размер модели, исследователи применяют архитектурный поиск и квантование весов. Они выполняют развертку гиперпараметров по ширине и количеству слоев MLP, квантуя веса с 32-битной до 16-битной точности, что достаточно, чтобы превзойти стандарт JPEG для низких битрейтов.

Другой изюминкой COIN является дополнительная гибкость подхода к декодированию. Изображения можно постепенно декодировать, просто оценивая функции в различных местоположениях пикселей. Частичное декодирование изображений таким способом затруднительно для предыдущих методов, основанных на автокодировщике.

Чтобы проверить производительность COIN, исследователи провели эксперименты с набором данных изображений Kodak, состоящим из 24 изображений размером 768 × 512. Модель сравнивалась с тремя моделями нейронного сжатия на основе автокодера (BMS, MBT и CST). Они также сравнили COIN с кодеками изображений JPEG, JPEG2000, BPG и VTM.

Сначала исследователи определили допустимые комбинации глубины и ширины для MLP, представляющих изображение (например, для 0,3 бит на пиксель с использованием 16-битных весов), чтобы определить лучшую архитектуру модели для заданного бюджета параметра (измеренного в битах на пиксель или бит на пиксель). Результаты показывают, что при низких скоростях передачи данных предлагаемая модель превосходит стандарт JPEG даже без использования энтропийного кодирования.

Эксперименты показывают, что COIN превосходит стандарт JPEG после 15 000 итераций, а затем продолжает неуклонно улучшаться; и что качество сжатия зависит от выбора архитектуры с разными оптимальными архитектурами для разных значений bpp. Команда из Оксфорда надеется, что дальнейшая работа в этой области приведет к созданию нового класса методов сжатия нейронных данных.

Статья COIN: сжатие с неявными нейронными представлениями находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.