PSG — объяснение новой сложной задачи для ИИ

Первоначально опубликовано на louisbouchard.ai, прочитано за 2 дня до этого в моем блоге!

Смотреть видео

Вы можете использовать ИИ, чтобы определить, что находится на изображении, например, узнать, есть кошка или нет. Если он есть, вы можете использовать другой ИИ, чтобы найти, где он находится на изображении. И найти его можно очень точно. Эти задачи называются классификацией изображений, обнаружением объектов и, наконец, сегментацией экземпляров.

Затем вы можете создавать классные приложения, чтобы извлечь свою кошку из изображения и поместить ее в забавную подарочную карту или мем. Но что, если вам нужно приложение, которое понимает сцену и изображение? Не только возможность определить, есть ли объект и где он находится, но и то, что происходит. Вы не хотите определять, есть ли покупатель в магазине или нет, но вы можете определить, ворует ли этот покупатель у вас. Является ли использование такой слежки этически правильным или нет — это совершенно другой вопрос, который вам необходимо рассмотреть.

Тем не менее, предположим, мы сосредоточились на выяснении того, что происходит в сцене или на конкретном изображении. В этом случае вам следует использовать задачу, называемую генерацией графа сцены (рисунок ниже слева), где объекты обнаруживаются с помощью ограничивающих рамок, как показано ранее при обнаружении объектов, которые затем используются для создания графа с отношениями каждого объекта. друг к другу объектом. По сути, он попытается понять, что происходит, по всем основным объектам сцены. Он неплохо работает и узнаёт эти основные характеристики изображения, но есть большая проблема. Он опирается на точность ограничивающей рамки и полностью игнорирует фон, который часто имеет решающее значение для понимания происходящего или, по крайней мере, для более реалистичного обобщения.

Вместо этого вы можете использовать эту новую задачу, называемую генерацией паноптического графа сцены или PSG (изображение выше, справа). PSG — это новая проблемная задача, направленная на создание более полного графического представления изображения или сцены на основе паноптической сегментации, а не ограничивающих прямоугольников. Что-то гораздо более точное, учитывающее все пиксели изображения, как мы видели.

И создатели этой задачи не только изобрели ее, но и создали набор данных, а также базовую модель для проверки ваших результатов, что действительно здорово. Эта задача имеет большой потенциал, поскольку понимание того, что происходит на изображении, невероятно полезно и сложно для машин, хотя люди делают это автоматически. Он привносит в машины некий необходимый интеллект, делая разницу между классным забавным приложением, таким как Snapchat, и продуктом, который вы бы использовали, чтобы сэкономить время или удовлетворить потребность, например, понять, когда ваша кошка хочет играть, и использовать робота для этого. играйте с ним автоматически, чтобы он не скучал все время.

Понимание сцены — это действительно круто, но как машина может это сделать?

Ну, вам нужны две вещи: набор данных и мощная модель. Мы знаем, что у нас есть набор данных, поскольку они создали его для нас. Теперь второе: как учиться на этом наборе данных? Или, другими словами, как построить эту модель ИИ и что она должна делать? Есть несколько способов решить эту проблему, и я приглашаю вас прочитать их статью, чтобы узнать больше. Вот один из способов сделать это.

Но сначала дайте мне несколько секунд, чтобы стать моим собственным спонсором и рассказать о нашем сообществе! Поскольку вы читаете эту статью, я знаю, что она вам понравится, поскольку она была создана для вас.

Конечно, у нас есть Ютуб-сообщество, к которому вам обязательно стоит присоединиться. Например, я хотел бы знать, интересна ли эта задача для сообщества ИИ или нет.

Я также хотел поделиться нашим сообществом Discord Изучаем ИИ вместе.

Это место, где можно пообщаться с другими энтузиастами ИИ любого уровня квалификации, найти людей, с которыми можно учиться, найти людей, с которыми можно работать, задать свои вопросы или даже найти интересные предложения о работе. Мы организуем множество очень крутых мероприятий и вопросов и ответов, например, то, что мы сейчас проводим с организаторами MineRL из Deepmind и OpenAI. Ссылка находится в описании ниже, и я бы хотел, чтобы вы присоединились к нам и обменялись там!

Что такое генерация панорамного графа сцены?

Как мы уже говорили, модели необходимо найти класс каждого пикселя изображения, а это значит, что она должна идентифицировать каждый пиксель изображения. За это будет отвечать первый этап (изображение выше) модели. Это будет модель под названием Panoptic FPN, уже обученная классифицировать каждый пиксель. Такая модель уже доступна онлайн и довольно мощная. Он возьмет изображение и вернет то, что мы называем маской, где каждый пиксель соответствует существующему объекту, такому как мяч, человек или трава в этом случае. Теперь у вас есть сегментация, и вы знаете, что и где находится на изображении. Если вы не знакомы с тем, как работает такая модель, я приглашаю вас прочитать одну из моих статей, посвященных подобным подходам, таким как этот. Следующий шаг — выяснить, что происходит с этими объектами.

Здесь вы уже знаете, что это человек, играющий в футбол на поле, но машина на самом деле понятия не имеет. Единственное, что он знает, это то, что есть человек, мяч и поле с большой уверенностью, но он ничего не понимает и не может соединить точки так, как это легко делаем мы. Нам нужна вторая модель (изображение выше, справа), обученная просто брать эти объекты и выяснять, почему они находятся на одном изображении. Это этап создания графа сцены, на котором модель научится сопоставлять словарь слов и понятий, охватывающий несколько возможных отношений объектов с объектами в сцене, используя информацию, извлеченную на первом этапе, и узнает, как структурировать объекты друг с другом. .

И вуаля!

В итоге вы получите четкий график, который можно использовать для построения предложений и абзацев, описывающих происходящее на изображении. Теперь вы можете использовать этот подход в своем следующем приложении и добавить несколько баллов IQ своему подходу, приближая его к чему-то разумному!

Если вы хотите узнать больше об этой новой задаче, я настоятельно рекомендую вам прочитать документ, ссылка на который приведена ниже.

Спасибо, что дочитали до конца, увидимся на следующей неделе с еще одной замечательной статьей, и поздравляю авторов с принятием на ECCV 2022, на котором я тоже буду присутствовать!

Рекомендации

►Ян, Дж., Анг, Ю.З., Го, З., Чжоу, К., Чжан, В. и Лю, З., 2022. Генерация паноптического графика сцены. препринт arXiv arXiv:2207.11247.
►Код: https://github.com/Jingkang50/OpenPSG
►Страница проекта (набор данных PSG): https:// psgdataset.org/
►Попробуйте: https://replicate.com/cjwbw/openpsg, https://huggingface.co/spaces/ECCV2022/PSG