Модель глубокого обучения, сочетающая NLP с Computer Vision.
Что такое КЛИП?
Самоконтролируемое обучение компьютерному зрению показало большой потенциал в изучении различных представлений об изображениях.
Это один из подходов, при котором нейронная сеть может изучать представления, которые впоследствии можно использовать для различных задач, таких как классификация изображений и обнаружение объектов.
Другой подход к изучению представлений из набора данных называется CLIP, разработанный OpenAI.
Этот подход использует пары (изображение, текст) для изучения кодировщика изображения И кодировщика текста. Это означает, что он сочетает в себе НЛП с компьютерным зрением.
Я думаю, это очень круто!
После того, как эти кодировщики будут изучены, их можно будет использовать позже в условиях нулевого выстрела для выполнения различных задач компьютерного зрения.
Общий обзор того, как работает CLIP
На изображении ниже (слева) мы видим, как два энкодера изучаются с помощью пар (изображение, текст). Один кодировщик текста, а другой кодировщик изображений. Как будто мы пытаемся сопоставить язык с видением и наоборот.
Затем эти два кодировщика можно использовать в однократной настройке, чтобы предсказать, например, что содержит изображение, как показано на том же изображении ниже справа.
Почему CLIP впечатляет?
ResNet-50 был обучен на 1,28 миллионах обучающих примеров из ImageNet. Он достиг высокой точности топ-1 благодаря чистому наблюдению.
CLIP достигает сравнимой точности, не используя НИ ОДНОГО из этих 1,28 миллиона изображений!
CLIP также достигает точности, сопоставимой с InceptionV4, в пятерке лучших. Последний обучался в условиях чистого надзора.
Это невероятно, если подумать!
Я протестировал модель глубокого обучения CLIP
Используя код с открытым исходным кодом, предоставленный OpenAI, я предоставил CLIP изображение ниже, которое я получил с веб-сайта стоковых изображений Unsplash.
На изображении изображен робот по имени Валл-И, появившийся в одноименном фильме.
Я протестировал CLIP, предоставив ему словарь предложений, содержащих предложение «робот».
Метки проб: [[5.436e-04 3.622e-04 4.041e-04 9.985e-01]]
КЛИП все правильно сделал! Это дало этому ярлыку самую высокую вероятность.
Тогда я дал ему слово «валл-и» в дополнение к «робот».
Метки проб: [[1.329e-05 8.881e-06 9.756e-01 2.443e-02]]
Вот и у меня тоже все получилось!
На самом деле я сохранил оба предложения: «робот» и «валл-и», и это придало наибольшую вероятность последнему ярлыку!
Помните, CLIP НЕ был обучен распознавать робота или валл-и в режиме простого наблюдения. Но он все еще был способен распознавать их в режиме ONE-SHOT. Это невероятно!
Не только это! Давая модели обе метки «вал-и» и «робот», я пытался понять, сколько на самом деле CLIP знает об изображении. Я подумал, что этикетка «wall-e» слишком конкретна, но, видимо, модель настолько мощная!
Если вы хотите, чтобы я проверил его на других конкретных случаях, пожалуйста, дайте мне знать!
Заключение
В этой статье мы рассмотрели, как сочетание NLP с Computer Vision может привести к невероятным результатам. CLIP — это модель глубокого обучения, которая продемонстрировала именно это. Мы увидели, как CLIP можно использовать в одноразовых условиях и при этом делать верные прогнозы. Это будущее глубокого обучения?
Рекомендации
[1] Алек Рэдфорд и др. «Изучение переносимых визуальных моделей с помощью наблюдения за естественным языком»
Я инженер по машинному обучению, работающий над решением сложных задач компьютерного зрения. Я хочу помочь вам изучить машинное обучение, применяемое к проблемам компьютерного зрения. Вот как.
- Помогая вам оставаться в курсе того, что происходит в этой области. Я делаю это, публикуя небольшие посты по машинному обучению в LinkedIn и Twitterпочти ежедневно. Так следуй за мной туда!
- Предоставляя вам еженедельный дайджест этих небольших сообщений в моем информационном бюллетене. Так подпишитесь на него!
- Написав здесь на Medium статьи о различных темах машинного обучения. Так следуй за мной сюда!
- Предоставляя вам бесплатный контрольный список для подготовки к работе по машинному обучению, который поможет вам проверить все моменты, которые вам необходимо изучить, если вы планируете карьеру в области машинного обучения, особенно в области компьютерного зрения. Получить чек-лист можно здесь.
5. И последнее, но не менее важное: я поделился с вами моим БЕСПЛАТНЫМ вводным курсом по Tensorflow, который содержит более 4 часа видеоконтента, и Вы можете задать мне любой вопрос, который у вас есть.
Кроме того, не стесняйтесь обращаться ко мне в LinkedIn или Twitter, если у вас есть какие-либо вопросы или вы просто хотите поговорить о ML!