Наверное, нет — только середина вашего взгляда имеет необходимое «разрешение». Но почему? У ИИ может быть ответ…
Одной из основных областей, в которой используется ИИ, является обработка изображений. Будь то обнаружение автомобилей автопилотом Теслы или распознавание раковых клеток — ИИ хорош в анализе изображений:
Такие программы искусственного интеллекта обычно представляются в некотором роде напоминающими человеческое зрение — поэтому их называют нейронными сетями, хотя и искусственными. Но так ли они все похожи?
Человеческое зрение и компьютерное зрение — разница
Возьмем, к примеру, задачу классификации визуальной информации — то есть определить, какой объект находится на изображении. Видит ли программа ИИ на изображении то же, что и вы видите в реальной жизни?
Можно сказать, что у нас есть ощущение глубины в том, что мы видим, чего не дает изображение, но разница еще более фундаментальна. Человеческий глаз имеет так называемое «переменное» разрешение. Вы сейчас читаете эту статью, но сможете ли вы это сделать, если будете перемещать экран периферийным зрением, не поворачивая глаз в этом направлении?
Эй, не старайся слишком сильно; Вы можете вернуться сейчас.
В любом случае, если вы действительно переместили свой экран на периферию и не используете шрифт 70pt+, вы, вероятно, не преуспели в чтении.
Почему это?
Только центр нашего зрения имеет ямки (ячейки) с высоким разрешением, что имеет смысл с эволюционной точки зрения; зрение дорого. Более 50% нашего мозга уже занято обработкой того, что мы видим. Если бы мы везде видели высокое разрешение, нам, вероятно, понадобилась бы голова инопланетянина для размещения нашего мозга… Теперь рассмотрим, что программа ИИ «видит» на изображении. Вот сравнение двух:
Заметили разницу? Вы, возможно, не задумывались об этом раньше, но разрешение вашего глаза постепенно уменьшается по мере удаления от фокуса — отсюда и термин «переменное» разрешение — но то, что захватывает изображение, не уменьшается (за исключением странных макропортретов). Эта стратегия «переменного» разрешения значительно уменьшает количество информации, которую наш мозг должен обработать.
«ИИ достигает сверхчеловеческой точности при классификации изображений»
Некоторые снобы ИИ делают вывод
Да, правильно — только то, что программы ИИ «видят» на изображении гораздо больше информации, чем ваши глаза в том же поле зрения.
Если наш мозг получает входные данные с «переменным» разрешением, чтобы распознавать то, что мы видим, а программа ИИ получает входные данные с полным разрешением, справедливо ли сравнивать их? Возможно нет.
+1 балл для людей?
Не так быстро.
Вопрос
Размышление об этом породило исследование, которое я провел под руководством Prof. Шимон Ульман и Dr. Даниэль Харари в Центре искусственного интеллекта Вейцмана: Что произойдет, если мы дадим программам искусственного интеллекта тот же беспорядок с переменным разрешением, который мы видим? Будут ли они по-прежнему хорошо? Можем ли мы создать программу ИИ, специально настроенную для ввода с таким переменным разрешением?
Результат
Короче говоря, исключая технические детали, вы никогда не сможете лучше анализировать изображение, если вам для начала предоставлено меньше информации.
По сути, это означает, что программа ИИ с изображением «переменного» разрешения практически всегда будет работать хуже, чем программа с изображением с полным разрешением — просто из-за недостатка информации.
Это имеет смысл, если подумать. Представьте, что вы видели только небольшой круг, составляющий 5% вашего нормального зрения:
Круг явно уменьшает количество информации, которую вы воспринимаете. Естественно, было бы сложнее сказать, что вы видите, верно?
То же самое относится и к программам искусственного интеллекта — чем меньше информации им предоставляется, тем больше вероятность того, что они сделают ошибку.
Однако одна из интересных парадигм нашего мозга заключается в том, что он научился очень эффективно распределять эту небольшую информацию — изображая всю сцену с переменным разрешением, а не просто маленький круг, но это тема для другого раза!
Теперь самое интересное: насколько хуже будет работать ИИ, учитывая 5% информации на изображении? 2 раза? 3 раза?
Результат вас удивит.
Рассмотрим эти 2 изображения лампы:
Одно изображение содержит в 20 раз меньше информации, чем другое. Представьте, что у нас есть миллион таких пар изображений, показывающих повседневные предметы/сущности (набор данных ImageNet), и мы делаем 2 программы ИИ (ResNet-s) — одну для классификации изображений с полным разрешением (слева) и одну «переменную». разрешения (справа).
Как уже говорилось, мы ожидаем, что ИИ с «переменным» разрешением (справа) будет работать хуже. Однако можете ли вы догадаться, насколько хуже — учитывая, что в 20 раз меньше информации, которую он предоставляет?
Остановитесь здесь, если хотите подумать об этом.
ИИ с изображениями в полном разрешении (слева) правильно классифицировал их в 75% случаев. ИИ с учетом изображений с «переменным» разрешением (справа), которые содержат в 20 раз меньше информации, правильно классифицировал их в 66 % случаев.
Разница всего в 9% при гораздо меньшем количестве информации! Вы бы догадались? Давайте посмотрим, почему это важно.
Выводы
Мы только что продемонстрировали, что программа ИИ, настроенная на изображения с «переменным» разрешением, которые содержат только 5% исходной информации, может работать только на 9% хуже, чем ее аналог с высоким разрешением. По сути, дополнительные 95% информации, к которым имеет доступ ИИ с полным разрешением, по-видимому, дают очень мало — действительно, только 9% (66% против 75%).
Начинаете понимать, почему мы эволюционировали, чтобы видеть в «переменном» разрешении? Даже если бы мы везде видели высокое разрешение, это, вероятно, не сильно повлияло бы на то, насколько хорошо мы понимаем мир! Однако это имело бы огромное значение для размера нашей головы и потребностей в энергии; больше информации для обработки требует больше мозга. Эволюция придумала все это сама!
Лично я нахожу захватывающим возможность воссоздать этот результат с помощью искусственных нейронных сетей. Надеюсь, вы тоже!
Ничего из этого не было бы возможно без бесценного руководства Доктора. Даниэль Харари — мой руководитель в Лаборатории!
Знаете ли вы, что вы видели в «переменном» разрешении, прежде чем читать эту статью?
StAI умный!