Это руководство по датчикам глубины - первое из многих от Comet Labs, посвященных глубоким технологическим инновациям в области искусственного интеллекта и робототехники.
Создано Роландом Ли
Возможно, вы видели несколько историй о грядущем iPhone 8. Ожидается, что iPhone 8 будет включать в себя гораздо лучшие возможности AR (поддерживаемые выпуском AR Kit), а также лазерный датчик с двойной камерой.
Но почему вам должна быть интересна эта новая комбинация камеры и лазера? Потому что они являются важными компонентами для измерения глубины, которые полностью изменят то, как люди будут взаимодействовать с технологиями в ближайшем будущем.
По сути, обычная камера переводит трехмерный мир в двухмерное изображение. До сих пор 2D-изображения считались достаточно хорошими для потребителей, и потерянное третье измерение в 2D-изображениях казалось неважным.
Но все изменилось. Стремительно совершенствуя компьютерное зрение (CV) в сочетании с глубоким обучением, многие амбициозные исследователи пытались заставить машины понимать наш мир через камеру, чтобы они могли расширить возможности человека для решения многих задач. Теперь CV может успешно выполнять такие функции, как распознавание почерка, классификация объектов, и является важным компонентом для создания автономных транспортных средств. Во многих из тех задач, где двумерной информации достаточно, алгоритмы CV показали себя многообещающими. Однако, когда они имеют дело с реальным трехмерным миром, исследователи обнаруживают, что для резюме есть узкое место. У людей два глаза, которые позволяют нам естественным образом ощущать глубину. Однако большинство приложений CV зависят от одной камеры для захвата и интерпретации окружающего мира. Утраченное третье измерение значительно ограничивает производительность CV.
На рисунке выше алгоритму CV будет сложно ответить на эти вопросы, но люди могут сделать это легко. Поскольку сценарий реального мира был спроецирован из 3D в 2D, эти два вопроса внезапно стали нетривиальными.
Глубина несет важную информацию. Например, если красный и черный шары были вместо транспортных средств на дороге, мы хотим, чтобы алгоритм CV понимал, что ближе, чтобы получить точное представление о ситуации. К сожалению, мы не можем полагаться на 2D-алгоритмы CV. Нам понадобится зондирование глубины наряду с 2D-изображениями, чтобы захватить полную информацию о нашем реальном мире.
Следующее руководство поможет вам понять, как работает определение глубины в настоящее время и где оно используется.
Перейти:
4) Сбой системы
Быстрый обзор: приложения измерения глубины и искусственного интеллекта
1. AR / VR: для восприятия реальных трехмерных сред и их реконструкции в виртуальном мире.
Например, Project Tango от Google использует датчики глубины, чтобы точно измерить реальную среду и сообщить своим графическим алгоритмам, чтобы виртуальный контент размещался в нужных местах. Сравните это с режимом AR в Pokemon Go, где пользователи часто могут видеть покемонов, помещенных в неточные позиции, поскольку алгоритм не имеет информации о глубине окружающей среды.
Информация о глубине также необходима для человеко-машинного взаимодействия устройств VR / AR. Устройства должны точно реагировать на трехмерное движение пользователей, которым определенно нужны высокопроизводительные датчики глубины.
2. Робототехника: для навигации, определения местоположения, картографии и предотвращения столкновений.
Многие склады уже используют полностью автономные транспортные средства, которые перевозят предметы из одного места в другое. Способность транспортного средства двигаться самостоятельно требует определения глубины, чтобы он мог знать, где он находится в окружающей среде, где находятся другие важные вещи, и, что наиболее важно, как он может безопасно добраться из пункта А в пункт Б. Точно так же любой робот, используемый для Выбор целей зависит от определения глубины, чтобы знать, где находится целевой объект и как его получить.
Эти же приложения необходимы для успеха любого автономного транспортного средства. Фактически, одна из самых серьезных проблем для автономных транспортных средств на данный момент - это оснащение автомобиля точным датчиком глубины и системой CV без слишком резкого увеличения стоимости. Это все еще конкурентный рынок, на котором многие новые стартапы борются за лидерство.
3. Распознавание лиц: для повышения удобства и предотвращения мошенничества.
Большинство систем распознавания лиц используют 2D-камеру, чтобы сделать снимок и отправить его алгоритму для определения личности человека. Однако в этом есть существенная лазейка: плохой актер может обмануть систему, поскольку не может определить, видит ли он настоящее 3D-лицо или 2D-фотографию. Чтобы сделать распознавание лиц безопасным, необходимы 3D-камеры с функцией определения глубины.
Помимо блокировки этой лазейки, 3D-моделирование лица также передает больше черт лица для более точного распознавания. По слухам, грядущий iPhone 8 будет иметь датчик глубины для распознавания лиц, и ожидается, что все больше компаний последуют за Apple в использовании определения глубины в своих устройствах.
4. Обнаружение жестов и приближения: для игр, безопасности и многого другого.
Датчики глубины Time-of-Flight (ToF) уже используются многими устройствами для этих целей. В простых реализациях датчику глубины требуется только обнаруживать информацию о глубине одной точки, например руки для обнаружения жеста или лица для обнаружения приближения. Таким образом, достаточно системы измерения глубины с простой оптикой (и узким полем обзора). С развитием распознавания жестов стали использоваться более сложные системы определения глубины, такие как Microsoft Kinect.
Применение зондирования глубины в компьютерном зрении
Семантическая сегментация означает разделение изображения на несколько значимых частей. Точно так же, как когда вы смотрите через окно, вы разделяете всю картину на небо, машины, здания и все остальное, что находится в вашем поле зрения.
Это также ключ для анализа изображений: из-за плохой сегментации производительность последующих задач также ухудшается. Для человека естественно сегментировать без особой подготовки, поскольку у нас два глаза и мы можем использовать преимущества трехмерного изображения. Обычный CV имеет только одну камеру RGB, поэтому сегментация в основном основана на статистическом моделировании. В настоящее время глубокое обучение едва ли можно сегментировать, запоминая типичные ключевые подсказки, такие как изменение цвета, края, текстуры и т. Д.
Однако этот подход к сегментации, основанный на обучении, не в полной мере использует информацию из трехмерного мира, поэтому он не так точен. Кроме того, его вычислительная эффективность крайне низка. Анализ изображений на основе глубокого обучения обычно требует огромных затрат энергии, что затрудняет масштабирование этого метода. Например, выделенный мобильный графический процессор от Nvidia (TX1) может работать только со скоростью менее 10 кадров в секунду при энергопотреблении 10 Вт. Titan X от Nvidia - это современный графический процессор для серверной части, который может работать намного быстрее со скоростью около 40–50 кадров в секунду, но требует мощности 250 Вт, что делает его непригодным для мобильных приложений. Кроме того, эти графические процессоры очень дороги - от 300 до 1000 долларов.
Если мы предоставим компьютеру трехмерную информацию о нашем мире, CV сможет намного лучше выполнять семантическую сегментацию с меньшим энергопотреблением. Нам не нужна сложная нейронная сеть, поскольку базовый алгоритм увеличения площади или даже алгоритм кластеризации могут сделать достойную работу. С этими недорогими алгоритмами вычислительная нагрузка по существу незначительна (с точки зрения количества операций и пропускной способности памяти) по сравнению с CNN (или другими традиционными алгоритмами CV на основе 2D), а энергоэффективная мобильная SoC может завершить работу в реальном времени. .
Современные 3D-камеры, такие как камера в Kinect2, потребляют менее 5 Вт и могут работать с приличной скоростью около 30 кадров в секунду. В сочетании с потребляемой мощностью мобильной SoC (~ 2 Вт) это сопоставимо с производительностью TitanX, но с 30-кратной экономией энергии. Стоимость 3D-сенсора также намного ниже, чем у GPU (‹10 долларов при большом объеме). Таким образом, определение глубины может стать ключевым фактором для будущих приложений интеллектуального мобильного изображения и робототехники, где энергетический бюджет сильно ограничен.
Благодаря улучшенной сегментации обнаружение объектов с помощью 3D-камеры дает лучшие результаты. Как сообщают исследователи из Калифорнийского университета в Беркли в документе, озаглавленном «Изучение разнообразных функций из изображений RGB-D для обнаружения и сегментации объектов», наблюдалось значительное улучшение: с современной 2D R-CNN средняя средняя точность составила 22,5% по сравнению с глубокой нейронной сетью RGB-D со средней средней точностью 37,5%. Глубокое обучение с помощью RGB-D привлекло многих исследователей, и несколько учреждений (например, Вашингтонский университет и Нью-Йоркский университет) даже опубликовали средние наборы данных для RGB-D, которые являются аналогом ImageNet в мире RGB. Мы ожидаем увидеть больше работ, сочетающих RGB-D с глубоким обучением в ближайшем будущем.
В настоящее время основным узким местом для алгоритмов CV на основе 3D-зондирования по-прежнему является набор данных. Хотя увеличение данных и другие методы могут помочь обучить приличную нейронную сеть для 3D-информации без огромных объемов данных, в конечном итоге нам понадобится большой набор данных (как ImageNet и Microsoft COCO в 2D-мире) для обучения и тестирования полностью оптимизированной нейронной сети.
Обзор методов измерения глубины
Структурный свет:
Используя источник лазерного света для проецирования известного рисунка, приемник обнаруживает искажение отраженного рисунка для вычисления карты глубины на основе геометрии. Он должен сканировать всю плоскость, чтобы получить карту глубины, на что нужно время, но она очень точная. Однако этот метод чувствителен к яркости окружающей среды, поэтому обычно применяется только в темных или закрытых помещениях.
Время полета (ToF):
Есть два основных подхода. Первый прост: лазерный источник посылает импульс, а датчик обнаруживает отражение этого импульса от целевого объекта, чтобы записать время его полета. Зная это и постоянную скорость света, система может вычислить, как далеко находится целевой объект. Для обеспечения высокой точности период импульсов должен быть коротким, что приводит к более высокой стоимости. Кроме того, требуется преобразователь времени в цифровой с высоким разрешением, который может потреблять много энергии. Этот подход обычно можно найти в высокопроизводительных датчиках ToF.
Другой способ рассчитать время - посылать модулированный источник света и обнаруживать изменение фазы отраженного света. Фазовое изменение можно легко измерить методом смешивания. Модулировать лазерный источник проще, чем посылать короткие импульсы, а метод смешивания проще реализовать, чем преобразователь времени в цифровой. Кроме того, светодиод можно использовать в качестве источника модулированного света для замены лазера. Поэтому система ToF на основе модуляции хороша для недорогих датчиков ToF.
Массив камеры:
Подход с использованием массива камер использует несколько камер, размещенных в разных положениях, для захвата нескольких изображений одной и той же цели, а карта глубины рассчитывается на основе геометрии. В компьютерном зрении это также называется «стереоскопическим» или «стереоскопическим». Самый простой, но самый популярный массив камер - это двойная камера, где две камеры разделены расстоянием, чтобы имитировать человеческий глаз. Для каждой точки в пространстве он появляется с измеримым несоответствием положений на изображениях с двух камер. Затем глубина рассчитывается по базовой геометрии.
Основная проблема массива камер - как найти совпадающие точки на нескольких изображениях. Поиск точки совпадения включает сложный алгоритм CV. В настоящее время глубокое обучение может помочь найти точки совпадения с хорошей точностью, но его вычислительные затраты высоки. Кроме того, есть много точек, по которым сложно найти точки совпадения. Например, на двух изображениях статуи Вагнера, приведенных выше, легче всего сопоставить нос, так как его черты легко выделить и сравнить; однако для других частей лица (особенно поверхности лица без текстуры) было бы очень сложно найти точки совпадения. Когда окклюзия различна для изображений с двух камер, сопоставление становится еще более сложным. На данный момент надежность массива камер как датчика глубины все еще остается сложной проблемой.
Сравнение методов
Общая производительность
Для определения глубины наиболее важным показателем является точность определения глубины. Структурный свет имеет лучшую точность по глубине, в то время как массив камер, как правило, имеет самую большую ошибку глубины.
С точки зрения диапазона восприятия глубины, структурный свет имеет самый короткий диапазон, в то время как диапазон ToF зависит от излучаемой мощности источника света. Например, интеллектуальным устройствам может потребоваться дальность действия всего несколько метров, а для автономных автомобилей - несколько сотен метров. Точно так же диапазон измерения массива камер зависит от расстояния между двумя камерами. Для обычного массива камер наилучший диапазон измерения производительности обычно составляет около 10 м, хотя также было показано, что некоторые специальные массивы камер с чрезвычайно узким пространством измеряют глубину на уровне около 1 м.
Для разрешения карты глубины структурный свет работает лучше, чем ToF, поскольку структурный светоизлучающий рисунок можно точно контролировать и точно захватывать его отраженный рисунок. Теоретически матрица камер имеет хорошее разрешение, однако это основано на идеальном совпадении точек на двух изображениях. При неидеальном сопоставлении точек (например, гладких поверхностях) разрешение ухудшается.
Наконец, нам нужно учитывать ограничения на яркость окружающей среды. Структурный свет требует темной среды, в то время как датчики ToF могут выдерживать более широкий диапазон яркости окружающей среды благодаря быстро развивающимся технологиям подавления фона. Для массива камер лучше всего подходит яркое окружение. В темной комнате изображения, захваченные массивом камер, становятся зашумленными, а контраст становится плохим, поэтому сопоставление точек становится чрезвычайно трудным, что приводит к неточным оценкам глубины.
Расходы
Стоимость массива камер, как правило, самая низкая, и усилия по его разработке в основном связаны с программным обеспечением. Решение с двумя камерами уже широко используется во многих смарт-устройствах и мобильных телефонах. Датчик ToF имеет умеренную стоимость, в то время как структурный свет - самый высокий. Однако с массовым производством ToF ожидается, что в ближайшем будущем его стоимость значительно снизится.
Масштабируемость
Рассмотрение потенциала этих технологий даст нам ценную информацию, на которую мы можем лучше всего положиться для наших будущих потребностей. ToF - это полупроводниковая технология, обладающая наилучшей масштабируемостью. Его точность по глубине можно масштабировать с помощью встроенного в микросхему преобразователя времени в цифровой / схемы микширования, разрешение карты глубины можно масштабировать в соответствии с размером сенсора, диапазон измерений можно масштабировать с помощью схемы питания / модуляции источника света, а его энергопотребление может быть увеличено. масштабироваться с помощью полупроводниковой технологии.
С другой стороны, структурный свет имеет приличную масштабируемость. Оптическая система является ключевым компонентом структурного света, и оптическая система может масштабироваться с помощью технологии упаковки (хотя и не так быстро, как полупроводники).
Наконец, масштабирование массива камер в основном зависит от программного обеспечения: нам потребуются более совершенные алгоритмы для масштабирования его характеристик измерения глубины. Это больше похоже на математическую задачу, чем на инженерную, и улучшение оборудования не поможет. Проблема совпадения точек все еще существует даже с камерами с гораздо более высоким разрешением.
Для биометрических задач рекомендуется только структурный свет, так как он обеспечивает лучшую точность глубины. Для игровых приложений требуется среднее разрешение по глубине и быстрый отклик, поэтому датчик ToF, кажется, лучше всего подходит. Для других приложений, включая определение местоположения, идентификацию, измерения и AR, все технологии могут это сделать, но некоторые лучше подходят для конкретных сценариев приложений, чем другие. Например, матрица камер, вероятно, лучше всего подходит для приложений AR на открытом пространстве, где измерение глубины требует большого диапазона измерений, а датчик ToF лучше всего подходит для AR внутри помещений, где можно контролировать яркость окружающей среды.
Разборка системы
Структурный свет:
Типичная структурная система освещения включает проектор и камеру. Проектор направляет свет на объект, а камера улавливает отраженный свет.
Проектор состоит из двух частей: лазерного источника и генератора рисунков. В лазерном источнике обычно используется VCSEL или краевой лазерный диод, реализованный с использованием полупроводниковой технологии, для генерации инфракрасного лазера. Измерение глубины - это огромные возможности для лазерной промышленности, и в результате многие производители лазерных компонентов вложили значительные средства в приложения для измерения глубины. К этим компаниям относятся полупроводниковый гигант STMicroelectornics, лазерный эксперт II-VI и восходящая звезда Lumentum (также производитель лазерного источника в Microsoft Kinect).
Генератор паттернов также очень важен. Паттерны делятся на две категории: пространственные и временные. Первый использует один изменяющийся шаблон и алгоритмы для корреляции участка пикселей наблюдаемого изображения с эталонным шаблоном для вычисления глубины. Последний использует изменяющийся во времени шаблон для кодирования уникальной временной сигнатуры, которая может быть декодирована в каждом наблюдаемом пикселе. Пространственный подход требует большего количества вычислений для сопоставления захваченного образца и эталонного образца, тогда как временный подход требует меньше вычислений для сопоставления. С другой стороны, оптическая система для генератора пространственных шаблонов относительно проста и недорога, а дешевый дифракционный оптический элемент (DoE) может удовлетворить все требования. Однако для генератора временных шаблонов требуется сложная оптическая система, такая как зеркальные проекторы на основе MEMS и быстрые датчики. Он также страдает от движения, что ограничивает диапазон его измерения. Для генераторов шаблонов у многих компаний есть такие решения, как HiMax (предоставляет DoE, также, по слухам, поставщик DoE для датчика глубины в iPhone8), STMicroelectronics (предоставляет проектор с микрозеркалом MEMS, который используется в Intel RealSense) и Texas Instruments (предоставляет запатентованный DLP). система микрозеркал).
Камеры для структурного освещения состоят из линзы и сенсора. Камера структурной световой системы похожа на обычную камеру RGB, за исключением того, что она воспринимает инфракрасный свет. Расчет глубины основан на захваченном искаженном изображении. Несколько компаний, производящих полупроводники, такие как STMicroelectronics и Texas Instruments, предоставляют решения для структурных световых камер.
Захваченное искаженное изображение должно пройти через программное обеспечение для оценки извлекаемой информации о глубине. Сложность программного обеспечения в значительной степени зависит от того, используется ли в проекторе пространственный образец освещения (требуется сложное программное обеспечение) или временной образец освещения (требуется простое программное обеспечение). Крупные компании, такие как Microsoft и Intel, которые создают собственное оборудование для измерения глубины путем интеграции микросхем от других поставщиков, обычно имеют собственный программный стек и даже специальные алгоритмы (например, HyperDepth от Microsoft). Небольшие компании могут либо написать собственное программное обеспечение, либо использовать программное обеспечение, предоставляемое полупроводниковыми компаниями с комплектом средств разработки.
Время полета
Типичный датчик ToF включает в себя источник света, оптическую систему, датчик камеры и процессор сигналов. Источниками света могут быть лазер (для высокопроизводительных приложений) или светодиод (для недорогих приложений). Оптическая система относительно проста и похожа на обычные камеры RGB, которые определяют поле обзора системы.
Самая интересная часть ToF - это сенсор камеры. Его датчик камеры требует уникальной обработки сигнала в аналоговой области и сильно отличается от датчиков камеры RGB. Обработка аналогового сигнала обычно встроена в тот же чип, что и пиксели датчика, чтобы гарантировать целостность сигнала. Для ToF с импульсным источником света требуется точный время-цифровой преобразователь (TDC) для записи времени прохождения света. Для ToF с модуляцией требуется фотонный смеситель для извлечения разности фаз между исходящим и отраженным светом для расчета глубины. Кроме того, в некоторых продуктах реализовано подавление фона для повышения производительности в условиях яркого освещения.
Строительные блоки аналоговой обработки сигналов относительно новы для сенсорных микросхем. Рынок датчиков ToF был горячим в течение нескольких лет с тех пор, как ToF использовался для датчиков приближения во многих смартфонах высокого класса. Для мобильных приложений многие компании предоставляют недорогие датчики ToF на основе модуляции. Например, STMicroelectronics предоставляет датчик ToF с узким полем обзора, а Texas Instruments производит датчики ToF для трехмерного машинного зрения с большим полем обзора. Другие компании, в том числе Intersil и Melexis, также являются поставщиками датчиков ToF. Некоторые интернет-гиганты также создают (или планируют построить) свои собственные сенсорные чипы ToF для своих аппаратных проектов. Например, Microsoft приобрела Canesta в 2010 году и создала собственный сенсорный чип ToF, используемый в Kinect2 для Xbox One.
Программное обеспечение для ToF относительно простое. Некоторые производители чипов даже обеспечивают прямое считывание информации о глубине с чипа.
Массив камеры
В настоящее время двойные камеры используются во многих интеллектуальных устройствах для обеспечения многих функций, в частности определения глубины.
Основным параметром для системы с двумя камерами является расстояние между двумя камерами. Две камеры в обычном массиве с двумя камерами, разделенные несколькими сантиметрами, могут выполнять измерения только на расстоянии ›3 м. Чтобы измерить глубину резкости в ближней зоне (как в смартфонах), две камеры необходимо разместить намного ближе друг к другу. Однако это приносит в жертву точность на большем расстоянии.
Panasonic предложила однопиксельную структуру сенсора, в которой пиксели для двух камер размещаются рядом друг с другом на чипе, и поэтому можно измерить глубину ближнего поля (~ 0,2 м). Однако для этого метода также требуется настраиваемая оптическая система для точного совмещения двух световых лучей с пикселями.
Микросхема двойной камеры ближнего поля от Panasonic.
Другой распространенный метод со стороны оборудования - использование разных, но дополняющих друг друга камер в массиве камер. Например, одна камера RGB и одна черно-белая камера используются во многих системах с двумя камерами. Такой подход снижает стоимость при одновременном улучшении разрешения (поскольку разрешение черно-белой камеры может быть больше, чем у камеры RGB), что затем улучшает общую производительность определения глубины. В целом, поставщики аппаратных решений для двойных камер такие же, как и производители RGB-камер, такие как OmniVision (сенсорный чип), Sony (сенсорный чип), Sunny Optical (объектив) и многие другие.
Однако самой важной частью массива камер по-прежнему остается программное обеспечение. Как обсуждалось ранее, надежный алгоритм сопоставления точек в захваченных изображениях является ключевым для определения глубины для массивов камер, что требует большой вычислительной мощности. Крупные компании на рынке смартфонов, такие как Apple и Samsung, имеют собственные команды разработчиков программного обеспечения для создания собственных алгоритмов. Помимо этих крупных компаний, есть также несколько компаний-разработчиков программного обеспечения, которые предоставляют программные IP-адреса для алгоритмов определения глубины массива камер. К ним относятся ArcSoft, хорошо зарекомендовавшая себя IP-компания по разработке программного обеспечения для мобильных телефонов, которая продает программное обеспечение таким гигантам мобильной связи, как Vivo и Oppo, и Corephotonics, которые недавно заключили партнерское соглашение с Omnivision, чтобы предоставить комплексное решение для двойной камеры. Согласно их веб-сайту, Project Tango от Google, похоже, также предоставляет программный API для поддержки восприятия глубины с помощью своей системы с двумя камерами.
Возможности для стартапов
В ближайшие несколько лет зондирование глубины станет огромным рынком. В настоящее время многие технологии глубинного зондирования все еще нуждаются в большом количестве улучшений, что может открыть новые возможности для технологических стартапов. Кроме того, стартапы могут попытаться использовать текущую технологию измерения глубины для новых появляющихся приложений.
Все технологии измерения глубины в сочетании с приложениями CV:
Системы измерения глубины можно комбинировать с существующими приложениями компьютерного зрения, чтобы значительно повысить их производительность и удовлетворить требования для реального развертывания. Это также помогает смягчить эффекты угловых (крайних) случаев - многие угловые случаи в 2D могут на самом деле быть нормальными случаями в мире 3D! В результате определение глубины может позволить алгоритмам CV делать более важные вещи в нашей жизни, некоторые из которых могут даже быть разрушительными инновациями, которые создают дополнительные рынки, например, распознавание лиц.
Датчик ToF - используйте импульсный лазер по разумной цене:
В настоящее время датчики ToF для мобильных устройств обычно используют недорогие источники света на основе модуляции. Как обсуждалось ранее, источник света на основе модуляции имеет неоднозначную дальность действия, и его характеристики обычно хуже, чем у импульсного лазера. Импульсные лазеры успешно используются в LiDAR, но их стоимость, потребляемая мощность и размер все еще не подходят для мобильных устройств. Однако в последнее время лазерные источники в LiDAR развиваются довольно быстро. Стартапы могли бы использовать импульсный лазер в мобильных датчиках ToF для динамических систем с высокой производительностью, таких как AR и VR, для бизнес-ориентированных сегментов рынка электроники. Эти приложения могут также обеспечить большую прибыль и являются идеальной возможностью для стартапов.
Датчик ToF - улучшите работу светодиода:
На другом конце спектра датчиков ToF находятся чувствительные к стоимости приложения, такие как Интернет вещей. Для недорогих устройств лазер все еще слишком дорог. Светодиод может работать в датчиках ToF для недорогих приложений, но с меньшей производительностью. Проблема с производительностью светодиодов для датчиков ToF может быть решена на уровне устройства или системы. Из устройства можно использовать новый светодиод с более высокой частотой модуляции. От системы стартапы могут воспользоваться преимуществами систем ToF на основе светодиодов, но с эквивалентными характеристиками лазеров, либо путем улучшения схемы обработки аналогового сигнала, либо путем перенастройки системы (т. Е. С использованием матрицы светодиодов и объединения результатов), либо путем реализации новый алгоритм оценки глубины.
ToF и структурный свет - улучшают устойчивость к яркости:
Яркость окружающей среды является узким местом как для ToF, так и для структурных датчиков глубины света. Чтобы выдержать больше света из окружающей среды, было предложено несколько методов подавления фона. Например, в чипах датчиков ToF от STMicroelectronics датчик внешней освещенности также интегрирован вместе с пикселями датчика глубины для оценки помех от окружающего света. Некоторые другие компании также предложили алгоритмы подавления фона при обработке сигналов (как аналоговых, так и цифровых).
Но эти решения не идеальны. Обеспечение еще лучшего подавления фона для ToF и структурного света по-прежнему остается открытой проблемой в технологии измерения глубины. Если стартапы смогут решить эту проблему, его ценность будет огромной, особенно в отношении подавления фона, которое может позволить структурным системам измерения глубины света работать в ярких условиях.
Массив камер - в сочетании с ToF для высокого разрешения:
В то время как датчики ToF страдают от низкого разрешения, массивы камер имеют хорошее разрешение, но страдают от проблемы согласования. Однако вполне возможно, что интеллектуальное устройство может содержать как массив камер, так и датчик ToF. Массивы камер также могут использоваться не только для определения глубины, но и в других приложениях, например, для интеллектуальной фокусировки. Можно было бы объединить информацию как от массива камер, так и от датчиков ToF для расчета карты глубины с высоким разрешением и хорошей точностью глубины. Общая стоимость этой системы измерения глубины может быть даже ниже, чем у датчика ToF с более высоким разрешением.
Это лишь некоторые из многих будущих возможностей для новых приложений компьютерного зрения с датчиками глубины. До сих пор подавляющее большинство приложений компьютерного зрения предполагало интерпретацию 2D-мира через камеру. С помощью датчиков глубины мы даем компьютерам данные в полном объеме, значительно расширяя возможности компьютеров.
Если вы нашли это руководство полезным, мы будем рады, если вы:
- Ударьте сердце ниже, чтобы порекомендовать его другим читателям
- Следите за публикацией Comet Labs, скоро появятся новые руководства!