Несмотря на значительные усилия некоторых крупнейших мировых технологических и автомобильных компаний, проблема автономных транспортных средств остается нерешенной. Было инвестировано более 100 миллиардов долларов, чтобы вывести на рынок беспилотники, но технология еще недостаточно развита для коммерческого выпуска автономных транспортных средств.
Недавно я возился с крупномасштабными генераторами изображений с языковым управлением (DALLE2, Stable Diffusion и Google Imagen) и изучал их.
Я также обучил свою модель на основе Скрытой диффузии. Некоторые из результатов здесь:
Результаты впечатляют и для тех, кто давно использует и строит нейронные сети, они действительно весьма удивительны. Как это могло произойти? Почему они так хороши? Модель способна соединять язык, историю, культуру и искусство и превращать их в великолепные визуализации.
Нам нужны такие технологии в других отраслях.
Я много лет работаю над AV-технологиями и не могу не завидовать. До сих пор прогресс в области искусственного интеллекта для беспилотных автомобилей был ограниченным.
Совершенно очевидно, что для безопасного и крупномасштабного развертывания AV потребуются модели, которые могут устанавливать аналогичные связи между планами движения, физикой, правилами и поведением. Я хотел бы предложить, как это сделать, но перед этим давайте рассмотрим, что делает эту технологию такой хорошей.
Большие языковые модели (LLM)
LLM — это языковые модели, которые обычно имеют размер в десятки гигабайт и обучаются на текстовых данных с самоконтролем в масштабе Интернета, иногда данные имеют размер в петабайтах.
LLM обучены предсказывать следующее слово (слова) в предложении, поэтому их обучающие данные контролируются самостоятельно; т. е. входы и выходы одинаковы. Данные, используемые для обучения LLM, варьируются от целых произведений Шекспира до фрагментов кода C++.
Многие эксперты считают, что причина, по которой большие языковые модели так хороши, заключается в том, что они способны фиксировать долгосрочные зависимости. Кроме того, они также способны справляться с большим количеством шума и неопределенностей, которые часто присутствуют в реальных данных.
Сочетание очень больших и разнообразных наборов данных с огромными нейронными сетями, содержащими миллиарды параметров, делает LLM беспроблемными учениками, где для адаптации к новым задачам не требуются специализированные обучающие данные.
Вот пример того, как GPT3 OpenAI может уловить смысл животноводческой фермы Джорджа Оруэлла. Он появляется на сгенерированном примере изображения, когда модели предлагается сгенерировать «Военные самолеты бомбят скотный двор Джорджа Оруэлла»
CLIP (предварительное обучение контрастному языку и изображению)
"[Бумага]"
CLIP — это нейронная сеть, обученная на множестве пар изображение-текст. CLIP использует LLM для кодирования текста и связывает его с визуальными данными. Следующая иллюстрация взята из исследовательской работы OpenAI CLIP.
Как и LLM, CLIP демонстрирует возможности нулевого выстрела в последующих задачах с небольшим количеством обучающих данных для предметной области или без них.
CLIP не только демократизировал подписи к изображениям, но и позволил собирать пары изображений и подписей в масштабе Интернета всем, у кого есть доступ к Интернету. Смотрите потрясающие работы на LAION.AI
Синтез изображений
Синтез изображений — это широкий класс задач машинного обучения с множеством приложений. Синтез изображений обычно выполняется с помощью глубоких генеративных моделей, таких как GAN, VAE (вариационные автокодировщики) и авторегрессионные модели. Однако каждая из этих моделей имеет свои недостатки. Например, GAN часто имеют нестабильное обучение, в то время как авторегрессионные модели обычно медленны при синтезе.
Диффузионные модели были первоначально предложены в 2015 году. Они работают, искажая обучающие данные, постепенно добавляя гауссовский шум и медленно стирая детали в данных, пока они не станут чистым шумом. Затем нейронная сеть обучается обращать вспять этот процесс повреждения. Запуск этого обратного процесса искажения синтезирует данные из чистого шума путем постепенного устранения шума до тех пор, пока не будет получен чистый образец. В последнее время наблюдается возрождение интереса к диффузионным моделям из-за их стабильности при обучении и многообещающих результатов, которых они достигли с точки зрения качества изображения и звука.
Наборы данных в масштабе Интернета, LLM, Transformers и стабильная парадигма обучения синтезу изображений способствовали развитию синтеза изображений с текстовым управлением. Казалось, что идет какая-то гонка вооружений, кто сможет придумать лучший в своем классе генератор. Однако основные ингредиенты, необходимые для создания этих моделей, доступны каждому (за исключением огромных счетов за облачные вычисления, необходимых для обучения таких моделей).
В блогах есть отличные посты, в которых подробно описывается, как работает эта технология.
Технология будет продолжать развиваться быстрыми темпами, изменяя многие отрасли от редактирования фотографий до создания фильмов.
Теперь вернемся к беспилотным автомобилям.
Я работаю над технологией беспилотного вождения последние 8 лет, и индустрия так сильно продвинулась, но никто не смог создать решение потребительского уровня.
Глубокое обучение привело к значительным инновациям и прогрессу в технологиях автономного вождения, но еще не изменило всю отрасль и не предоставило комплексный набор инструментов для ее решения.
Текущие инструменты, доступные в отрасли, не могут решить сложные проблемы, такие как понимание намерений пешеходов, создание идеальной системы восприятия или принятие решений на уровне человека. Это отсутствие прогресса не связано с нехваткой рабочей силы. Отрасль застряла из-за того, как мы решаем эту проблему.
Нынешняя системная архитектура технологии автономного вождения была разделена на стеки восприятия и планирования. Это проблематично, поскольку мы не знаем, сколько техники требуется в стеке восприятия для кодирования вселенной, а написание правил вождения непозволительно как с инженерной, так и с технологической точки зрения. Еще в 2015 году люди знали об этом, но большая часть инвестиций была направлена на HD-карты и лидары, поскольку прогресс там гораздо более достижим, чем исследовательская программа, которая не может создать демоверсию.
Мне не нужно никого убеждать в том, что для создания беспилотных автомобилей важнее всего иметь огромное количество высококачественных данных. Разнообразные данные могут помочь вашим нейронным сетям справляться с ситуациями, которых не было во время обучения. Это только часть проблемы. Если вы полагаетесь на аннотации для создания высококачественного набора данных, то вы застряли, потому что каждое небольшое изменение означает переделывать все с нуля.
Что произойдет, если вы придумаете отличную идею через шесть месяцев; вы не можете бегать и переделывать свои данные. Ну так что ты делаешь? это не работает, потому что существующие аннотации не могут измениться волшебным образом, они не могут измениться для каждой новой функции, и они не могут измениться в будущем, когда вы поймете, что допустили ошибку.
Представьте, что вы меняете датчики, датчики со временем становятся лучше, и каждый раз, когда вы обновляете свой стек датчиков, некоторые аннотации необходимо переделывать. Это непомерно дорого, особенно когда вы добавляете датчики на более позднем этапе программы НИОКР. Представьте, что требования к планированию движения изменились, теперь вам нужно по-другому аннотировать данные.
Так как же решить эту проблему?
Решение находится в разработке
Tesla применяет новый подход к решению проблемы — не полагаясь на датчики или HD-карты, вместо этого они создают систему восприятия в реальном времени, за которой следует система планирования. Они создали быстрые системы аннотаций, которые могут относительно быстро создавать миллионы изображений.
Tesla достигла «стеклянного потолка» в производительности своей системы, и кажется, что предоставление большего количества функций или обучение на все больших и больших наборах данных не приводит к повышению производительности вождения.
Wayve опубликовала свой метод решения беспилотных автомобилей, хотя их метод действительно устраняет некоторые ограничения традиционного подхода, он по-прежнему опирается на созданные вручную слои абстракции, т. е. аннотацию (см. рис. 1).
Существует третий подход, который может привести к улучшению системы автономного вождения. Нам нужно что-то, что связывает язык, историю, безопасность, физику и руководство DMV. Сказать, что сквозное обучение — это решение, недостаточно, поскольку снова и снова было доказано, насколько хрупким и неконтролируемым может быть сквозное обучение применительно к беспилотным автомобилям.
Генеративный ИИ показывает путь
На следующем рисунке показана схема генератора изображений Google Imagen, мы будем использовать ее в качестве руководства для создания «сквозного» AV-решения.
Первый этап — тонкая настройка нейронной сети для соединения данных о вождении с текстовыми подписями. Подписи к тексту здесь двоякие:
1- Навигационные инструкции (поверните налево, на кольцевой развязке выберите 3-й съезд). они будут собираться автоматически (но осторожно) с использованием картографических API.
2- Инструкции по вождению (Остановиться на красный сигнал светофора, сохранить полосу движения, Обогнать машину и т. д.). эти данные будут генерироваться с использованием нулевого видеоклипа следующим образом:
Второй этап заключается в извлечении траекторий вождения из эпизодов вождения.
Собираем все вместе:
Представленная здесь системная архитектура имеет следующие преимущества:
- Промежуточного программного обеспечения для восприятия нет.
- Модели CLIP-V и текстового кодировщика можно обучить для создания вложений в масштабе Интернета.
- Очень большие наборы данных могут быть собраны практически без вмешательства человека.
- Интерфейс между моделями представляет собой язык, и не требуется принимать какой-либо конкретный формат.