Наука о данных в реальном мире

Автоматизация: противоядие от неэффективности маркировки

Инновации машинного обучения в маркировке данных; Взгляните на то, как Playment использует инструменты аннотирования с помощью машинного обучения, чтобы ускорить процесс маркировки и повысить точность маркировки.

По мере появления все большего количества технологий на базе ИИ глобальная сфера данных постоянно расширяется. Эта улучшенная доступность данных является неоспоримым преимуществом для разработки передовых автономных систем. Однако нехватка точных размеченных данных существенно замедлит развитие ИИ. 31% лиц, принимающих решения в области ИТ, сообщили, что низкая производительность данных была большим препятствием для их стратегии работы с данными; это показывает, как неадекватность высококачественных размеченных данных может существенно замедлить разработку. У большинства компаний, работающих с большими наборами данных, возникают проблемы с достижением желаемого уровня точности при маркировке данных. И одной из наиболее очевидных причин этой проблемы является повышенная зависимость от человеческого интеллекта при выполнении утомительных и сложных задач по аннотации.

Ручная маркировка данных: самый большой барьер на пути развития ИИ

Предприятия в значительной степени полагаются на человеческий интеллект для получения обучающих наборов данных для моделей машинного обучения. Когда мы впервые создали инструменты аннотирования для маркировки данных, они были полностью ручными. Аннотаторы рисовали прямоугольники за прямоугольниками и отмечали точки за точками без какой-либо обратной связи или помощи со стороны инструмента. Ручное рисование и аннотирование одного блока почти не занимает времени, но когда в уравнение входят миллионы блоков, затраченное время и усилия складываются очень быстро.

Ручной процесс отнимает много времени и сил, а масштабирование потребует огромных инвестиций, что делает его дорогостоящим. Кроме того, на качество меток влияют различные факторы, такие как возможности инструмента, эффективность рабочей силы, пользовательский интерфейс инструмента, сложность данных, количество требуемых классов аннотаций и т. д. Список можно продолжить; переменных факторов, влияющих на процесс, слишком много.

Внедрите автоматизацию — противоядие от неэффективности маркировки

Автоматизация всегда была ответом на устранение неэффективности, связанной с полностью ручными операциями. Таким образом, когда дело доходит до маркировки данных, с полу-, а иногда и полностью автоматизированными инструментами получение больших массивов разнообразных высококачественных наборов данных наземных данных может быть выполнено быстрее, с меньшими затратами и с повышенной точностью.

В Playment мы считаем, что инструменты маркировки с помощью машинного обучения могут помочь преодолеть эти барьеры масштаба, качества и точности, с которыми сталкивается самая недооцененная рабочая сила ИИ.

Наши инструменты для маркировки с помощью машинного обучения руководствуются 3 важными принципами:

  • Скорость. Мы понимаем динамичный характер инноваций и то, что идеи постоянно развиваются. Вот почему мы сосредоточились на разработке инструментов, которые снижают нагрузку на человека, позволяя машине выполнять почти идеальные аннотации. Таким образом, аннотаторы-люди могут тратить меньше времени на аннотирование и больше времени на исправление нескольких аннотаций, что в дальнейшем поможет в разработке моделей машинного обучения. Этот процесс значительно ускорит процесс маркировки в 10 раз.
  • Масштабируемость. Еще одним важным руководящим принципом разработки нашей платформы является то, что она должна обеспечивать выполнение различных типов сценариев использования маркировки, чтобы быть действительно масштабируемой по своей природе. Наши инструменты охватывают все важные типы аннотаций, от ограничительных рамок до мультисенсорной сегментации, которые обычно требуются в отраслях, использующих модели компьютерного зрения в своих проектах. Подробнее об этом ниже.
  • Простота. Создание готовых к эксплуатации моделей машинного обучения — это уже сложные задачи, которые решают инженеры машинного обучения. Мы не хотим, чтобы инструменты маркировки данных усугубляли уже существующую кучу сложностей. Наши инструменты разработаны, чтобы быть простыми и могут быть использованы кем угодно. От функций пользовательского интерфейса, таких как настройка яркости и контрастности, и наших инструментов с поддержкой машинного обучения, важность которых нельзя игнорировать, оборудуйте аннотаторов для эффективного выполнения задач по маркировке. Таким образом, маркировку данных можно делегировать людям без технического образования, поэтому инженеры машинного обучения могут более рационально использовать свое время.

Глубокое погружение: как Playment обеспечивает более быструю, точную и эффективную маркировку?

Вот несколько иллюстраций того, как инновации Playment, основанные на машинном обучении, могут упростить выполнение сложных и утомительных задач по комментированию.

Интерполяция для обнаружения и маркировки видеообъектов

Мы используем методы интерполяции для маркировки объектов в последовательности. С помощью функции интерполяции аннотатор должен маркировать каждый кадр от второго до пятого в последовательности вместо того, чтобы маркировать один и тот же объект в каждом кадре. Это значительно сокращает время, затрачиваемое на маркировку видео и последовательностей слияния датчиков.

До: Аннотаторы вручную рисовали кубоиды для каждого кадра (количество аннотированных автомобилей = 3)

После: интерполяция автоматически определяет объекты в нескольких кадрах, увеличивая количество аннотируемых автомобилей с 3 до 6

Сегментация интерактивных экземпляров

Семантическая сегментация может быть выполнена простым щелчком мыши. Отмечая крайние точки объекта, инструмент автоматически формирует смысловую маску. Это ускоряет сегментацию объектов в 10 раз.

До: Аннотаторы вручную наносили много точек на один полигон

После: аннотаторам нужно нанести только четыре крайние точки для одного многоугольника

Кубоиды в один клик

Кубоиды в трехмерных облаках точек можно рисовать одним щелчком мыши. Когда аннотатор щелкает группу точек, предварительно обученная модель автоматически определяет наиболее подходящий прямоугольный параллелепипед. Это сокращает время, затрачиваемое на выполнение аннотаций трехмерного облака точек, на 25 %.

До: Аннотаторы вручную рисовали и перетаскивали прямоугольники, чтобы создать кубоиды (количество аннотированных автомобилей = 3)

После: Аннотаторы используют один щелчок, чтобы создать прямоугольный параллелепипед, увеличив количество аннотированных автомобилей с 3 до 6

Предложения машинного обучения для сценариев компьютерного зрения

Наши полуавтоматические и высокоинтерактивные инструменты аннотирования обеспечивают более быструю и точную маркировку с меньшим количеством кликов и помощь машинного обучения для проверки качества аннотаций. Наши собственные модели маркировки разрабатываются на основе современных архитектур машинного обучения и обучаются на различных наборах данных.

Общие модели, обученные на наборах данных общих объектов, можно использовать в различных сценариях компьютерного зрения, таких как обнаружение объектов, отслеживание объектов, обнаружение 3D-объектов, семантическая сегментация и т. д. Специальные модели, обученные на наборах данных автономных транспортных средств, используются для сценариев использования, связанных с AV. Наши инструменты аннотирования позволяют аннотаторам просматривать предложения моделей, экспериментировать с пороговыми значениями и выбирать точные предложения, а также отклонять или редактировать аннотации.

Итак, каковы преимущества инструмента аннотации с поддержкой машинного обучения?

Подводя итог, мы считаем, что инструмент аннотирования с помощью ML может помочь вам быстрее развернуть ваши модели в бизнесе.

Сокращение сроков аннотирования. С помощью инструментов аннотирования с помощью машинного обучения скорость маркировки данных может быть увеличена почти на 40–60 %, что значительно сокращает сроки проекта для компаний, создающих сложные модели машинного обучения.

Снижение затрат на аннотации. С предварительно обученными моделями аннотаторы тратят гораздо меньше времени на выполнение аннотаций, поскольку модели устраняют любые ненужные задачи по маркировке и могут сосредоточить свои усилия на метках с низкой оценкой достоверности. Это экономит время, что, в свою очередь, снижает затраты на аннотаторов, связанных с маркировкой данных.

Более высокая точность маркировки.Время, сэкономленное за счет автоматизации, теперь может быть потрачено маркировщиками-людьми на исправление любых ошибок, которые могли возникнуть. Это помогает повысить точность этикеток. Аннотаторы-люди помогают улучшить наши модели, помечая неточные аннотации, которые можно использовать для сохранения моделей.

Управляя временем, стоимостью и качеством, предприятия могут масштабировать свои проекты ИИ от десятков до тысяч и миллионов точек данных без каких-либо дополнительных хлопот.

Что влечет за собой будущее?

Это только начало. Стремясь ускорить эпоху искусственного интеллекта, мы постоянно повышаем точность наших моделей, чтобы эффективно направлять конвейеры машинного обучения компаний, разрабатывающих передовые технологии.

В ближайшие несколько месяцев Playment выпустит первоклассную автоматизированную программную инфраструктуру, которая обеспечит более эффективное выполнение аннотаций и упростит управление проектами для маркировки данных. Платформа предложит больше уникальных функций наряду с теми, о которых я говорил ранее. Вот краткий обзор того, что у нас есть: улучшенная помощь в машинном обучении, комплексная аналитика, инструменты управления рабочими процессами, сложные процессы и инструменты проверки качества, а также все, что нужно для оптимизации конвейеров машинного обучения. Если вы хотите получать обновления о наших последних функциях и о том, чем мы занимаемся, поделитесь с нами своей электронной почтой здесь.

У тебя есть что-нибудь на уме? Напишите нам на [email protected].

Первоначально опубликовано на https://playment.io/blog/automation-the-antidote-to-overcoming-labeling-inefficiencies