Неточные метки — это молчаливый налог на модели компьютерного зрения
TL;DR — Плохие ярлыки — серьезная проблема в ИИ. Я создаю компанию, чтобы решить эту проблему, и у меня есть новый подход, который находит в 10 раз больше ошибок этикеток, чем существующая работа. "Нажмите здесь, чтобы связаться со мной. Отправьте мне свой набор данных, и я скажу вам, что неправильно помечено! (Версия, не требующая предоставления данных, появится в ближайшее время)
Обо мне: Я доктор философии Калифорнийского университета в Беркли в области объяснимого ИИ, который провел время в Facebook AI и Google Brain, меня цитировали более 1200 раз, я основал и продал Clientelligent, стартап ИИ.
Вы собрали большой набор данных и обучили новейшую архитектуру глубокого обучения с высокой точностью. Но ваша модель все еще не так точна, как вам нужно. Что делать дальше?
В моих беседах с более чем 50 командами машинного обучения это был обычный сценарий. Самый эффективный следующий шаг — исправление набора данных. Сильные команды знают, что неточные метки приводят к снижению точности модели («мусор на входе, мусор на выходе») и путанице при оценке моделей («была неверна модель или данные?»). Эти проблемы сохраняются независимо от того, насколько велик набор данных или насколько сложна модель.
К сожалению, поиск и исправление ошибок в этикетках — непростая задача. Инженеры ИИ могут целыми днями вручную просматривать бесчисленное количество изображений, пытаясь найти и исправить плохие метки. Излишне говорить, что это дорогостоящий процесс, который никому не нравится.
Чтобы решить эту проблему, я разработал FIXER, новый подход к поиску ошибок в наборах данных. Вместо ручного поиска по меткам FIXER использует новые объяснимые методы искусственного интеллекта, чтобы помечать потенциальные ошибки для ручной проверки. При обнаружении объектов MS COCO, по моим оценкам¹, FIXER может найти 273 834 ошибки, что составляет 37 % от общего числа аннотаций, и это 46 % всех изображений COCO. содержать хотя бы одну ошибку. Насколько мне известно, это наибольшее количество ошибок, обнаруженных в любом общедоступном наборе данных машинного обучения, с большим отрывом (предыдущие работы оценивали среднюю частоту ошибок в 3%).
Как я могу помочь
- Если вы хотите использовать FIXER в своем наборе данных компьютерного зрения, пожалуйста, свяжитесь со мной. Оказываю консультационную услугу: пришлите мне свой датасет, и я пришлю вам очищенную версию обратно.
- Я также разрабатываю Breakpoint, пользовательский интерфейс без кода для изучения и улучшения наборов данных компьютерного зрения с помощью FIXER (без необходимости обмена данными). Если вы хотите стать партнером по дизайну или попасть в список ожидания, зарегистрируйтесь здесь.
Насколько точен MS COCO?
MS COCO — один из наиболее широко используемых наборов данных в области ИИ с более чем 25 000 ссылок, 700 000 аннотированных объектов и 118 287 изображений. На создание ушло значительное количество времени (более 70 000 часов), и создатели попросили восемь этикетировщиков изучить каждое изображение.
Вы можете ожидать, что такой тщательно составленный, вездесущий набор данных будет иметь достаточно точные метки. Было удивительно, когда FIXER обнаружил, что почти половина изображений COCO содержит ошибку метки.
FIXER может найти несколько типов ошибок
В таблице ниже приведены различные типы ошибок, обнаруженных в COCO.
В частности, различные ошибки, которые обнаруживает FIXER, включают:
1 — Фоновые ошибки: Отсутствующие метки, которые не пересекаются с существующими метками.
2 — Ошибки перекрывающихся объектов: отсутствующие метки, которые перекрываются с существующими метками.
3 — Ошибки локализации: этикетки с неправильно нарисованными ограничивающими рамками
Разве другие люди не делали этого раньше?
Если вы все еще читаете, возможно, вы думали об этой проблеме раньше и даже пробовали другие подходы к ее решению, такие как популярная эвристика «уверенных ошибок». Этот подход ищет прогнозы, в которых очень высокая вероятность присваивается метке, отличной от предоставленной, т. е. когда модель «заведомо неверна».
Если вы примените этот популярный существующий метод к COCO, вы обязательно обнаружите некоторые ошибки этикетки. Но FIXER находит в 16 раз больше ошибок².
Заключение
Этикетки низкого качества – это большая проблема, которую трудно решить. В этом посте я представил FIXER, новую методологию поиска ошибок меток в наборах данных AI, которая обнаружила 273 834 ошибки, что составляет 37% от общего числа аннотаций, в MS COCO. Хотя в этом посте я сосредоточился на результатах FIXER, я намерен представить базовую методологию в будущей работе.
В текущей работе я разрабатываю результаты для других типов прогнозирования, таких как семантическая сегментация и классификация изображений. Я также расширяю FIXER, чтобы помочь в активном обучении путем поиска сложных случаев. Это снизит затраты на маркировку за счет маркировки только полезных изображений и позволит создавать более точные модели.
Если вы хотите узнать о будущих публикациях, подписывайтесь на меня в Medium, Twitter или Linkedin. Если эта проблема вас заинтриговала, я буду рад пообщаться: [email protected]. Мы также активно ищем партнеров по дизайну/составляем список ожидания для Breakpoint (наш пользовательский интерфейс без кода для улучшения моделей), консультируем клиентов (вы делитесь своими данными, мы отправляем обратно очищенную версию) и инженеров-основателей.
Приложение — почти 200 000 дополнительных отсутствующих ярлыков.
Стоит отметить, что FIXER обнаружил еще 194 582 дополнительных ошибки, в общей сложности 468 416, которые я исключил из общего числа из-за особенностей набора данных COCO. COCO содержит несколько изображений с большими толпами людей, например, пример ниже, где несколько человек помечены, а остальные покрыты аннотацией «толпа».
В таких случаях FIXER легко может добавить оставшиеся аннотации (например, овцу без аннотаций выше). Хотя это действительные аннотации, строго говоря, они не являются ошибками, поэтому я исключил их из общей суммы заголовков. Если рассматривать массовые аннотации как обычно, это приведет к 468 416 ошибкам, что составляет 54,5 % от размера набора данных.
Технические примечания
[1]: мы оценили количество ошибок, выбрав случайным образом 200 обучающих изображений и вручную проверив каждую помеченную ошибку. Это дало 463 проверенных ошибки. Масштабирование этой оценки от 200 изображений до полных 118 287 изображений в обучающем наборе дает заданные оценки.
[2]: Математика здесь такова, что 94% ошибок фиксажа не имеют высокой достоверности, 6% — высокой достоверности, а 94 разделить на 6 — это примерно 16.