Вы отличаетесь от туфель-монахов от туфлей дерби? Ни один. Но у нас есть дружелюбная машина, которая умеет.

В EDITED мы создаем технологии, которые индустрия одежды использует для принятия более разумных решений, опираясь на огромные объемы данных из глобальной розничной торговли.

Чтобы сделать эти данные хоть сколько-нибудь полезными, их необходимо соответствующим образом классифицировать, чтобы любой пользователь в любой точке мира мог сразу перейти к нашему программному обеспечению и начать получать информацию.

Сложность заключается в том, что отраслевого стандарта для наименования продуктов не существует. Если вы заказали «джемпер» в США, у вас не получилось бы получить новый красивый свитер. Нет, вы бы побаловали себя платьем-сарафаном.

Очень быстро мы поняли, что одно только программное обеспечение для распознавания слов не поможет сделать наши данные пригодными для использования. Классификация стала основным направлением деятельности наших специалистов по данным.

Comp Shopping

Наша одержимость этим искусственным интеллектом становится более понятной, если вы больше знаете об отраслевом контексте. Мода, оборот которой составляет 2,4 триллиона долларов, зависит от розничных продавцов, которые следят за тем, чтобы они придерживались правильных тенденций, когда они больше всего нужны потребителям.

Это означает, что бренды и розничные продавцы постоянно смотрят на то, что у них есть, по сравнению с тем, что есть на остальном рынке, и вносят коррективы и изменения. Традиционно это делается довольно неуклюже и кропотливо. До интернета розничные торговцы отправляли сотрудников в магазины, чтобы подсчитать, что есть в наличии у конкурентов.

Теперь отраслевые покупатели и мерчандайзеры смешивают это и рассчитывают на веб-сайты конкурентов, заполняя бесконечные таблицы своими наблюдениями. Или они инвестируют в EDITED, где пара щелчков мыши может предоставить им всю эту информацию во всем мире.

Все это означает, что эти классификаторы выполняют довольно важную работу, если вы занимаетесь швейным бизнесом. Сейчас мы находимся на этапе, когда наши классификаторы ежедневно обрабатывают более 16 миллионов товаров (и даже больше SKU). Но зачем довольствоваться этим? Мы хотели увидеть, насколько хороши наши классификаторы, чтобы мы могли продолжать их улучшать.

Просматривая вручную классификаторы товаров, мы можем сказать, что они хорошо разбираются в модной одежде, обуви и аксессуарах. Но нас часто спрашивают "насколько хорошо?"

Чтобы разобраться в этом, нам пришлось противопоставить их самым жестким конкурентам - профессионалам отрасли. И эти парни делают карьеру, зная, что их мамины джинсы отличаются от отцовских.

Вот как мы оценили роль нашего ИИ

Поскольку наша команда имеет огромный опыт в сфере розничной торговли и ежедневно работает с предметами одежды, мы знали, что у нас есть самые жесткие критики внутри компании.

Пятьдесят респондентам из всей компании пришлось идентифицировать около 1300 продуктов, которые были случайным образом выбраны из нашей базы данных в июле 2018 года.

Выборка была стратифицирована, чтобы обеспечить репрезентативный охват каждого из отслеживаемых нами рынков по всем категориям одежды и всем подкатегориям и стилям обуви.

Мы попросили каждого респондента выполнить, казалось бы, тривиальную задачу по определению 57 товаров по очереди. Это сумма, о которой люди не думают много, но могут легко устать, и, используя набор навыков, они не обязательно будут прилагать много усилий для улучшения.

Затем мы сравнили прогнозы каждого респондента с достоверными данными для каждого из продуктов, предоставленных Сэмом, с нашими данными QA. Это позволяет нам рассчитывать сопоставимые показатели производительности как для ИИ, так и для наших специалистов по розничной торговле.

Теперь о хорошем.

Что показали результаты сравнительного анализа нашего ИИ

Результаты показали, что классификатор превосходит респондентов-людей в «простой» задаче определения типов одежды примерно на 2,5 процентных пункта (точность 97,8% против 95,4% для людей).

Классификатор подкатегорий обуви - то, что мы недавно доработали - работает почти так же хорошо, как классификатор одежды, с точностью 96,7%. Это на 9,3 процентных пункта выше человеческой точности для этой задачи.

Победа над профессионалами розничной торговли в каждой поставленной задаче дает нам окончательную оценку классификаторам 3, людям 0. В спорте мы бы назвали это безумием.

Окончательный результат по окончании тестирования? Классификаторы 3–0 Люди.

Тем не менее, обувь сложна - и классификаторы, и люди-респонденты боролись с задачей.

Классификатор стилей обуви правильно классифицировал стиль 69% обуви в выборке по сравнению с чуть менее 63% продуктов, классифицированных респондентами-людьми. Это означает, что классификатор был на 6,5 процентных пункта точнее, чем наши респонденты-люди.

Человеческая ошибка непостоянна

Когда мы смотрим на классификацию подкатегорий обуви, мы можем увидеть различия в производительности человека и классификатора.

Классификатор хорошо определяет большинство подкатегорий обуви, за исключением тапочек; небольшая категория, в которой только 40% отнесены к категории правильно, а 60% из них определены как обувь. Очень мало других неправильно классифицированных товаров (например, 1% сандалий, прогнозируемых как обувь, и 1% сандалий, прогнозируемых как обувь).

Однако этого нельзя сказать о человеческих усилиях. Здесь мы обнаружили, что только кроссовки и ботинки точно классифицируются более чем на 90%. Там, где происходит неправильная категоризация, предсказанные метки также не согласованы. Например, 55% тапочек предполагается использовать как обувь, 21% - как сандалии, 7% - как кроссовки и 3% - как ботинки.

Такое несогласованность в предсказанных классах означает, что если бы вы полагались на человеческую классификацию, в ваших данных было бы больше ошибок, но также было бы больше ошибок типов.

Сандалии как туфли, туфли как сандалии, туфли как кроссовки, тапочки как ботинки, тапочки как сандалии, тапочки как туфли и тапочки как кроссовки - все это очевидно в прогнозах профессионалов розничной торговли. Между тем классификатор действительно очень часто принимает туфли за сандалии, а тапочки за туфли.

Это показывает, что человеческие ошибки могут сильно различаться и, как правило, ошибаются чаще, чем ИИ. Это сложно исправить, тогда как прелесть ошибок ИИ в том, что они предсказуемы и консервативны в своей «неправильности». Легче заметить, исправить или учесть.

Умнее среднего

В целом классификаторы превзошли профессионалов розничной торговли. Но поскольку некоторые респонденты получили более высокие баллы в определенных разделах, мы сравнили оценки точности каждого из респондентов по продуктам, которые они видели, с оценкой точности, которую классификатор получил по всей выборке (почти 1300 продуктов).

Сравнивая таким образом, мы должны быть осторожны в интерпретации. Респонденты могли видеть «легкую» подгруппу продуктов и меньшее их количество.

Следовательно, коэффициент ошибок 1 на 100 может не показать никаких ошибок по 57 продуктам, но более 1300 мы ожидаем большего количества ошибок! Но, несмотря на эту несправедливость, классификаторы по-прежнему работали лучше, чем средний профессионал розничной торговли в каждой из категорий.

Человеческие батареи изнашиваются

Еще один вывод из данных заключается в том, что со временем качество человеческих прогнозов ухудшалось. Через 10 минут показатели точности упали в среднем примерно на 4 процентных пункта.

Но у ИИ нет концентрации внимания - он не устанет. Это делает его идеальным для обработки огромных объемов данных, классифицируя около 16 миллионов продуктов в день.

Это количество данных, которые люди не имеют возможности обрабатывать точно или последовательно.

И даже если бы они могли, это было бы медленно. С тех пор, как нашим респондентам потребовалось классифицировать 57 продуктов, им потребовалось бы почти 2 с половиной часа, чтобы классифицировать полную выборку из почти 1300 продуктов, но с ИИ эта работа была сделана за секунды.

Это означает, что для классификации всех 16 миллионов товаров профессионалу в розничной торговле потребуется пять рабочих дней в неделю по 7,5 часов в день, итого 18 лет для выполнения задачи. А наши машины делают это за день.

Некоторые розничные продавцы до сих пор не используют EDITED - подумайте!

Разрешить классификатору вымыть вам посуду?

Все это доказывает, что ИИ точнее, стабильнее, быстрее и надежнее в масштабе, чем люди.

Это означает, что мы должны позволить ему взять на себя нагрузку от больших скучных задач и предоставить профессионалам розничной торговли больше свободы для творческой части своей работы. Например, придумывать уникальные вещи, которые нужны клиентам, придумывать инновационные способы продвижения продуктов и создавать отличные впечатления от покупок.

Вместо того чтобы опасаться появления ИИ и риска, который он представляет для рабочих мест в отрасли, мы должны принять его.

Нам нравится сравнивать его с посудомоечной машиной. Это кухонный механизм, который не заменит повара. Вместо этого он делает ненужные части процесса намного более эффективными.

Крис Грэм - бывший экономист, ставший специалистом по анализу данных. Он также является частью группы ди-джеев электронной музыки и ведет то, что Крис скромно называет «небольшим радиошоу», но которое мы считаем «чертовски крутым». Кстати, это действительно хороший саундтрек для обработки данных.

Если вы хотите работать с умными людьми, такими как Крис, мы постоянно расширяем нашу команду в Лондоне, Нью-Йорке и Сан-Франциско. Ознакомьтесь с нашими последними вакансиями здесь.