Что такое признание именованного объекта?

Распознавание именованных сущностей - это процесс, с помощью которого мы ищем и идентифицируем информационные единицы в неструктурированном тексте и классифицируем их по заранее определенным категориям, включая людей, организации, выражения даты и времени, местоположения и т. д.

Немного предыстории

Когда я решил собрать последнюю и самую быструю систему рекомендаций по продуктам, несмотря на мои самые лучшие намерения, я не мог предвидеть определенных аспектов.

Одним из них является распознавание именованных сущностей, это дорожная неровность номер два на этом пути.

Эй, мы уже делали это раньше, в первой части о Рекомендательных системах и во второй части о Кластеризация продуктов ,, а теперь пришло время для третьей части.

В этой статье мы обсудим улучшения, которые мы можем внести в кластеризацию продуктов.

Наша основная проблема заключается в том, что при нынешней методике кластеризации у нас есть одни и те же кластерные продукты, относящиеся к разным полам. Значит, не работает. Но должно быть. О, и будет.

Когда дело доходит до социального взаимодействия, пол - одна из переменных, которые могут разделять людей на категории.

Именно этим занимается система рекомендаций, которую мы в настоящее время внедряем, поскольку мы пытаемся выявлять похожих клиентов. Следовательно, эти биты информации будут иметь большое значение.

Но прежде чем мы продолжим, мне нужно еще раз отметить, что у нас нет никакой информации о клиенте, кроме его взаимодействия с продуктом.

Распознавание именованных сущностей: работа с данными из продуктов

Единственные данные, которые мы можем использовать в отношении самого продукта, - это название продукта. Это означает, что извлечение всех именованных сущностей может быть выполнено только через текст.

Единственные данные, которые мы можем использовать в отношении самого продукта, - это название продукта. Это означает, что извлечение всех именованных сущностей может быть выполнено только через текст.

В распознавании именованных сущностей наиболее распространенными распознаваемыми элементами являются:

  • Организации
  • Имена
  • Бренды
  • Географические места

Итак, мы анализируем и извлекаем выбранные сущности текста с помощью парсера.

Но какие объекты мы можем распознать по названиям продуктов?

В нашем случае названный объект, заслуживающий признания, был торговой маркой, поэтому нам нужно исключить его из процесса кластеризации продуктов.

Это означает, что остальные условия остаются неизменными.

Однако названия продуктов слишком короткие, а большинство торговых марок не имеют соответствующего формата, поэтому распознавание названных сущностей через синтаксический анализатор (для синтаксического анализа) не будет работать должным образом.

Следовательно, нам понадобится другой процесс для аспекта распознавания.

Как сотрудник Moosend, я имею доступ к его базе данных, которая содержит множество данных, в том числе один из самых больших списков брендов.

А наличие в вашем распоряжении большого списка брендов означает, что вы можете просто удалить бренды, которые вы определяете, из продуктов, с помощью регулярного выражения.

Вторая распознаваемая именованная сущность - это пол продукта с учетом потребителей, которым он адресован. Итак, нам нужно создать 4 категории товаров: мужские, женские, детские и нейтральные.

Отказ от ответственности: теперь, для ясности, я буду следовать бинарной логике различения мужских и женских предметов.

Но прошу понимания ЛГБТ-сообщества. Помада попадет в женскую категорию, а бритвы - в мужскую.

При разработке системы рекомендаций по продуктам для одного из ваших клиентов вам нужно будет заранее определить, что попадает в какую категорию, будь то с точки зрения пола, будь то с точки зрения возраста, культуры и т. д.

Мы приступаем к созданию некоторых жестко запрограммированных правил для определения товаров для мужчин, женщин и детей.

Некоторыми из этих правил могут быть слова «Мужчины», «Женщины», «Дети» в тексте.

Товары, которые нельзя отнести к категории только по названию, или товары унисекс, относятся к «нейтральной» категории.

Признание именованных лиц: признание интересов клиента

Мы можем классифицировать клиентов по их интересам или, в нашем случае, по гендерной категории, с которой они больше всего взаимодействуют.

При категоризации клиентов используются те же категории, что и при категоризации продуктов:

  • Мужчина,
  • Женский,
  • Дети,
  • и нейтральный

Когда мы завершаем процесс категоризации продуктов, мы переходим к вычислению процента продуктового пола, с которым взаимодействует каждый пользователь.

ΤСледующий шаг - установить пороговое значение для процентов. Те, у кого процент выше порогового, мы относим к гендерной категории.

Для этих шагов я бы порекомендовал порог между 0,8–0,9, в зависимости от продуктов, которые вы узнали в предыдущем процессе.

Ниже мы представляем 4 строки примеров данных из процесса:

И Джеймс, и Ник - мужчины, но их интересуют разные категории товаров.

Фактически, 95% взаимодействий Джеймса происходит с «мужскими» товарами, а 5% - с нейтральными товарами или товарами, пол которых мы не можем определить, поэтому мы ясно отнести Джеймса к категории мужчин.

С другой стороны, 92% Ника взаимодействует с товарами для женщин, 7% - с нейтральными товарами и 1% - с товарами для детей.

Впоследствии мы определяем, что Ник интересуется в основном женскими товарами. Поэтому мы относим его к женскому полу.

Вечная петля между покупателем и продуктом

Мы собираемся ввести все в алгоритм и посмотреть, как это пойдет.

Одна из проблем этого процесса заключается в том, что во многих случаях название продукта не является описательной мерой для гендерной категории.

Не каждый товар имеет удобное название «КРЕМ ДЛЯ МУЖСКОГО БРИТЬЯ». Некоторые просто называются «КРЕМ ДЛЯ БРИТЬЯ», а другие - «СЛИВКИ МЕЧТЫ» или «НОГИ ВЕНЕРА» (Маркетологи, что поделаешь).

В результате это приводит к тому, что большое количество товаров попадает в категорию нейтральных.

Чтобы уменьшить распространение продуктов в нейтральной категории, на последнем этапе процесса мы создаем «цикл обмена» (не ищите его, я придумал название) между продуктами и покупателями.

В частности, как только мы получаем большую часть наших данных от продуктов и клиентов, нам необходимо объединить информацию воедино.

Мы представляем всех признанных клиентов с их гендерным взаимодействием продуктов, форматируем вектор для каждого отдельного клиента, затем мы относим почти идеально классифицированных клиентов к гендерной категории (более 98%).

Пример распознавания именованного объекта:

Предположим, Джейн покупает помаду, платье, юбку и сумку.

Мы помещаем каждый продукт в вектор (как на изображении ниже) и маркируем распознанные продукты их гендерной категорией, после чего мы вычисляем процент элементов, попадающих в ту же категорию.

Подробнее:

Покупки Джейн показывают нам, что 98% ее товаров отмечены как женские и 2% как нейтральные, поэтому мы признаем ее как женщину из-за того, что ее интересуют в основном "женские " продукты.

Теперь у нас есть только гендерные категории товаров, которые попадают между классифицированными и нейтральными категориями.

Это приводит к предположению, что нейтральные товары, вероятно, будут отнесены к той же гендерной категории, что и остальные.

Если мы обнаруживаем один и тот же шаблон с одним и тем же продуктом несколько раз (90% данных, содержащих этот шаблон), мы классифицируем товар по гендерной категории.

Проще говоря:

Если кто-то купил четыре предмета «женской» категории, мы «сознательно» предположим, что пятая тоже будет «женской».

Соответственно, когда мы видим «реплики» аналогичных моделей покупок, мы также будем предполагать, что это те или иные, и поэтому приписываем их соответствующим образом.

После того, как мы классифицировали все продукты, которые мы можем идентифицировать, мы повторяем категоризацию клиентов с новыми данными и повторяем процесс до тех пор, пока не сможем идентифицировать другие продукты и клиентов.

Заключение

В моей следующей статье я верну вас к квадрату 1 Системы рекомендаций по продуктам, только на этот раз мы вернемся ко всему, что не работало в прошлый раз.

По сути, мы будем отслеживать производительность нашего механизма рекомендаций после того, как применим СОВЕРШЕННО НОВУЮ кластеризацию продуктов и СОВЕРШЕННО НОВОЕ распознавание именованных сущностей.