Как собирать отзывы в произвольном тексте: введение для специалиста по данным

Поймите, как разрабатывать системы технического обучения для сбора открытых ответов от пользователей в текстовом формате.

Чтобы по-настоящему понять тип системы измерения, которую необходимо внедрить для получения обратной связи, нужно также смиренно признать как специалист по данным недостатки и неточные возможности обработки естественного языка и машинного обучения.

Нажмите +F, сколько раз я упомянул основной источник.

Пример использования: анализ комментариев в произвольном формате; предсказать их бинарное настроение (положительное или отрицательное); и измерьте величину этого настроения (например, полярность в TextBlob, положительную или составную оценку в VADER, вашу пользовательскую оценку настроения для специально обученной модели и т. д.). Вашему клиенту нужно, чтобы вы построили прогностический конвейер реализации, который постоянно информирует почти в режиме реального времени по мере поступления отзывов, чтобы предсказать их настроение.

В той степени, в какой вы можете обучать свои собственные данные и маркировать их для своего уникального варианта использования (например, данные о разнообразии), и в той мере, в какой у вас есть доступ к многочисленным реализациям НЛП, от подходов с набором слов до конвейеров глубокого обучения, существует на самом деле это одна переменная, которая настолько сильно влияет (и все же редко по-настоящему понимается или игнорируется), что имеет большее значение, чем что-либо еще: данные, переданные вам конечным пользователем, помеченные, как предполагалось.

Конечный пользователь является основным источником, и независимо от того, насколько новаторскими и исключительными являются ваши методы прогнозирования настроений, основной источник (клиент, сотрудник) всегда прав. Мы рассмотрим это более подробно в ближайшее время.

Я лично руководил развертыванием нескольких десятков измерительных систем и построил конвейеры НЛП для их анализа практически в режиме реального времени в федеральном правительстве США, чтобы понять моменты, которые важны для конечного пользователя. Во время этих поездок, если я когда-либо собирался собирать открытые комментарии в произвольном тексте, я всегда развертывал систему измерения, которая *требовалась* от конечного пользователя ( даже если время «нагрузки» увеличилось еще на одну минуту из-за добавленного(ых) вопроса(ов)) для идентификации унарным способом, таким образом, что (1) если они хотели оставить комментарий, (2) они должны были идентифицировать его как комплимент или рекомендация.

В рамках управления жизненным циклом науки о данных мы несем ответственность за «правильную» аналитику в соответствии с набором действующих правил. По сути, вы можете сделать вещи необычайно менее напряженными, если четко понимаете, что — поскольку данные поступают непрерывно каждую секунду и готовы к тому, чтобы ваша экосистема ИИ получила их для реализации конвейера — не вы определяете, является ли собранная обратная связь «комплимент» или «рекомендация»; скорее, это конечный пользователь.

Представьте себе день, когда вы могли бы группировать обзоры, собранные Amazon по множеству вопросов, по комплиментам и рекомендациям по критериям группировки.

Ваша новая алгоритмическая реализация не определяет эти метки. Конечный пользователь сделал это.

Мы так привыкли к кнопкам-смайликам в аэропортах (такие, что нажимаешь и галишь — есть выход на цифровой приемник для «анализа»); мы так привыкли к отзывам на Amazon, что от одного до пяти (впоследствии вы можете писать обо всем, что хотите, независимо от пяти тем дня, которые вы, кажется, распаковываете, прямо или косвенно связанных с обзором, который вы оставляете) ).

Мы сделали вещи такими сложными, запутанными и сильно абстрактными для конечного пользователя, предоставив им платформу, чтобы свободно выражать свои чувства в свободном тексте.

Давайте реализуем такую «систему измерения» и поговорим о ее конструкции; важно понимать фундаментально такую конструкцию, поскольку она поможет вам понять, как и почему мы даже пытаемся предсказать.

Подход A (сложный, запутанный и сильно абстрактный):

Вопрос 1. Помогите нам лучше обслуживать вас. Пожалуйста, рассмотрите возможность оставить комментарий или отзыв о _____.

**Вот ваше поле для ввода свободного текста, где вы можете оставить свой отзыв***

И вы уходите, когда вы и ваша команда участвуете в путешествии по макро- и микропрогнозам дня.

Подход B (направленный и настраивает конечного пользователя на то, как он думает, и они оценят вас за это):

Вопрос 1.Помогите нам лучше обслуживать вас. Хотите поделиться своим отзывом с комплиментом или рекомендацией о своем опыте работы с ____?

→Раскрывающийся список:[Да][Нет] (можно выбрать только один)

(или вы хотите... список продолжается, как составить вступление; применение ориентированного на человека дизайна + дизайн-мышления к определению этого вступления является критически важным для МИССИИ, потому что это высоконаучно)

Вопрос 2. Спасибо, что решили поделиться своим отзывом. Это комплимент, рекомендация или и то, и другое?
→Раскрывающийся список: [Комплимент][Рекомендация][Оба] (можно выбрать только один) (в мои прошлые реализации, я *никогда* не строил «оба» как вариант, будь то вопрос или вариант раскрывающегося списка; тем не менее, я создаю его здесь таким образом, чтобы он мог применяться к вашему варианту использования).

*Вот поле с произвольным текстом для ввода вашего отзыва, который, как мы надеемся, будет подобран в соответствии с вашими раскрывающимися критериями*

Последнее очень важно для разграничения Подхода А и Подхода Б. В то время как в Подходе А у вас нет меток для какой-либо части свободного текста, в Подходе Б они есть — это потому, что первоисточник решил уведомить вас о том, что они собираются составить «комплимент», «рекомендацию» или «и то, и другое».

Мы не подвергаем сомнению намерение первоисточника. ОНИ - первоисточник. Не вы.

Если из 8 000 000 бесплатных текстовых ответов, которые вы получили за последние шесть месяцев, вы определили, что 71 % поступили как «комплименты», а 29 % — как «рекомендации», то *это основано на решениях, принятых первоисточником*. Нет лучшего аргумента для защиты, чем утверждение «так сказал первоисточник».

Как только вы определили эти метки в соответствии с первоисточником, вы можете посвятить время фактическому измерению величины этих меток.

Значительно проще работать с рекомендациями, чтобы определить масштабы негатива, беспокойства, неотложных и приоритетных вопросов, чем бесспорно заявить, что вы предсказали раскол 71%–29% (аналогично приведенному выше сценарию).

Анализировать рекомендации и комплименты значительно проще, чем 1, 2, 4 и 5. Люди не боты; в таком контексте мы не думаем единицами и пятерками и не запоминаем информацию, охватывающую десятилетия нашей жизни. Мы думаем обо всем качественно, проницательно, субъективно и исходя из наших предубеждений. Например, как мы можем убедить конечного пользователя в том, что 1 является более серьезным, чем 2, когда они оба от плохого к худшему во всех диапазонах таких серьезностей? 1 кризис? Почему 2 не кризис?

Мы мыслим темами и прилагательными. Например, мы так эффективно изучаем иностранные языки или совершенствуем их: проще задействовать наши пять чувств, чтобы внедрить структуру в наше изучение языков, чем в 1, 2, 3, 4 и 5.

Объясняя конечному пользователю, что вы подталкиваете его к тому, чтобы оставить комплимент или рекомендацию, вы даете ему возможность думать в этом *настроении*. Выбирая комплимент, мы надеемся, что они составят его в таком настроении.

Итак, последний пункт. Организациям нужны комплименты. Сотрудники хотят читать комплименты. Клиенты хотят говорить комплименты. Конечные пользователи желают говорить комплименты. Каналы запроса обратной связи не должны быть откровениями о проступках, проблемах и плохих манерах. Снова и снова, при развертывании и измерении идей, которые я собрал с помощью десятков измерительных инструментов, никогда не было ни одного случая, когда проблемы превышали количество комплиментов: в большинстве случаев я всегда видел, что комплименты значительно превышают количество рекомендаций или опасений. Я бы получил такую обратную связь, что это было бы комплиментом за то, что мы попросили комплимент (и как это освежает). Если вы спросите их, и они пребывают в таком настроении, они вполне могут решить ответить вам именно в этом настроении.

И, возможно, вы получите комплимент.

И нет лучшей новости, а также для ученых в рамках аналитики заявить, что «у нас есть комплименты» (а не «мы предсказываем…»).

Затем явно встройте в свою систему измерений и (1) предоставьте своим командам и организациям расширенную обратную связь — все в соответствии с первоисточником и (2) предоставьте конечному пользователю возможность подписаться!

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning