Фирма OrganizationView, которой я руковожу, базируется на всемирно известном швейцарском курорте Св. Мориц. Это отличное место для ведения технологического бизнеса — превосходная цифровая инфраструктура, и это идеальное место для усердной работы / развлечений, если вам нравится проводить время на свежем воздухе. Катание на лыжах или горном велосипеде перед работой возможно (и мы поощряем это!)
Основной местной отраслью является туризм, и несколько месяцев назад, выпивая напитки с директорами некоторых отелей, мы обсуждали, можно ли применить технологию анализа открытых вопросов, лежащую в основе Workometry, к гостиничному сектору.
Как мы кодируем текст
Подход Workometry к тексту несколько отличается от большинства других сервисов кодирования текста на рынке. Вместо сложной, обширной модели кодирования, которую мы применяем ко всем данным, у нас есть процесс, который мы можем быстро масштабировать для создания пользовательских моделей кодирования для различных наборов данных. По сути, мы сужаем проблему до простейшего состояния, полагая, что узкие задачи — а не общие — проще всего решить с помощью современного ИИ. Мы строим модели для конкретных вопросов и организаций вместо использования общих моделей.
На высоком уровне способ, которым мы кодируем текст, почти такой же, как и опытный исследователь-человек, решающий проблему. Мы начинаем с создания неконтролируемой модели для выявления кластеров ответов, имеющих сходное семантическое значение, а затем используем контролируемый подход для кодирования как можно большего количества утверждений по этим темам. Мы считаем, что алгоритмы должны делать как можно больше, но эксперт в предметной области может внести свой вклад, если вы даете человеку как можно меньше и учитесь на каждом ответе.
Преимущество этого подхода в том, что мы очень хорошо разбираемся в предоставленных узких данных. Я подозреваю, что модели, которые мы создали для наших местных отелей, были бы не совсем подходящими, если бы мы анализировали отели в Цюрихе или Берне, поскольку мы предполагали, что цели этих посещений будут другими.
Понимание отзывов об Энгадине
Мы начали с набора данных примерно из 8000 отзывов об отелях в нашем районе, охватывающих около 60 отелей. Там было чуть менее 1 миллиона слов. Нашим первым осознанием было то, что текст в обзорах значительно более низкого качества, чем мы могли бы видеть с ответами сотрудников на конкретные вопросы.
При написании отзывов постояльцы отеля пишут разный объем — от одного предложения до объемного эссе. Они рассказывают об отеле, курорте, как попали в отель, с кем путешествовали, зачем путешествовали, о погоде, даже о своих любимых фильмах. Мы хотели, чтобы информация, которую мы получили, была вещами, которые директора отелей могли бы использовать для улучшения — очевидно, что только подмножество содержания обзора было действенным.
Когда мы задаем сотруднику такой вопрос, как «как мы могли бы улучшить качество обслуживания клиентов в наших магазинах», мы можем предположить, что большинство комментариев касаются способов улучшения обслуживания клиентов. В общедоступном обзоре отеля мы должны сначала определить, что на самом деле представляет собой отель. Вместо того, чтобы строить очень конкретные модели, нам нужно построить гораздо более общие модели, а затем удалить ненужные категории.
В зависимости от вашего варианта использования анализ настроений еще недостаточно хорош
Другая большая проблема по сравнению с тем, как мы запрашиваем обратную связь, заключается в том, что отзывы могут быть положительными или отрицательными. С отзывами сотрудников мы максимально сужаем текст, задавая такие вопросы, как «Что лучше всего в работе в КОМПАНИИ?» или «Как мы можем улучшить процесс управления эффективностью?» — мы используем вопрос, чтобы сузить настроение.
С обзорами мы хотели сделать настроение на уровне темы. Обычно можно увидеть такие предложения, как «Моя подушка была слишком жесткой, но обслуживание номеров очень быстро ее поменяло». То, что мы чувствовали, было важным здесь, так это не общее настроение на уровне предложения (вероятно, положительное), а то, что подушка была отрицательной, а обслуживание номеров было положительным.
Несколько лет назад я услышал, как Марк Челебак из ZHAW представил свою статью, посвященную точности лучших в своем классе инструментов анализа настроений. Я вспомнил, что он упомянул, что точность в среднем составляет около 60%. Было рекомендовано объединить несколько систем для повышения точности. Эта статья была написана примерно в 2013 году. Учитывая наш опыт, я бы предположил, что точность текущих лучших в своем классе инструментов на реальных данных составляет около 70%. Опять же, использование нескольких библиотек и ансамблевого метода имеет смысл.
Как Марк много лет назад упомянул, достаточно ли это хорошо, зависит от того, что вы пытаетесь сделать. Если вы смотрите на анализ среднего или тренда с большими объемами текста, это, безусловно, полезно. Если вы пытаетесь отфильтровать положительные или отрицательные отзывы о качестве кровати, это становится разочаровывающим занятием, и пользователь, вероятно, потеряет доверие к технологии.
Если у вас есть возможность участвовать в опросе, задайте положительный и отрицательный вопрос или определите настроение из хорошо разработанного вопроса со шкалой. Оставьте алгоритмический анализ настроений для тех случаев, когда запрос более качественных данных невозможен.
Частота важна, но необычная частота – это то, что вам нужно знать.
Многие инструменты, доступные отелям, позволяют анализировать то, что их гости упоминают в отзывах. Они делают это, глядя на частоту темы.
Благодаря нашей работе с отзывами сотрудников мы обнаружили, что абсолютная частота определенных тем сама по себе относительно бессмысленна — чтобы понять, где необходимы действия, вам также нужно посмотреть на относительную частоту по сравнению с группой сверстников.
Что делает наш анализ, так это отвечает на вопрос «какая из этих тем необычно часто встречается у ваших сверстников». Мы используем размер набора обзоров и распределение тем по всем группам, чтобы отметить области, требующие внимания.
Мы также обнаружили, что группа сравнения очень важна при сравнении отелей. Простое сравнение 5-звездочных отелей с остальными в долине дало результаты, которые не были ошибочными, но не очень информативными. По сравнению со всеми гостями отеля, гости пятизвездочного отеля имели необычайно положительное мнение о роскошных спа-салонах, но это не является ни полезным, ни удивительным, так как в других отелях они есть. Что было более информативно для этой группы отелей, так это сравнение их с аналогичными.
На чем следует сосредоточиться?
Дифференцированные темы были полезны, но что действительно важно, так это переменные типа результата. К сожалению, учитывая, что мы смотрели на внешние данные, мы не могли использовать точки данных, например, возвращаются ли клиенты или их расходы, пока они там. Нам осталось узнать, сколько звезд дал рецензент.
На уровне долины этого было достаточно, чтобы построить разумную модель, чтобы объяснить, на чем отелям нужно сосредоточиться, если они хотят улучшить свой рейтинг отзывов. Дело не только в том, чтобы сосредоточиться на факторах, по которым они отстают, им нужно понять, какие факторы на самом деле имеют наибольшее значение для рейтинга.
Отзывы общественности не способствуют постоянному совершенствованию
Отзывы действительно важны для отелей, поскольку они являются одним из ключевых способов, с помощью которых люди решают, какой отель забронировать. Большинство отзывов об отелях размещены организациями, которые зарабатывают на продаже гостиничных номеров. Все отели, с которыми мы говорили, используют один из нескольких инструментов управления отзывами, которые просматривают Интернет в поисках отзывов и предоставляют инструменты, помогающие отелям реагировать более эффективно.
Мы узнали, что отзывы об отелях — довольно плохой способ узнать, что они могут сделать лучше. В то же время коммерческое давление на получение отзывов побуждает отели получать отзывы в маркетинговых целях, а не отзывы для постоянного улучшения.
Чтобы получить более качественные данные, нужны более качественные вопросы
В традиционных опросах много времени и усилий тратится на то, чтобы вопросы были хорошо написаны и правильны. Хотя мы не верим, что такие усилия необходимы для открытых вопросов (в вопросах гораздо меньше абстракции), безусловно, верно, что открытые вопросы должны быть хорошо написаны, чтобы получить наилучшие данные.
Есть баланс, который нужно сделать. Чтобы получить самую широкую обратную связь, вы хотите, чтобы вопрос был как можно более открытым, однако, чтобы побудить респондента быть конкретным, вам нужно сформулировать его так, чтобы он не писал о нерелевантных данных. В отзывах об отелях было много вещей, которые не контролировались отелем (например, опоздания на поезд).
Ясно то, что для получения информации об опыте работы с клиентами недостаточно просто просматривать отзывы.