Вложения слов - это, по сути, форма представления слов, которая связывает человеческое понимание языка с машинным. Вложения слов - это распределенные представления текста в n-мерном пространстве. Они необходимы для решения большинства проблем НЛП.
Адаптация предметной области - это метод, который позволяет моделям машинного обучения и трансферного обучения отображать нишевые наборы данных, которые написаны на одном языке, но все же лингвистически различны. Например, юридические документы, ответы на опросы клиентов и новостные статьи - все это уникальные наборы данных, которые необходимо анализировать по-разному. Одна из задач общей проблемы фильтрации спама заключается в адаптации модели от одного пользователя (исходное распределение) к новому пользователю, который получает существенно разные электронные письма (целевое распределение).
Важность встраивания слов в области глубокого обучения становится очевидной, если посмотреть на количество исследований в этой области. Одно из таких исследований в области встраивания слов, проведенное Google, привело к разработке группы связанных алгоритмов, обычно называемых Word2Vec.
Word2Vec, одна из наиболее часто используемых форм встраивания слов, описывается Википедией как:
«Word2vec принимает в качестве входных данных большой корпус текста и создает векторное пространство, обычно состоящее из нескольких сотен измерений, причем каждому уникальному слову в корпусе назначается соответствующий вектор в пространстве. Векторы слов располагаются в векторном пространстве таким образом, чтобы слова, имеющие общий контекст в корпусе, располагались в пространстве в непосредственной близости друг от друга ».
В этом посте мы рассмотрим некоторые из практических применений Word Embeddings (Word2Vec) и адаптации домена. Мы также рассмотрим технические аспекты Word2Vec, чтобы лучше понять.
Анализ ответов на опрос
Word2Vec можно использовать для получения действенных показателей из тысяч отзывов клиентов. У компаний нет времени и инструментов, чтобы анализировать ответы на опросы и действовать в соответствии с ними. Это приводит к потере рентабельности инвестиций и стоимости бренда.
В таких случаях неоценимы вложения слов. Векторное представление слов, обученных (или адаптированных) к наборам данных опроса, может помочь встроить сложную взаимосвязь между проверяемыми ответами и конкретным контекстом, в котором был дан ответ. Алгоритмы машинного обучения могут использовать эту информацию для выявления важных идей для вашего бизнеса / продукта.
Оцените SmartReader, простой инструмент на базе Excel от ParallelDots, который автоматизирует анализ ответов на опрос и может использоваться кем угодно.
Анализ дословных комментариев
Машинное обучение с помощью встраивания слов значительно продвинулось в области анализа дословных комментариев. Такой анализ очень важен для клиентоориентированных предприятий.
Когда вы анализируете текстовые данные, важным вариантом использования является анализ дословных комментариев. В таких случаях перед специалистом по обработке данных стоит задача создать алгоритм, который сможет анализировать комментарии или отзывы клиентов.
Вложения слов, такие как Word2Vec, необходимы для таких задач машинного обучения. Векторное представление слов, обученных на комментариях и отзывах клиентов, может помочь наметить сложные отношения между различными дословными комментариями и анализируемыми отзывами. Вложения слов, такие как Word2Vec, также помогают определить конкретный контекст, в котором был сделан конкретный комментарий. Такие алгоритмы оказываются очень ценными для понимания покупателя или настроения клиентов по отношению к определенному бизнесу или социальному форуму.
Оцените SmartReader от ParallelDots, чтобы добиться прогресса в процессе автоматизации анализа комментариев Verbatim на вашем предприятии.
Система рекомендаций по музыке / видео
То, как мы воспринимаем контент, революционизировалось благодаря потоковым сервисам, доступным через Интернет. В прошлом рекомендации были направлены на то, чтобы предоставить вам контент для использования в будущем. Вместо этого современные потоковые платформы сосредоточены на том, чтобы рекомендовать контент, которым можно и будет наслаждаться в данный момент. Модели потоковой передачи предлагают новые методы поиска в форме персонализированного радио и рекомендованных списков воспроизведения. Основное внимание здесь уделяется созданию последовательностей композиций, которые соединяются. Чтобы повысить удобство работы пользователей, модель системы рекомендаций должна фиксировать не только то, какие песни схожих людей в целом интересуют, но также и то, какие песни слушают часто вместе в очень похожих контекстах.
В таких моделях используется Word2Vec. Алгоритм интерпретирует очередь прослушивания пользователя как предложение, где каждая песня рассматривается как слово в предложении. Когда модель Word2Vec обучается на таком наборе данных, мы имеем в виду, что каждая песня, которую пользователь слушал в прошлом, и песня, которую он слушает в настоящее время, каким-то образом принадлежат одному и тому же контексту. Word2Vec точно представляет каждую песню с помощью вектора координат, который отображает контекст, в котором воспроизводится песня или видео.
Для тех из вас, кто хочет вникнуть в технические аспекты работы Word2Vec, вот что думают по этому поводу штатные эксперты ParallelDots.
Технический аспект встраивания слов
Распространенной практикой в НЛП является использование предварительно обученных векторных представлений слов, также известных как встраивание, для всех видов последующих задач. Интуитивно эти вложения слов представляют собой неявные отношения между словами, которые полезны при обучении на данных, которым может быть полезна контекстная информация.
Рассмотрим пример модели скип-грамм Word2Vec Миколова и др. - один из двух самых популярных методов обучения внедрению слов (второй - GloVe). Авторы ставят проблему рассуждений по аналогии, которая, по сути, требует задать вопрос: «Германия для Берлина, как Франция для ___?». Когда вы рассматриваете каждое из этих слов как вектор, ответ на данную проблему просто дается формулой
vec («Берлин») - vec («Германия») = x - vec («Франция»)
То есть расстояние между наборами векторов должно быть одинаковым. Следовательно,
x = vec («Берлин») - vec («Германия») + vec («Франция»)
При правильном изучении векторных представлений искомое слово задается вектором, ближайшим к полученной точке. Другим следствием этого является то, что слова со схожими семантическими и / или синтаксическими значениями будут группироваться вместе.
МОНТАЖ
Хотя наборы данных общего назначения часто выигрывают от использования этих предварительно обученных встраиваний слов, представления не всегда могут хорошо переноситься в специализированные области. Это потому, что вложения были обучены на массивном текстовом корпусе, созданном из Википедии и подобных источников.
Например, слово «питон» означает что-то еще в повседневном контексте, но в контексте компьютерного программирования оно означает нечто совершенно иное. Эти различия становятся еще более актуальными, когда вы строите модели для анализа критически важных данных, таких как медицинские и юридические заметки.
Одно из решений - просто обучить модели GloVe или skip-gram на наборах данных для конкретной предметной области, но во многих случаях достаточно большие наборы данных не всегда доступны для получения практически релевантных / значимых представлений.
Цель модернизации - взять готовые предварительно обученные векторы слов и адаптировать их к данным вашей новой предметной области. Полученные в результате представления слов, возможно, более зависимы от контекста, чем предварительно обученные вложения слов.
Читайте оригинальный блог здесь.