Применение обработки естественного языка в патентных пространствах

Вы прогнозируете цены на акции, запуск новых продуктов или ниши на рынке труда? Патенты содержат текст, который может помочь понять, что, как и куда новые идеи будут двигать рынки в будущем. В этом посте рассматриваются прикладные исследования приложений обработки естественного языка (NLP) в патентной области. Чтобы получить более подробную информацию о патентах как данных, Всемирная организация интеллектуальной собственности (ВОИС), глобальный орган управления патентами, является хорошим местом для поиска ресурсов по патентной аналитике, операционным инициативам в области ИИ и наборам данных. Если вы предпочитаете примеры анализа рынка технологических компаний с использованием патентных данных, я предпочитаю читать отчеты CB Insights.

Зачем заботиться об обработке патентного языка?

Почему я копаюсь в патентных записях с помощью НЛП? Недавно я начал изучать инструменты НЛП и экспериментировать с ними, а патентные заявки представляют собой тип сложного технического языка, который машины хорошо обрабатывают. У меня есть некоторый предыдущий опыт анализа патентных данных - об изобретателях и местонахождении - в рамках докторской степени. исследование инноваций в области климатических технологий, которое я завершил в 2016 году. По мере того, как я переходил из академического сообщества в технологическое пространство, у меня также была возможность получить данные о патентных заявках для прогнозирования качества начинающих фирм. Сейчас я изучаю новые инструменты вычислительной обработки для масштабного использования неструктурированных патентных данных в проектах машинного обучения, а чтение прикладных исследований - это способ организовать мою мысленную модель вариантов использования НЛП в патентном пространстве. Вот что я обнаружил при первом погружении, организованном по четырем измерениям.

Предварительная обработка данных

Необработанные патентные записи часто требуют обработки перед вводом в рабочий процесс машинного обучения. Различия в соглашениях о процессах генерации данных между национальными патентными агентствами и со временем приводят к возникновению шума, и требуется очистка, чтобы использовать патентные тексты в качестве чистых, сопоставимых единиц анализа. Распространенной проблемой является определение имен и отображение правильных сущностей - изобретателей, компаний, тем, местоположений - содержащихся в метаданных патентов. Хотя распознавание именованных сущностей, метод НЛП, возможно, может быть конечной целью рабочего процесса, часто требуется значительная очистка для уточнения уникальных имен и местоположений для реализации аналитических целей более высокого уровня. Алгоритмы и методы устранения неоднозначности, такие как, например, кластеризация k-средних, могут помочь организовать именованные сущности в патентных данных - людей, места и предприятия - до использования патентных записей в качестве входных данных для методов НЛП.

Представление данных

Введение патентных текстов в качестве входных данных для более высоких уровней анализа НЛП влечет за собой выбор способа представления длинных предложений, тематической лексики и сложного синтаксиса, которые типичны для этой области .² Использование готовых языковых моделей НЛП, которые являются обученный очень большому количеству текстов из новостных статей и веб-источников, следует подвергнуть критической оценке, прежде чем применять сложный язык в корпусах патентов, термин НЛП для сборников текстов. В качестве прагматической тактики некоторые использовали краудсорсинг - поддержку «человека в цикле» - для адаптации готовых языковых моделей для использования с патентными корпусами. 3 Тем не менее, исследовательские усилия часто включают начальную низкоуровневую обработку больших патентные корпуса.

Одна группа исследователей обработала методом перебора всех слов из корпуса из 5,3 миллиона описаний патентов, чтобы разработать зависящее от предметной области векторное представление слов, взвешенных по показателям TF-IDF, которые выражают слово важность патента по сравнению с другими патентами в коллекции. Другие предполагают, что включение n-грамм, техники для представления слова с использованием смежных элементов из строки слов, помогает повысить точность задач классификации патентов. Один Группа исследователей сравнивает три разные группы методов векторизации патентов, включая модели векторного пространства с использованием TF-IDF, тематические модели с использованием скрытого семантического индексирования (LSI) и нейронные модели с использованием Document-to-Vector (D2V), которые расширяют встраивание слов word2vec Результаты показывают, что усовершенствованные методы показали лишь ограниченное повышение производительности по сравнению с подходом TF-IDF, измеренное с помощью метрики косинусного сходства.

Моделирование семантического сходства

Текстовые меры семантического сходства, основанные на представлениях данных, о которых говорилось в предыдущем абзаце, также могут формировать семантическую основу для разработки функций прокси-динамики рынка, стратегии компании и специализации технологий на основе местоположения в рамках рабочих процессов машинного обучения. Подходы к тематическому моделированию. такие как скрытое распределение Дирихле (LDA) и подход LSI, описанный выше, могут помочь смоделировать семантику, значение идей, содержащихся в заявке на патент. Показатели семантического сходства между патентными текстами могут также представлять альтернативные «меры расстояния» между технологическими пространствами, имеющими отношение к динамике конкуренции в рыночных категориях или между ними. Чтобы измерить технологическое сходство, некоторые авторы используют косинусное сходство между каждыми двумя патентами в корпусе патентов. Другие текстовые меры сходства между патентами также используют сходство Жаккара, чтобы выделить отдельную линзу из классификационных таксономий национальных патентных агентств. Что касается технологического сходства, исследователи также работают над использованием патентов для измерения и прогнозирования других релевантных для рынка концепций, таких как качество патентных идей.

Прогнозирование качества

Целью более высокого уровня рабочего процесса машинного обучения с использованием NLP может быть разработка показателей качества, новизны или стоимости патентов для прогнозирования движущих сил преобразований в технологическом пространстве или преобразования в коммерческие продукты. Текстовые идеи из патентов могут отражать множество аспектов качества основной идеи или идей. Например, некоторые исследователи разрабатывают критерий качества патента, который они называют «первым словом», чтобы измерить новизну идеи в патенте на основе первого появления ключевого слова патента по сравнению с аналогичным корпусом патентов. Прогностические меры могут дополняют другие показатели качества, такие как количество патентов и цитирований, которые распространены в отраслях академических исследований. Дальнейшие исследования этих семантических подходов могут послужить дальнейшему совершенствованию и проблематизации существующих в литературе показателей качества патентов.

Это быстрое погружение в пересечение НЛП и патентов, ориентированных на рынок, начинает охватывать появляющееся пространство прикладных исследований с использованием патентов. Рассмотренные статьи подчеркивают, в какой степени первоначальная обработка и представление корпусов патентов требует времени и внимания исследователей. По мере преодоления этих проблем появляется потенциал для продолжения в будущем разработки инструментов и методов, которые применяют решения НЛП к патентным пространствам, как это предлагается в планах развития искусственного интеллекта и глубокого обучения, разработанных заинтересованными сторонами в этих секторах. новые технологии, формирование стратегических технологических планов или отображение технологических горячих точек, возможно, в вашем проекте есть место для семантических функций с использованием патентных данных.

Статьи, упомянутые в этом сообщении:

¹ Бальсмайер, Бенджамин; Ассаф, Мохамад; Чезебро, Тайлер; и другие. 2018. Машинное обучение и обработка естественного языка в корпусе патентов: данные, инструменты и новые меры. Журнал экономики и стратегии управления, 27 (3): 535–553. Https://doi.org/10.1111/jems.12259

² Верберн, Сьюзан; Д'Хонд, Ева; и Остдейк, Неллеке. 2010. Количественная оценка проблем при анализе патентных притязаний. На 1-м международном семинаре по достижениям в поиске патентной информации (AsPIRe 2010). Https://repository.ubn.ru.nl/bitstream/handle/2066/84168/84168.pdf

³ Ху, Менгке; Цинцирук, Дэвид; Макларен Уолш. 2016. Улучшение автоматизированного анализа патентных заявок: набор данных, система и эксперименты. Ассоциация компьютерной лингвистики. Arxiv: https://arxiv.org/abs/1605.01744

⁴ Юнг, Кеннет и Кун, Джеффри. 2016. Патентное сходство: модель векторного пространства. SSRN: https://dx.doi.org/10.2139/ssrn.2709238

⁵ D’hondt, Eva; Верберн, Сюзан; Костер, Корнелис; Бовс, Лу. 2013. Текстовые представления для патентной классификации. Компьютерная лингвистика. 39, 3: 755–775. Https://doi.org/10.1162/COLI_a_00149

⁶ Шахмирзади, Омид; Луговски, Адам; и Юнг, Кеннет. 2018. Сходство текста в моделях векторных пространств: сравнительное исследование. Arxiv: https://arxiv.org/abs/1810.00664

⁷ Аристодомеу, Леонид; Титце, Франк. 2018. Современное состояние аналитики интеллектуальной собственности (IPA): обзор литературы по искусственному интеллекту, машинному обучению и методам глубокого обучения для анализа данных интеллектуальной собственности (IP). Мировая патентная информация. 55: 37–51. Https://doi.org/10.1016/j.wpi.2018.07.002

⁸ Искусство, Сэм; Кассиман, Бруно; Гомес, Хуан Карлос. 2018. Сопоставление текста для измерения патентного сходства. Журнал стратегического управления. 39, 1: 62–84. Https://doi.org/10.1002/smj.2699.

⁹ Кун, Джеффри; Юнг, Кеннет; Марко, Алан. 2019. Пересмотр патентных цитат. SSRN: https://dx.doi.org/10.2139/ssrn.2714954