- Исследование распознавания именованных объектов (NER) на людях в запросах рекомендаций по разговорной музыке (arXiv)
Автор : Елена В. Эпюре, Ромэн Эннекен
Аннотация: Мы провели исследование распознавания именованных сущностей на людях по зашумленному корпусу запросов на рекомендацию разговорной музыки со многими нерегулярными и новыми именованными сущностями. Мы оценили лингвистическое поведение человека в NER в этих сложных условиях и сравнили его с наиболее распространенными в настоящее время системами NER, точно настроенными преобразователями. Наша цель состояла в том, чтобы узнать о задаче, которая поможет разработать лучшие методы оценки и алгоритмы NER. Результаты показали, что NER в нашем контексте был довольно сложным как для человека, так и для алгоритмов при строгой схеме оценки; у людей была более высокая точность, в то время как модель лучше отзывалась из-за воздействия сущностей, особенно во время предварительного обучения; и типы сущностей имели разные шаблоны ошибок (например, частые опечатки для художников). Выпущенный корпус выходит за рамки предопределенных рамок взаимодействия и может поддерживать будущую работу по рекомендации разговорной музыки.
2. Немецкая модель BERT для распознавания юридических лиц (arXiv)
Автор: Харшил Даржи, Елена Митрович, Майкл Гранитцер.
Аннотация: Использование BERT, одной из самых популярных языковых моделей, привело к улучшению многих задач обработки естественного языка (NLP). Одной из таких задач является распознавание именованных объектов (NER), то есть автоматическая идентификация именованных объектов, таких как местоположение, человек, организация и т. д., из заданного текста. Это также важный базовый шаг для многих задач НЛП, таких как извлечение информации и анализ аргументации. Несмотря на то, что было проведено много исследований NER с использованием BERT и других популярных языковых моделей, то же самое подробно не изучается, когда речь идет о Legal NLP или Legal Tech. Legal NLP применяет различные методы NLP, такие как сходство предложений или NER, специально для юридических данных. Существует всего несколько моделей для задач NER с использованием языковых моделей BERT, однако ни одна из них не нацелена на юридические документы на немецком языке. В этой статье мы тонко настраиваем популярную языковую модель BERT, обученную на немецких данных (немецкий BERT), в наборе данных распознавания юридических лиц (LER). Чтобы убедиться, что наша модель не переоснащена, мы выполнили стратифицированную 10-кратную перекрестную проверку. Результаты, которые мы получаем путем тонкой настройки немецкого BERT на наборе данных LER, превосходят модель BiLSTM-CRF+, используемую авторами того же набора данных LER. Наконец, мы делаем модель общедоступной через HuggingFac.