1. Идентификатор объекта: основанная на анализе естественного текста платформа для извлечения отношений сущностей (arXiv)

Автор: Эль Мехди Чоухам, Джессика Лопес Эспехель, Махаман Санусси Яхая Алассан, Валид Дахане, Эль Хассан Эттифури.

Аннотация: В области программирования существует множество парадигм, которые используются в соответствии с рабочей структурой. Хотя современные методы генерации нейронного кода способны обучаться и генерировать код непосредственно из текста, мы считаем, что этот подход не оптимален для определенных задач кода, в частности для создания классов в объектно-ориентированном проекте. В частности, мы используем методы обработки естественного языка для извлечения структурированной информации из описаний требований, чтобы автоматизировать создание кода класса CRUD (создание, чтение, обновление, удаление). Чтобы облегчить этот процесс, мы вводим конвейер для извлечения информации о сущностях и отношениях, а также представление, называемое «Деревом сущностей», для моделирования этой информации. Мы также создаем набор данных для оценки эффективности нашего подхода.

2. HistRED: исторический набор данных извлечения отношений на уровне документа (arXiv)

Автор: Соён Ян, Минсок Чой, Ёнву Чо, Джэгул Чу.

Аннотация: Несмотря на широкое применение задач извлечения отношений (RE) в различных областях, мало что было изучено в историческом контексте, который содержит многообещающие данные за сотни и тысячи лет. Чтобы продвигать исторические исследования RE, мы представляем HistRED, созданный из Yeonhaengnok. Yeonhaengnok представляет собой сборник записей, первоначально написанных на ханджа, классической китайской письменности, которая позже была переведена на корейский язык. HistRED предоставляет двуязычные аннотации, так что RE можно выполнять с текстами на корейском языке и ханджа. Кроме того, HistRED поддерживает различные автономные подтексты разной длины, от уровня предложения до уровня документа, поддерживая различные настройки контекста, чтобы исследователи могли оценить надежность своих моделей RE. Чтобы продемонстрировать полезность нашего набора данных, мы предлагаем двуязычную модель RE, которая использует контексты корейского и ханджа для прогнозирования отношений между объектами. Наша модель превосходит одноязычные базовые показатели HistRED, показывая, что использование нескольких языковых контекстов дополняет прогнозы RE. Набор данных общедоступен по адресу: https://huggingface.co/datasets/Soyoung/HistRED в соответствии с лицензиями CC BY-NC-ND 4.0.