Резюме исследования НЛП
В этом блоге я попытался резюмировать статью Сжатие нескольких предложений: поиск кратчайших путей в графах слов в соответствии с моим пониманием. Не стесняйтесь комментировать то же самое!
Постановка задачи
Сжатие предложений - это задача сжатия длинного предложения в более короткое путем удаления повторяющихся слов. В этой статье предлагается новый метод сжатия нескольких предложений без учителя, цель которого состоит в том, чтобы представить набор связанных предложений одним предложением таким образом, чтобы сохранялись важные части основного содержания. и в то же время грамматически правильный.
Один из возможных вариантов использования сжатия предложений (SC) находится в Извлеченном суммировании текста, где типичный поток состоит в ранжировании предложений на основе определенной стратегии оценки с последующим выбором первых k предложений в качестве репрезентативных. резюме. Здесь можно применить SC для объединения связанных и повторяющихся предложений для лучшего взаимодействия с пользователем. У меня есть краткое изложение одной из статей, в которой используется аналогичная техника для составления многодокументного резюмирования, вы можете проверить ее здесь.
Кроме того, предложенный в статье метод легко адаптируется к любому интересующему вас языку с помощью минималистичного набора инструментов. Единственное требование - наличие настраиваемого тега POS и списка запрещенных слов на желаемом языке.
Предлагаемый метод
Автор предлагает метод сжатия на основе графа, в котором идея состоит в том, чтобы представить слова из набора связанных предложений в виде узлов в графе, и связь между этими узлами определяется на основе соседнего расположения слов в предложении. Давайте пойдем дальше и рассмотрим точные шаги более подробно -
Графики слов
граф слов - это ориентированный граф, в котором ребро от слова A до слова B представлено отношением смежности между словами в предложении. Например - давайте рассмотрим 4 предложения, как показано ниже:
Жена бывшего президента США Билла Клинтона Хиллари Клинтон посетила Китай в минувший понедельник.
В прошлом месяце Хиллари Клинтон хотела посетить Китай, но на прошлой неделе отложила свои планы до понедельника.
В понедельник Хиллари Клинтон посетила Китайскую Народную Республику.
На прошлой неделе госсекретарь г-жа Клинтон посетила китайских официальных лиц.
Во-первых, мы добавляем к каждому предложению токены Начало и Конец. Идея состоит в том, чтобы отслеживать начальную и конечную позиции, так как это было бы полезно при выборке. кратчайшие пути.
После завершения форматирования данных первым шагом является отображение 1-го предложения в виде графа, где все слова являются узлами в графе с ребрами (направленными), установленными между соседними узлами. После этого, когда мы обрабатываем следующий набор предложений, выбор сопоставления любых повторяющихся узлов с существующими узлами или представления их как разных узлов вместе делается с учетом нижеупомянутых указателей:
- Слово считается дубликатом и сопоставляется с тем же узлом только в том случае, если оно имеет ту же строчную форму слова, ту же часть речи, а также без слова из этого предложения уже сопоставлен с существующим аналогичным узлом. Во всех остальных случаях вы создаете новый узел для этого слова.
Кроме того, существует 3 возможных типа узлов: Стоп-слова, однозначные слова (для которых на графике нет узлов-кандидатов) и двусмысленные слова. Мы уже обсудили, что вы будете делать в случае однозначных слов (пункт 1 выше), для игнорируемых слов и неоднозначных слов, когда возможно сопоставление более чем одного кандидата, мы проверяем непосредственный контекст (предыдущее и последующее слова в предложении и соседние узлы в графе) и выберите кандидата, который имеет большее перекрытие в контексте. Также, пока я не забыл, одна из определяемых ими схем весовых коэффициентов - это количество слов одновременно. После выполнения всех шагов у вас будет график, похожий на рис. 1.
Кратчайший путь как сжатие
Автор представляет кратчайший путь определенной предопределенной длины по графам слов как вероятную последовательность слов, представляющую сжатую информацию или сводку. Основная идея здесь - пройти по узлам графа, которые представляют наиболее важные концепции. Следовательно, чтобы удовлетворить этим ограничениям, они инвертируют веса ребер (потому что, если количество совпадений велико, то инверсия этого значения будет низким, что делает его пригодным для запуска алгоритмов кратчайшего пути) и поиск кратчайшего пути от токена «Начало» до токена «Конец».
Окончательная оценка пути устанавливается как сумма всех весов ребер для определенного пути. После того, как все пути будут оценены, мы фильтруем и получаем топ-k путей и выбираем только те пути, которые длиной не менее 8 слов и содержат Verb . Опубликуйте этот фильтр, путь с минимальным общим весом будет выбран в качестве окончательной сводки.
Так что да, это общая идея статьи. Хотя в статье также говорится о других стратегиях веса ребер. Я рекомендую вам прочитать этот раздел, если вам интересно.
При желании вы также можете просмотреть резюме других исследовательских работ, которые я написал.
Не стесняйтесь читать всю статью и говорить «Привет» авторам и ценить их вклад.
Название статьи: Сжатие нескольких предложений: поиск кратчайших путей в графах Word
Ссылка на бумагу: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.310.3490&rep=rep1&type=pdf
Авторы: Катя Филиппова
Кроме того, если вам понравилось читать эту статью, вы можете выбрать купить мне чай на https://www.buymeacoffee.com/TechvizCoffee - потому что я не собственно кофе пью :) Большое спасибо! Это совершенно необязательно и добровольно :)