WedX - журнал о программировании и компьютерных науках

Использование сопоставления регулярных выражений для предложений, не содержащих определенного слова

Попытка разработать регулярное выражение для извлечения предложений, не содержащих определенных слов. Для простоты я приведу простой пример:

Исходные данные: сагиттальные разведывательные изображения шейно-грудного отдела: многоуровневый спондилез легкой и средней степени тяжести. Перелом присутствует.

Желаемый результат: перелом присутствует.

Попытка №1

Регулярное выражение: [^.]*(?!cervi(c|x))[^.]*\.

Фактические выходные данные: сагиттальные разведывательные изображения шейно-грудного отдела: многоуровневый спондилез легкой и средней степени тяжести. Перелом присутствует.

Попытка №2:

Регулярное выражение: [^.]*[^(cervi(c|x))][^.]*\.

Фактические выходные данные: сагиттальные разведывательные изображения шейно-грудного отдела: многоуровневый спондилез легкой и средней степени тяжести. Перелом присутствует.

Можно проверить эти результаты в https://regexr.com/.

20.09.2020

Ответы:


1

Использовать

(?<![^.])\s*((?:(?!cervi[cx])[^.])*\.)

См. доказательство.

Пояснение

--------------------------------------------------------------------------------
  (?<!                     look behind to see if there is not:
--------------------------------------------------------------------------------
    [^.]                     any character except: '.'
--------------------------------------------------------------------------------
  )                        end of look-behind
--------------------------------------------------------------------------------
  \s*                      whitespace (\n, \r, \t, \f, and " ") (0 or
                           more times (matching the most amount
                           possible))
--------------------------------------------------------------------------------
  (                        group and capture to \1:
--------------------------------------------------------------------------------
    (?:                      group, but do not capture (0 or more
                             times (matching the most amount
                             possible)):
--------------------------------------------------------------------------------
      (?!                      look ahead to see if there is not:
--------------------------------------------------------------------------------
        cervi                    'cervi'
--------------------------------------------------------------------------------
        [cx]                     any character of: 'c', 'x'
--------------------------------------------------------------------------------
      )                        end of look-ahead
--------------------------------------------------------------------------------
      [^.]                     any character except: '.'
--------------------------------------------------------------------------------
    )*                       end of grouping
--------------------------------------------------------------------------------
    \.                       '.'
--------------------------------------------------------------------------------
  )                        end of \1
20.09.2020
  • это работает. но интересно, я новичок в использовании ?: с ?!, по логике вещей, если у вас уже есть группа, которую вы не хотите захватывать (например, (?:)), зачем все еще нужен просмотр вперед? Я экспериментировал с вашим выражением (?<![^.])\s*(?:cervi[cx][^.]*\.) и больше не нашел совпадений. Разве регулярное выражение не будет проверять следующий символ после пробела, чтобы убедиться, что его нет в этой группе? 21.09.2020
  • @chethanjjj Не захватывает не значит не потребляет. Поисковые операции предназначены для проверки наличия/отсутствия шаблона, в то время как индекс регулярного выражения остается там, где он был до попытки обходного шаблона. Ваш (?:cervi[cx][^.]*\.) такой же, как cervi[cx][^.]*\., просто соответствует cervi, затем c или x, затем любому символу, кроме точки ноль или более раз, а затем .. 22.09.2020
  • @chethanjjj Как и говорит Виктор. Предварительный просмотр необходим, так как [^.] должно быть ограничено тем, что ему соответствует, а (?:(?!cervi[cx])[^.])* соответствует любому символу, кроме точки, которая не является первым символом cervix или cervic. 22.09.2020
  • Новые материалы

    Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
    Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

    Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
    В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

    Объяснение документов 02: BERT
    BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

    Как проанализировать работу вашего классификатора?
    Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

    Работа с цепями Маркова, часть 4 (Машинное обучение)
    Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

    Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
    Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

    Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
    Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..


    Для любых предложений по сайту: wedx@cp9.ru