регулярное выражение для устранения поля в файле bibtex

Я пытаюсь уменьшить текстовые файлы bib, которые я получаю от моего менеджера ссылок, потому что он оставляет лишние поля, которые в конечном итоге искажаются, когда я помещаю их в LaTeX.

Характерная запись, которую я хочу очистить:

@Article{Kholmurodov:2001p113,
author = {K Kholmurodov and I Puzynin and W Smith and K Yasuoka and T Ebisuzaki}, 
journal = {Computer Physics Communications},
title = {MD simulation of cluster-surface impacts for metallic phases: soft landing, droplet spreading and implantation},
abstract = {Lots of text here.  Even more text.},
affiliation = {RIKEN, Inst Phys {\&} Chem Res, Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},
number = {1},
pages = {1--16},
volume = {141},
year = {2001},
month = {Dec},
language = {English},
keywords = {Ethane, molecular dynamics, Clusters, Dl_Poly Code, solid surface, metal, Hydrocarbon Thin-Films, Adsorption, impact, Impact Processes, solid surface, Molecular Dynamics Simulation, Large Systems, DL_POLY, Beam Deposition, Package, Collision-Induced Desorption, Diamond Films, Vapor-Deposition, Transition-Metals, Molecular-Dynamics Simulation}, 
date-added = {2008-06-27 08:58:25 -0500},
date-modified = {2009-03-24 15:40:27 -0500},
pmid = {000172275000001},
local-url = {file://localhost/User/user/Papers/2001/Kholmurodov/Kholmurodov-MD%20simulation%20of%20cluster-surface%20impacts-2001.pdf},
uri = {papers://B08E511A-2FA9-45A0-8612-FA821DF82090/Paper/p113},
read = {Yes},
rating = {0}
}

Я хотел бы исключить такие поля, как месяц, аннотация, ключевые слова и т. д., некоторые из которых представляют собой отдельные строки, а некоторые — несколько строк.

Я попробовал это в Python и вот так:

fOpen = open(f,'r')
start_text = fOpen.read()
fOpen.close()

# regex
out_text = re.sub(r'^(month).*,\n','',start_text)
out_text = re.sub(r'^(annote)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(note)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(abstract)((.|\n)*?)\},\n','',out_text)

fNew = open(f,'w')
fNew.write(out_text)
fNew.close()

Я попытался запустить эти регулярные выражения в TextMate, чтобы увидеть, работают ли они, прежде чем попробовать их в Python, и они, похоже, в порядке.

Какие-либо предложения?

Спасибо.

24.08.2010

Ответы:

Как насчет этого регулярного выражения (применяется с многострочными и точечными флагами):

^(?:month|annote|note|abstract)\s*=\s*\{(?:(?!\},$).)*\},[\r\n]+

Объяснение:

^                             # start-of-line
(?:                           # non-capturing group 1
  month|annote|note|abstract  #   one of these terms
)                             # end non-capturing group 1
\s*=\s*                       # whitespace, an equals sign, whitespace
\{                            # a literal curly brace
(?:                           # non-capturing group 2
  (?!                         #   negative look-ahead (if not followed by...)
    \},$                      #     a curly brace, a comma and the end-of-line
  )                           #   end negative look-ahead
  .                           #   ...then match next character, whatever it is
)*                            # end non-capturing group 2, repeat
\},                           # a literal curly brace and a comma
[\r\n]+                       # at least one end-of-line character

Это единственное выражение сортирует все затронутые строки за один шаг.

РЕДАКТИРОВАНИЕ / ПРЕДУПРЕЖДЕНИЕ. Обратите внимание, что это не будет сбоем, как только произойдет следующее:

affiliation = {RIKEN, Inst Phys {\&},
Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},

Вложенные структуры не могут обрабатываться регулярными выражениями. Никакое чистое регулярное выражение не может быть правильным во всех случаях в этом контексте, лучшее, что вы можете получить, - это хорошее приближение.

Вопрос в том, уверены ли вы на 100%, что ситуация, описанная выше, не может произойти (и я не думаю, что вы можете быть), или если вы готовы пойти на риск. Если вы не совсем уверены, что это не проблема - используйте или напишите парсер.

24.08.2010

Да, спасибо. Я думаю, что это делает работу. И спасибо за предупреждение. К счастью, в этом случае я не думаю, что должен столкнуться с какими-либо экземплярами, которые приводят к сбою регулярного выражения, которое вы предлагаете. 24.08.2010

О, просто быстро для тех, кто увидит это позже. Чтобы использовать флаги multiline и dotall, как предлагается здесь, вам нужно сначала скомпилировать регулярное выражение. Итак: text_out = re.sub(re.compile(<regex>, re.DOTALL | re.MULTILINE), <replacement-txt>, original)) Обратите внимание, что для использования более одного флага вы соединяете их вместе с помощью оператора | или. 24.08.2010

@dltussier: Компиляция регулярного выражения также приведет к ускорению, например, при повторном использовании в цикле. Кстати, видеть, как пользователь в первый раз, который мгновенно понимает вопросы и форматирование комментариев, вызывает восхищение. :-) 25.08.2010

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning