WedX - журнал о программировании и компьютерных науках

регулярное выражение для устранения поля в файле bibtex

Я пытаюсь уменьшить текстовые файлы bib, которые я получаю от моего менеджера ссылок, потому что он оставляет лишние поля, которые в конечном итоге искажаются, когда я помещаю их в LaTeX.

Характерная запись, которую я хочу очистить:

@Article{Kholmurodov:2001p113,
author = {K Kholmurodov and I Puzynin and W Smith and K Yasuoka and T Ebisuzaki}, 
journal = {Computer Physics Communications},
title = {MD simulation of cluster-surface impacts for metallic phases: soft landing, droplet spreading and implantation},
abstract = {Lots of text here.  Even more text.},
affiliation = {RIKEN, Inst Phys {\&} Chem Res, Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},
number = {1},
pages = {1--16},
volume = {141},
year = {2001},
month = {Dec},
language = {English},
keywords = {Ethane, molecular dynamics, Clusters, Dl_Poly Code, solid surface, metal, Hydrocarbon Thin-Films, Adsorption, impact, Impact Processes, solid surface, Molecular Dynamics Simulation, Large Systems, DL_POLY, Beam Deposition, Package, Collision-Induced Desorption, Diamond Films, Vapor-Deposition, Transition-Metals, Molecular-Dynamics Simulation}, 
date-added = {2008-06-27 08:58:25 -0500},
date-modified = {2009-03-24 15:40:27 -0500},
pmid = {000172275000001},
local-url = {file://localhost/User/user/Papers/2001/Kholmurodov/Kholmurodov-MD%20simulation%20of%20cluster-surface%20impacts-2001.pdf},
uri = {papers://B08E511A-2FA9-45A0-8612-FA821DF82090/Paper/p113},
read = {Yes},
rating = {0}
}

Я хотел бы исключить такие поля, как месяц, аннотация, ключевые слова и т. д., некоторые из которых представляют собой отдельные строки, а некоторые — несколько строк.

Я попробовал это в Python и вот так:

fOpen = open(f,'r')
start_text = fOpen.read()
fOpen.close()

# regex
out_text = re.sub(r'^(month).*,\n','',start_text)
out_text = re.sub(r'^(annote)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(note)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(abstract)((.|\n)*?)\},\n','',out_text)

fNew = open(f,'w')
fNew.write(out_text)
fNew.close()

Я попытался запустить эти регулярные выражения в TextMate, чтобы увидеть, работают ли они, прежде чем попробовать их в Python, и они, похоже, в порядке.

Какие-либо предложения?

Спасибо.

24.08.2010

Ответы:


1

Как насчет этого регулярного выражения (применяется с многострочными и точечными флагами):

^(?:month|annote|note|abstract)\s*=\s*\{(?:(?!\},$).)*\},[\r\n]+

Объяснение:

^                             # start-of-line
(?:                           # non-capturing group 1
  month|annote|note|abstract  #   one of these terms
)                             # end non-capturing group 1
\s*=\s*                       # whitespace, an equals sign, whitespace
\{                            # a literal curly brace
(?:                           # non-capturing group 2
  (?!                         #   negative look-ahead (if not followed by...)
    \},$                      #     a curly brace, a comma and the end-of-line
  )                           #   end negative look-ahead
  .                           #   ...then match next character, whatever it is
)*                            # end non-capturing group 2, repeat
\},                           # a literal curly brace and a comma
[\r\n]+                       # at least one end-of-line character

Это единственное выражение сортирует все затронутые строки за один шаг.


РЕДАКТИРОВАНИЕ / ПРЕДУПРЕЖДЕНИЕ. Обратите внимание, что это не будет сбоем, как только произойдет следующее:

affiliation = {RIKEN, Inst Phys {\&},
Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},

Вложенные структуры не могут обрабатываться регулярными выражениями. Никакое чистое регулярное выражение не может быть правильным во всех случаях в этом контексте, лучшее, что вы можете получить, - это хорошее приближение.

Вопрос в том, уверены ли вы на 100%, что ситуация, описанная выше, не может произойти (и я не думаю, что вы можете быть), или если вы готовы пойти на риск. Если вы не совсем уверены, что это не проблема - используйте или напишите парсер.

24.08.2010
  • Да, спасибо. Я думаю, что это делает работу. И спасибо за предупреждение. К счастью, в этом случае я не думаю, что должен столкнуться с какими-либо экземплярами, которые приводят к сбою регулярного выражения, которое вы предлагаете. 24.08.2010
  • О, просто быстро для тех, кто увидит это позже. Чтобы использовать флаги multiline и dotall, как предлагается здесь, вам нужно сначала скомпилировать регулярное выражение. Итак: text_out = re.sub(re.compile(<regex>, re.DOTALL | re.MULTILINE), <replacement-txt>, original)) Обратите внимание, что для использования более одного флага вы соединяете их вместе с помощью оператора | или. 24.08.2010
  • @dltussier: Компиляция регулярного выражения также приведет к ускорению, например, при повторном использовании в цикле. Кстати, видеть, как пользователь в первый раз, который мгновенно понимает вопросы и форматирование комментариев, вызывает восхищение. :-) 25.08.2010
  • Новые материалы

    Объяснение документов 02: BERT
    BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

    Как проанализировать работу вашего классификатора?
    Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

    Работа с цепями Маркова, часть 4 (Машинное обучение)
    Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

    Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
    Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

    Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
    Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

    Учебные заметки: создание моего первого пакета Node.js
    Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

    Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
    Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..


    Для любых предложений по сайту: [email protected]