WedX - журнал о программировании и компьютерных науках

как искать определенную строку внутри слова

я имею:

  1. список, содержащий определенное количество кодов
list1 = ['A1', 'A2.1', 'A2.2','A2.3','A2.4','B1.1','B1.2','B1.3','B1.4','B1.5','B1.6','B1.7','B1.8a','B1.8b','B2.1','B2.2','B2.3','B2.4','B2.5','B2.6','B2.7','B2.8','B2.9','B2.10','B2.11','B2.12','B2.13','B2.14','B2.15','B2.16','B2.17','B2.18','B2.19','B2.20a','B2.20b','B2.20c'] 

(это часть всего списка) 2. и эта строка,

string1 = "A1Contributo pubblico1559.020• 559.020,00A2.2Cofinanziamentoprivato in denaro122.500• 22.500,00A2.4Entrate generate dalprogetto00• 0,00B2.20aLocali: locazioni eutenze00• 0,00B2.20bImmobili:ammortamenti00• 0,00B2.20cImmobili:manutenzioneordinaria00• 0,00B2.21Attrezzature: noleggi eleasing00• 0,00B2.22Attrezzature:manutenzioni ordinarie00• 0,00B2.23Attrezzature:ammortamenti00• 0,00B2.1Docenza (dipendenti ecollaboratori)00• 0,00B2.14Viaggi di studio deipartecipanti00• 0,00B2.18Materiali diconsumo/materialididattici00• 0,00E1.1UCS ora formazione5.94085• 504.900,00E1.2UCS allievo120403,5• 48.420,00E1.3Costi acofinanziamentoprivato150150• 22.500,00E1.4UCS ora/utente(individuale)15038• 5.700,00"

Я хочу проверить, содержатся ли элементы в списке1 в строке1 и их положение внутри строки.

Моя конечная цель - извлечь из строки относительную сумму для каждого кода, например, для кода "A1" -> 559.020,00, для кода "A2.2" -> 22.500,00 и так далее.

Сначала я попробовал с простым:

for code in list1:
    stringPosition = re.search(code, string1)

но с этим решением у меня проблема с такими кодами, как B2.2, B2.20, потому что я нахожу ту же позицию.

Поэтому я попытался понять, как искать точный код внутри строки. Я видел эти сообщения:

Как проверить наличие ТОЧНОЕ слово в строке в python

Соответствие точной фразе внутри строки в Python

Regex находит целую подстроку между скобками, содержащими точную подстроку

Как искать слово (точное совпадение) внутри строки?

и я попытался применить предложенные решения (например, используя r'\w' + (код) + r'\w'), но безуспешно.

моя первая попытка:

for code in list1:
    stringPosition = re.search(code, string1)
    if stringPosition != None:
        print(code, stringPosition)
        list2.append(stringPosition)

Заранее спасибо за любое предложение

19.05.2019

  • Что такое относительное положение, относительно чего? Также подходит ли вам string1.find(item) вариант? 19.05.2019
  • Зачем вам должность? Возможно, вам просто нужно получить пары кода со значением? 19.05.2019
  • @palvarez, потому что я новичок в python, поэтому я только что попытался найти решение, но ваш ответ идеально подходит для меня, я иду изучать ваше решение :-) 19.05.2019

Ответы:


1

Вы можете сделать это с помощью правильного регулярного выражения:

import re
MAGIC_REGEX = "([A-Z]\d+(?:.\d+[a-z]?)?)[^\•]+\• ([\d\.,]+)"
matches = re.findall(MAGIC_REGEX, string1)
print(matches)
filtered = list(filter(lambda x: x[0] in list1, matches))
print(filtered)
number_filtered = list(map(lambda x: (x[0], float(x[1].replace(".", "").replace(",", "."))), filtered))
print(number_filtered)

Поскольку я не был уверен, что именно вы хотите, я четко разделил три шага:

  • Сразу после сопоставления с регулярным выражением вы получаете то, что просили

    соответствует = [('A1', '559.020,00'), ('A2.2', '22.500,00'), ('A2.4', '0,00'), ('B2.20a', '0,00'), ('B2.20b', '0,00'), ('B2.20c', '0,00'), ('B2.21', '0,00'), ( 'B2.22', '0,00'), ('B2.23', '0,00'), ('B2.1', '0,00'), ('B2.14', '0 ,00'), ('B2.18', '0,00'), ('E1.1', '504.900,00'), ('E1.2', '48.420,00'), ('E1 .3', '22.500,00'), ('E1.4', '5.700,00')]

  • Отфильтровано, когда вы получаете только те коды, которые есть в вашем списке (обратите внимание, что разница в B2.21-23 и во всех кодах E, поскольку их нет в вашем списке)

    отфильтровано = [('A1', '559.020,00'), ('A2.2', '22.500,00'), ('A2.4', '0,00'), ('B2.20a', '0,00'), ('B2.20b', '0,00'), ('B2.20c', '0,00'), ('B2.1', '0,00'), ( 'B2.14', '0,00'), ('B2.18', '0,00')]

  • Преобразованные значения в плавающие, вам нужно удалить эту первую точку и изменить запятую на точку

    number_filtered = [('A1', 559020.0), ('A2.2', 22500.0), ('A2.4', 0.0), ('B2.20a', 0.0), ('B2.20b', 0.0) , ('B2.20c', 0,0), ('B2.1', 0,0), ('B2.14', 0,0), ('B2.18', 0,0)]

19.05.2019
Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]