Как очистить сайт электронной коммерции и справиться с нумерацией страниц с помощью BeautifulSoup

Руководство по очистке веб-сайта электронной коммерции и работе с нумерацией страниц с помощью BeautifulSoup.

BeautifulSoup — отличный инструмент библиотеки Python для извлечения данных из файлов HTML и XML. Для парсинга веб-страниц вам необходимо иметь некоторые базовые знания о селекторах HTML и CSS. Для получения дополнительной информации перейдите по ссылке ниже:

Справочник по HTML
W3Schools предлагает бесплатные онлайн-руководства, справочные материалы и упражнения на всех основных языках Интернета. Покрытие…www.w3schools.com

Начало работы

для начала убедитесь, что в вашей системе установлена версия Python3+ и BeautifulSoup
, а затем просто введите эту команду в своем терминале:

pip install beautifulsoup4

Проверим веб-сайт

В этом случае мы будем парсить веб-сайт электронной коммерции под названием: https://cruisemaster.com.au/shop/.

Во-первых, мы собираемся проверить элемент, щелкнув правой кнопкой мыши на странице и выбрав проверку элемента:

Как видите, HTML-тег ‹li class=product› — это тот тег, который мы ищем, теперь у нас есть все, что нам нужно, так что давайте кодировать.

Во-первых, нам нужно импортировать HTTP-библиотеку запроса из Python и BeautifulSoup.

from bs4 import BeautifulSoup
import requests

Затем мы создаем переменную с именем isHaveNextPage и переменную с именем page,
переменную, которая позже пригодится для разбиения на страницы.

isHaveNextPage=True
page=1

Запрос HTTP

Далее мы собираемся получить URL-адрес и страницу и преобразовать их в lxml:

r=requests.get(f"https://cruisemaster.com.au/shop/?sort=featured&page={page}").text
soup=BeautifulSoup(r,"lxml")

И выбираем тег HTML, который у нас есть:

product=soup.find_all("li",class_="product")

Поскольку мы используем метод find_all, чтобы получить все элементы «li» с классом product в массиве, нам нужно зациклить все массивы в переменной «product».

for data in product:

И получите элементы внутри данных и получите заголовок, цену и рейтинг, а затем распечатайте данные.

for data in product:
 print(“title:”,data.find(“h4”,class_=”card-title”).find(“a”).text)
 print(“price:”,data.find(“span”,class_=”price”).text)
 print(“rating:”,len(data.find_all(“span”,class_=”icon —       ratingFull”)))

Затем находим следующий элемент кнопки Pagination.

На последней странице элемент кнопки следующей страницы исчезнет,
поэтому давайте создадим условие в коде, если следующей страницы нет, тогда установим для переменной isHaveNextPage значение false. На следующей странице мы меняем переменную page плюс 1:

if soup.find(“li”,class_=’pagination-item — next’) is None:
 isHaveNextPage=False
page+=1

Затем мы зацикливаем весь код до последней страницы, используя цикл while:

И запускаем все скрипты в терминале командой python3 yourfile.py и результат будет такой:

Весь код:

видео запуска приложения:

Спасибо за прочтение. Удачного скрейпинга!

наймите меня на upwork или fiverr

Дальнейшее чтение

Победите своих конкурентов с помощью парсинга веб-страниц: почему так важен выбор правильного инструмента
Как на самом деле использовать сильные стороны парсинга веб-страниц для вашего бизнеса электронной коммерции с помощью Bright Data… javascript.plainenglish.io

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning