WedX - журнал о программировании и компьютерных науках

Как сканировать ссылки с помощью scrapy только из определенной категории и игнорировать ссылки на странице продукта?

Я хочу сканировать продукты из категории, но я не хочу, чтобы паук переходил по ссылкам, найденным на самой странице продукта (сопутствующие товары относятся к одному и тому же бренду, но разного типа - например, продукт, который я хочу, это духи, и это имеет в качестве связанного продукта губную помаду).

URL-адрес категории — site.com/category_name/, а URL-адрес продукта — site.com/brand_name/product-name-here/. Как определить правила сканирования?


  • Итак, вы пытались решить эту проблему самостоятельно и столкнулись с проблемой? Можете ли вы показать код? 16.01.2015
  • Я только начинаю работать со scrapy, у меня нет опыта работы с python, и я изо всех сил пытаюсь начать работу. Я разместил вопрос в основном для того, чтобы узнать правильный путь, по которому я должен идти, потому что у меня не так много времени, чтобы заставить его работать. Я уверен, что это довольно просто, что я хочу сделать, но мне нужно некоторое руководство, чтобы начать 16.01.2015

Ответы:


1

Вы можете использовать правила для определения такого поведения.

Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)),
callback='your_callback', follow=False)

Это будет сканировать страницы категорий с вашим обратным вызовом, которые будут переходить по ссылкам на страницы продуктов и ничего оттуда. Вам просто нужен какой-то шаблон для определения части URL-адреса категории.

17.01.2015
Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]