Эффективный парсинг веб-страниц с помощью Scrapy

Новые возможности Scrapy для повышения эффективности очистки

Scrapy как фреймворк для парсинга веб-страниц является мощным и масштабируемым. Он имеет активную базу пользователей и новые функции, появляющиеся с каждым обновлением. В этой статье мы рассмотрим некоторые из этих функций, чтобы получить максимальную отдачу от ваших проектов парсинга.

В этой статье вы узнаете

Переход по ссылкам более эффективно
Более чистое извлечение атрибутов html
Более чистый перенос переменных между функциями в Scrapy
Использование свойства attribute для получения атрибутов html без селекторов xpath или css

1. Переход по ссылкам

Чтобы ваши пауки переходили по ссылкам, вот как это обычно делается

links = response.css("a.entry-link::attr(href)").extract()
for link in links:
    yield scrapy.Request(url=response.urljoin(link),  callback=self.parse_blog_post)

Теперь можно использовать метод запросов, но мы можем очистить это с помощью другого метода, называемого response.follow ().

links = response.css("a.entry-link")
for link in links:
    yield response.follow(link, callback=self.parse_blog_post)

Посмотрите, как нам не нужно извлекать ссылки или использовать urljoin, потому что response.follow принимает теги ‹a›. Response.follow () автоматически использует атрибуты href.

for link in response.css("a.entry-link"):
  yield response.follow(link, callback=self.parse_blog_post)

Фактически scrapy может обрабатывать несколько запросов с помощью метода follow_all (). Прелесть этого в том, что follow_all принимает css и xpath напрямую.

yield from response.follow_all(css='a.entry-link', allback=self.parse_blog_post)

2. Извлечение данных

Обычный способ извлечения данных из тегов - это extract() и extract_first(). Мы можем использовать методы get() и get_all(), которые выглядят немного чище.

Из

def parse_blog_post(self, response):
    yield {
        "title": response.css(".post-title::text").extract_first(),
        "author": response.css(".entry-author::text").extract_first(),
        "tags": response.css(".tag::text").extract(),
    }

def parse_blog_post(self, response):
    yield {
        "title": response.css(".post-title::text").get(),
        "author": response.css(".entry-author::text").get(),
        "tags": response.css(".tag::text").getall(),
    }

3. Использование атрибутов для выбора данных

Если вы не привыкли к селекторам xpath или css, Scrapy дает вам возможность захватывать атрибуты в виде словаря.

Из

>> response.css('a::attr(href)').getall()
['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

>> [a.attrib['href'] for a in response.css('a')]
['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

Используя attrib, вы можете получить атрибут HTML вместо использования xpath или css!

4. Передача данных из обратных вызовов

Часто, когда вы выполняете парсинг веб-страниц, вам необходимо передать информацию от одной функции к другой. Здесь вы обычно используете функцию response.meta.

def parse_blog_post(self, response):
   
    for link in links:
        yield scrapy.Request(
            link,
            meta={"author": author, "date": post_date},
            callback=self.parse_full_blog_post,
        )

def parse_full_blog_post(self, response):
    author = response.meta["author]
    post_date = response.meta["post_date]

Теперь мы можем использовать функцию follow_all () и новое ключевое слово с именем cb_kwargs, это позволяет нам передавать словарь значений, к которым мы затем можем получить доступ в функции обратного вызова.

def parse_blog_post(self, response):
    yield from response.follow_all(
        links,
        cb_kwargs={"author": author, "date": post_date},
        callback=self.parse_full_blog_post,
    )

def parse_full_blog_post(self, response, author, post_date):

Мы определяем переменные author и post_date в словаре и объявляем их в parse_full_blog_post. Намного чище!

Я надеюсь, что вы найдете эти советы полезными для получения максимальной отдачи от Scrapy Framework.

использованная литература

Https://stummjr.org/post/scrapy-in-2020/ - источник этой статьи и замечательная статья в блоге, подробно освещающая эти моменты!

Статьи по Теме

Подход к изучению Python
Как получить максимальную отдачу от изучения Python сегодня в сторонуdatascience.com

5 хитростей Python, которые вы должны знать
Как с легкостью сделать свой питон сверх базового medium.com

Scrapy: вот как легко успешно войти в систему
Демистификация процесса входа в систему с помощью Scrapy. кdatascience.com

Пожалуйста, загляните здесь для получения дополнительной информации о том, что я планирую в своем блоге и других сообщениях по проектам. Для получения дополнительной информации, связанной с технологиями / кодированием, подпишитесь на мою рассылку здесь

Буду благодарен за любые комментарии, или если вы хотите сотрудничать или вам нужна помощь с python, пожалуйста, свяжитесь со мной. Если вы хотите связаться со мной, пожалуйста, сделайте это здесь [email protected] или на twitter .

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning