Scrapy — это платформа с открытым исходным кодом для веб-сканирования и веб-скрейпинга, которая используется для сканирования веб-сайтов и извлечения структурированных данных с их страниц. Помимо интеллектуального анализа данных, его также можно использовать для мониторинга и автоматизированного тестирования.
Scrapy — это метод извлечения данных с разных веб-сайтов. Scrapy помогает собирать данные с разных сайтов в формате CSV и JSON. Используя Scrapy, мы создаем собственный набор данных. Scrapy — это инструмент, который помогает при очистке данных или просмотре веб-страниц. Очистка данных и очистка веб-страниц — это одно и то же.
На ум приходит вопрос: почему скрэпи, а не красивый суп?
Scrappy очищает любые данные, такие как текст, аудио, видео и электронные письма, и помогает удалять большие объемы данных. Причина, по которой мы не используем красивый суп, заключается в том, что он может извлекать данные только для простых веб-страниц HTML. Он не подходит для больших и сложных проектов. Он основан на библиотеке запросов Python.
Если вы хотите установить библиотеку Scrapy в нашей системе, нам нужно посетить веб-сайт Scrapy, ссылка https://scrapy.org/, а ссылка Github — https://github.com/scrapy/scrapy. .
Я не собираюсь рассказывать вам, как установить Scrapy, потому что, если вы зайдете на сайт Scrapy, вы получите всю информацию об установке.
После установки библиотеки Scrapy, если мы хотим проверить, какая версия Scrapy установлена в среде python, мы должны использовать запись в cmd «Scrapy».
Мы также можем проверить нашу среду Python, просто написав «python» в cmd. После этого мы должны нажать кнопку Enter, а затем мы написали «import Scrapy».
Если ошибки не возникло, это означает, что библиотека Scrapy была успешно установлена.
Давайте обсудим, каковы компоненты Scrapy.
Компоненты Scrapy
1] Пауки
a] Скрейпинг
b] Ползающий паук
c] XML Feed Spider
d]Паутина фидов CSV
e] Паук Sitemap
2] Конвейеры
3] Промежуточное ПО
4] Движок
5] Планировщик
Всего существует пять основных компонентов, которые работали в бэкэнде для сбора данных, предварительной обработки данных и хранения данных.
1] Пауки:Пауки несут ответственность за то, что вы хотите извлечь с веб-страницы. Какие данные хотите извлечь с сайта.
2] Конвейеры: конвейеры отвечают за обработку данных. Например, очистка данных, удаление дублирования и сохранение данных в базе данных. Так что без пайплайна мы не можем заниматься очисткой, удалением дубликатов и хранением данных.
3] ПО промежуточного слоя: ПО промежуточного слоя обрабатывает запросы или ответы от целевого веб-сайта.
4] Engine: Engine отвечает за координацию всех остальных компонентов и следит за тем, чтобы все шло по плану.
5] Планировщик: планировщик отвечает за сохранение порядка операций. Работа планировщика похожа на обработку запроса и ответа, но происходит ли это по порядку или нет, проверьте планировщик.
Команды парсинга
В этой части я расскажу вам о командах Scrapy. Мы увидим команды в библиотеке Scrapy. Мы должны открыть anaconda Prompt (Anaconda3) и написать Scrapy, после чего нажать Enter.
В нем мы увидим текущую версию Scrapy и активный проект в этой конкретной версии. Ниже указано Использование. Помощь в использовании, как мы можем использовать команду и параметры. После того, как мы увидим, что даны доступные команды. Эти команды являются наиболее часто используемыми командами в Scrapy.
Из приведенных выше команд я расскажу, как мы можем использовать эти команды одну за другой.
a] Bench: команды Bench помогают протестировать эталонный тест в нашей локальной системе. Бенчмарки означают локальное тестирование, что означает, что мы в основном проверяем, как это работает, какое промежуточное ПО работает, каково соотношение запросов и ответов и сколько страниц загружается в минуту. Это вся информация, которую мы получаем в команде Bench.
b] fetch: команда Fetch помогает получить URL-адрес с помощью загрузчика Scrapy.
c] genspider: команды genspider используются для создания нового паука.
d] runspider: какой бы новый паук мы не создали, для запуска этого паука мы используем runspider.
e] startproject: Позвольте мне сказать, что это самая важная команда, которую мы используем для создания нового проекта Scrapy.