Проект распределенной системы веб-краулера

Дизайн веб-бота, используемый поисковыми системами

Оригинал статьи опубликован на сайте systemdesign.one автором NK. Вот некоторые из популярных распределенных поисковых роботов:

Google-бот
Бинг-бот
Апач Натч

Отказ от ответственности: некоторые из связанных ресурсов являются аффилированными.

Требования

Автоматический веб-сканер для сканирования файлов HTML в Интернете.
Поисковый робот распространяется
Поисковый робот должен начать сканирование с набора исходных веб-страниц.
Поисковый робот должен быть вежлив с веб-сайтами (соблюдать требования файла robots.txt).

Хранилище данных

Схема базы данных

Хранилище содержимого сохраняет идентификаторы документов и содержимое документа.
В хранилище исходных URL-адресов сохраняется список исходных URL-адресов.
В хранилище URL-адресов сохраняется список URL-адресов для сканирования и исходные URL-адреса.

Тип хранилища данных

Хранилище URL-адресов сохраняет извлеченный список URL-адресов в хранилище данных NoSQL, таком как HBase или HDFS.
Просканированный контент хранится в управляемом хранилище объектов, таком как AWS S3, или в хранилище данных NoSQL, таком как Apache HBase или Cassandra.
DNS сохраняет доменные имена и IP-адреса
Хранилище исходных URL-адресов сохраняет список исходных URL-адресов в хранилище данных NoSQL, таком как Cassandra или HDFS.
Очередь сообщений, такая как Apache Kafka, используется в качестве очереди недоставленных сообщений.
Кэш-сервер, такой как Redis, хранит свежие просканированные документы в памяти для более быстрой обработки.
Хранилище данных NoSQL, такое как Cassandra, или хранилище объектов, такое как AWS S3, хранит содержимое просканированных веб-страниц.
Apache Zookeeper используется для обнаружения сервисов.

Высокоуровневый дизайн

На высоком уровне веб-сканер многократно выполняет шаги 2 и 3.

Служба сборщика сканирует URL-адреса в хранилище исходных данных.
Извлеченные исходящие ссылки (URL) на просканированном веб-сайте хранятся в хранилище URL-адресов.
Служба сборщика сканирует URL-адреса в хранилище URL-адресов.
Краулер использует алгоритм BFS

Дополнительные учебные ресурсы по проектированию систем

Вы готовитесь к собеседованию по системному дизайну и чувствуете себя ошеломленным сложностью процесса? Вы хотите получить знания и уверенность, чтобы успешно пройти собеседование и продвинуться по карьерной лестнице в области разработки программного обеспечения? Тогда вам обязательно нужно пройти курс Собеседование по системному дизайну от DesignGurus!

Этот всеобъемлющий курс разработан, чтобы помочь вам освоить процесс собеседования по проектированию системы, разбивая сложные концепции на простые для понимания объяснения. Сосредоточив внимание на практических примерах из реальной жизни, вы научитесь проектировать масштабируемые, отказоустойчивые и высокопроизводительные системы, способные решать самые сложные задачи.

Не упустите эту возможность поднять свои навыки проектирования систем на новый уровень и достичь своих карьерных целей. Запишитесь на курс Собеседование по проектированию систем от DesignGurus сегодня и сделайте первый шаг к успеху!

Рабочий процесс

Граница URL-адресов запрашивает хранилище исходных URL-адресов, чтобы получить список URL-адресов для сканирования.
Граница URL-адресов отдает приоритет URL-адресам для сканирования.
Служба сборщика запрашивает службу планировщика, чтобы проверить, имеет ли URL-адрес предопределенное расписание сканирования.
Локальная служба DNS запрашивается для определения IP-адреса исходного сервера.
Служба выборки на стороне сервера отображает веб-страницы.
Служба проверки дубликатов запрашивается для проверки дублирующегося контента на веб-странице.
Служба сборщика сжимает просканированную веб-страницу и сохраняет ее в хранилище контента для дальнейшей обработки, такой как построение инвертированного индекса.
Служба сборщика сохраняет просканированную веб-страницу в кэше содержимого для немедленной обработки.
Служба сборщика публикует идентификатор документа в очереди сообщений для асинхронной обработки просканированных веб-страниц.
Процессор URL получает информацию о просканированной веб-странице с помощью шаблона публикации-подписки.
URL-адреса извлекаются, фильтруются и нормализуются из просканированной веб-страницы путем запроса кеша контента.
Извлеченные URL-адреса сохраняются в хранилище URL-адресов для последующего сканирования.
Граница URL-адресов запрашивает хранилище URL-адресов, чтобы получить URL-адреса для сканирования.
Службы отправляли пульсирующие сигналы в зоопарк Apache для повышения отказоустойчивости.
Создаются только ограниченные HTTP-соединения с исходным сервером, чтобы повысить вежливость сканера.
Локальная служба DNS используется для уменьшения задержки
Граница URL-адресов использует очереди сообщений для приоритизации URL-адресов для обхода и повышения вежливости сканера.
Служба выборки является многопоточной для одновременного сканирования нескольких веб-страниц.
Служба сборщика выполняет рендеринг веб-страниц на стороне сервера для обработки динамических веб-страниц.
Средство извлечения URL-адресов, фильтр URL-адресов и служба нормализации URL-адресов запускаются в заданиях Apache Spark (MapReduce) для повышения пропускной способности.
Шаблон публикации-подписки среди сервисов реализован с использованием очереди сообщений.
Очередь сообщений реализует шаблон обратного давления для повышения отказоустойчивости.
Сервис проверки дубликатов использует алгоритм simhash для обнаружения сходства контента на веб-страницах.
Консистентное хеширование используется для разделения кеша контента (ключ = идентификатор документа)
Реплики чтения кэша контента служат последним документам для дальнейшей обработки.
RPC используется для внутренней связи для уменьшения задержки.
Службы с отслеживанием состояния периодически проверяются для повышения отказоустойчивости.
Файл sitemap.xml используется веб-мастером для информирования поискового робота об URL-адресах на веб-сайте, доступных для сканирования.
Файл robots.txt используется веб-мастером для информирования поискового робота о том, какие части веб-сайта ему разрешено посещать.
Веб-страницы извлекаются и анализируются в потоковых заданиях с использованием Apache Flink для повышения пропускной способности.
Веб-страницы ранжируются и обрабатываются в пакетных заданиях на Apache Spark.
Фильтр Блума используется обработчиком URL-адресов (извлечение, фильтрация, нормализатор) для проверки того, был ли URL-адрес просканирован ранее.
Служба сборщика пропускает сканирование неканонических URL-адресов, а вместо этого сканирует соответствующие канонические ссылки.
Apache Gora используется в качестве оболочки SQL для запросов к хранилищу данных NoSQL.
Apache Tika используется для обнаружения и анализа нескольких форматов документов.
Веб-страницы, которые возвращают код состояния 4XX или 5XX, исключаются из повторных попыток сканирования.
Страницы перенаправления сканируются по коду состояния ответа HTTP 3XX.
Служба планировщика возвращает фиксированное или адаптивное расписание на основе определения файла sitemap.xml.
HTTP-заголовок пользовательского агента в запросе устанавливается на имя сканера.
Веб-сканер распределен географически, чтобы он находился ближе к исходным серверам веб-сайта, чтобы уменьшить задержку.
Службы хранения распределяются и реплицируются для обеспечения надежности.

Граница URL

Служба определения приоритетов помещает URL-адреса в зависимости от приоритета в отдельные очереди сообщений. Расчет важности онлайн-страницы (OPIC) или рейтинг ссылок используется для присвоения приоритета URL-адресам. Последовательное хеширование можно использовать для распределения URL-адресов по очередям сообщений.

Служба выбора приоритета извлекает URL-адреса из очереди с высоким приоритетом и помещает URL-адреса определенного веб-сайта в одну очередь сообщений для последовательного сканирования. Последовательное сканирование повышает вежливость сканера.

Поддерживать

Если вам нравится блог и вы хотите поддержать мою работу, вы можете сделать единовременное пожертвование на Ko-fi или Купи мне кофе или стать покровителем на Patreon. Ваша поддержка поможет мне продолжать создавать качественный контент и привносить новые идеи в блог. Благодарим вас за щедрость!

Новостная рассылка

Подпишитесь на мою рассылку и никогда больше не пропустите новую запись в блоге, так как вы будете получать уведомления по электронной почте каждый раз, когда я что-то публикую. Вы также получите полное руководство по проведению собеседований по проектированию системы в разделе Подписка на рассылку новостей.

Если вы планируете подписаться на Medium, используя мою реферальную ссылку, я хотел бы сообщить вам, что я получу часть членских взносов в качестве вознаграждения за то, что пригласил вас. Это помогает мне продолжать создавать ценный контент. Однако я хочу заверить вас, что это никак не повлияет на стоимость вашей подписки. Вы по-прежнему получите те же преимущества и возможности, что и любой другой участник Medium. Спасибо, что рассмотрели мою реферальную ссылку и поддержали мою работу!

Рекомендации

Джонатан М. Шей, Стивен Д. Гриббл и Генри М. Леви, Архитектура и реализация расширяемого веб-краулера, usenix.org
Веб-сканирование и индексы, stanford.edu
Как работает поиск Яндекса? , yandex.ru
Сергей Брин и Лоуренс Пейдж, Анатомия крупномасштабной гипертекстовой поисковой системы
Жюльен Ниош, Крупномасштабное сканирование с помощью Apache Nutch

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning