Выявление враждебных поисковых роботов

Мне интересно, есть ли какие-либо методы для идентификации поискового робота, собирающего информацию для незаконного использования. Проще говоря, кража данных для создания точных копий сайта.

В идеале эта система могла бы обнаруживать шаблон сканирования из неизвестного источника (если его нет в списке поискового робота Google и т. Д.) И отправлять фальшивую информацию поисковому роботу.

Если, как защитник, я обнаруживаю неизвестного краулера, который регулярно посещает сайт, злоумышленник будет рандомизировать интервалы.
Если как защитник я обнаруживаю тот же агент / IP, злоумышленник рандомизирует агента.

И вот здесь я заблудился - если злоумышленник рандомизирует интервалы и агента, как я могу не различать прокси и машины, попадающие на сайт из одной сети?

Я подумываю проверить подозреваемого агента с помощью javascript и поддержки файлов cookie. Если богги не может делать ни того, ни другого постоянно, то это плохой парень.

Что еще я могу сделать? Существуют ли какие-либо алгоритмы или даже системы, предназначенные для быстрого анализа исторических данных на лету?

web-crawler screen-scraping

30.05.2009

Ответы:

Моим решением было бы устроить ловушку. Разместите на своем сайте несколько страниц, доступ к которым запрещен файлом robots.txt. Сделайте ссылку на своей странице, но скройте ее с помощью CSS, а затем заблокируйте любого, кто зайдет на эту страницу.

Это заставит нарушителя подчиняться robots.txt, а это означает, что вы можете навсегда удалить важную информацию или услуги от него, что сделает его копию-копию бесполезной.

30.05.2009

Что может помешать злоумышленнику изменить свой сканер так, чтобы он игнорировал скрытые ссылки? Либо путем автоматического сканирования и сравнения вашего .css с классами ссылок или областей ссылок, либо просто ежедневным просмотром вашего источника и быстрым изменением его списка игнорируемых ссылок в его поисковом роботе? Что, если он создаст алгоритм для проверки качества содержания ссылок, чтобы избежать ссылок-ловушек? 08.06.2009

Разве скрытие ссылок с помощью CSS не считается обманом со стороны робота Google (независимо от того, для какой цели, им все равно)? 19.04.2010

Хороший трюк - только упоминать приманку как запрещенную в robots.txt (и нигде не ссылаться на нее) - некоторые злые роботы читают файл, а затем просматривают запрещенные ссылки в надежде найти какие-то сочные данные и БАМ! Забанен! 13.10.2010

Не пытайтесь распознать по IP-адресу, времени или интервалам - используйте данные, которые вы отправляете сканеру, для их отслеживания.

Создайте белый список известных хороших поисковых роботов - вы будете обслуживать их в обычном режиме. В остальном, обслуживайте страницы с дополнительным количеством уникального контента, который только вы будете знать, как искать. Используйте эту подпись, чтобы позже определить, кто копировал ваш контент, и заблокировать их.

30.05.2009

И как удержать кого-то от найма человека в стране с низкой заработной платой для использования браузера для доступа к вашему сайту и записи всей информации? Настройте файл robots.txt, инвестируйте в инфраструктуру безопасности для предотвращения DoS-атак, замаскируйте свой код (если он доступен, например, javascript), запатентовайте свои изобретения и создайте авторские права на свой сайт. Пусть юристы беспокоятся о том, что кто-то вас ограбит.

30.05.2009

Для целей этого упражнения мы можем предположить, что а) слишком много данных для копирования вручную б) данные часто меняются в) злоумышленник - плохой панк, который никогда не будет тратить деньги на то, чтобы кто-то это делал. 30.05.2009

Отследите панк с помощью GeoIP и пусть ваш дядя Сэл сделает ему предложение, от которого он не сможет отказаться. :-) 30.05.2009

потому что обеспечение соблюдения закона США об интеллектуальной собственности в странах третьего мира настолько эффективно? 23.05.2019

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning