Мне интересно, есть ли какие-либо методы для идентификации поискового робота, собирающего информацию для незаконного использования. Проще говоря, кража данных для создания точных копий сайта.
В идеале эта система могла бы обнаруживать шаблон сканирования из неизвестного источника (если его нет в списке поискового робота Google и т. Д.) И отправлять фальшивую информацию поисковому роботу.
- Если, как защитник, я обнаруживаю неизвестного краулера, который регулярно посещает сайт, злоумышленник будет рандомизировать интервалы.
- Если как защитник я обнаруживаю тот же агент / IP, злоумышленник рандомизирует агента.
И вот здесь я заблудился - если злоумышленник рандомизирует интервалы и агента, как я могу не различать прокси и машины, попадающие на сайт из одной сети?
Я подумываю проверить подозреваемого агента с помощью javascript и поддержки файлов cookie. Если богги не может делать ни того, ни другого постоянно, то это плохой парень.
Что еще я могу сделать? Существуют ли какие-либо алгоритмы или даже системы, предназначенные для быстрого анализа исторических данных на лету?