WedX - журнал о программировании и компьютерных науках

Выявление враждебных поисковых роботов

Мне интересно, есть ли какие-либо методы для идентификации поискового робота, собирающего информацию для незаконного использования. Проще говоря, кража данных для создания точных копий сайта.

В идеале эта система могла бы обнаруживать шаблон сканирования из неизвестного источника (если его нет в списке поискового робота Google и т. Д.) И отправлять фальшивую информацию поисковому роботу.

  • Если, как защитник, я обнаруживаю неизвестного краулера, который регулярно посещает сайт, злоумышленник будет рандомизировать интервалы.
  • Если как защитник я обнаруживаю тот же агент / IP, злоумышленник рандомизирует агента.

И вот здесь я заблудился - если злоумышленник рандомизирует интервалы и агента, как я могу не различать прокси и машины, попадающие на сайт из одной сети?

Я подумываю проверить подозреваемого агента с помощью javascript и поддержки файлов cookie. Если богги не может делать ни того, ни другого постоянно, то это плохой парень.

Что еще я могу сделать? Существуют ли какие-либо алгоритмы или даже системы, предназначенные для быстрого анализа исторических данных на лету?


Ответы:


1

Моим решением было бы устроить ловушку. Разместите на своем сайте несколько страниц, доступ к которым запрещен файлом robots.txt. Сделайте ссылку на своей странице, но скройте ее с помощью CSS, а затем заблокируйте любого, кто зайдет на эту страницу.

Это заставит нарушителя подчиняться robots.txt, а это означает, что вы можете навсегда удалить важную информацию или услуги от него, что сделает его копию-копию бесполезной.

30.05.2009
  • Что может помешать злоумышленнику изменить свой сканер так, чтобы он игнорировал скрытые ссылки? Либо путем автоматического сканирования и сравнения вашего .css с классами ссылок или областей ссылок, либо просто ежедневным просмотром вашего источника и быстрым изменением его списка игнорируемых ссылок в его поисковом роботе? Что, если он создаст алгоритм для проверки качества содержания ссылок, чтобы избежать ссылок-ловушек? 08.06.2009
  • Разве скрытие ссылок с помощью CSS не считается обманом со стороны робота Google (независимо от того, для какой цели, им все равно)? 19.04.2010
  • Хороший трюк - только упоминать приманку как запрещенную в robots.txt (и нигде не ссылаться на нее) - некоторые злые роботы читают файл, а затем просматривают запрещенные ссылки в надежде найти какие-то сочные данные и БАМ! Забанен! 13.10.2010

  • 2

    Не пытайтесь распознать по IP-адресу, времени или интервалам - используйте данные, которые вы отправляете сканеру, для их отслеживания.

    Создайте белый список известных хороших поисковых роботов - вы будете обслуживать их в обычном режиме. В остальном, обслуживайте страницы с дополнительным количеством уникального контента, который только вы будете знать, как искать. Используйте эту подпись, чтобы позже определить, кто копировал ваш контент, и заблокировать их.

    30.05.2009

    3

    И как удержать кого-то от найма человека в стране с низкой заработной платой для использования браузера для доступа к вашему сайту и записи всей информации? Настройте файл robots.txt, инвестируйте в инфраструктуру безопасности для предотвращения DoS-атак, замаскируйте свой код (если он доступен, например, javascript), запатентовайте свои изобретения и создайте авторские права на свой сайт. Пусть юристы беспокоятся о том, что кто-то вас ограбит.

    30.05.2009
  • Для целей этого упражнения мы можем предположить, что а) слишком много данных для копирования вручную б) данные часто меняются в) злоумышленник - плохой панк, который никогда не будет тратить деньги на то, чтобы кто-то это делал. 30.05.2009
  • Отследите панк с помощью GeoIP и пусть ваш дядя Сэл сделает ему предложение, от которого он не сможет отказаться. :-) 30.05.2009
  • потому что обеспечение соблюдения закона США об интеллектуальной собственности в странах третьего мира настолько эффективно? 23.05.2019
  • Новые материалы

    Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
    Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

    Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
    В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

    Объяснение документов 02: BERT
    BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

    Как проанализировать работу вашего классификатора?
    Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

    Работа с цепями Маркова, часть 4 (Машинное обучение)
    Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

    Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
    Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

    Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
    Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..


    Для любых предложений по сайту: [email protected]