Статьи

Google, это действительно ты? Проверка законного трафика ботов

Это один из самых распространенных вопросов, которые я получаю от клиентов: «Как мы узнаем, является ли трафик поисковых роботов действительным или нет?» Отличный вопрос!

Хорошие боты против плохих ботов

Начнем с нуля. Бот — это простые приложения, которые запускают автоматизированные задачи через Интернет. Боты везде; некоторые боты хорошие, а другие плохие. Согласно исследованию Incapsula, проведенному в 2014 году, трафик на средний веб-сайт составляет от 63% до 80% трафика ботов . Поэтому способность идентифицировать и анализировать трафик ботов имеет решающее значение для понимания и защиты вашего сайта.

Поиск и трафик ботов не всегда легко проверить, одной из причин является то, что плохим ботам легко и очень часто маскироваться под дружелюбие. Этот процесс известен как подмена пользовательского агента, когда объект идентифицирует себя на веб-сайте как нечто иное, чем он сам. Подмена пользовательского агента — это метод, который имеет общие и законные случаи использования, например, когда разработчики веб-сайтов используют браузер, чтобы увидеть, как сайт выглядит как мобильный веб-сайт. Тем не менее, это также может быть средством для плохих ботов, чтобы избежать обнаружения.

Волки в овечьей шкуре: плохие боты

Хакеры и злоумышленники используют подделку пользовательских агентов, потому что многие сайты, особенно сайты электронной коммерции, ценят трафик, генерируемый Google и Bing. Трафик с поисковых систем напрямую переводится в доход через рефералов поэтому трафик с поисковых систем часто освобождается от многих общих правил брандмауэра, которые защищают от плохого трафика.

Правила брандмауэра обычно основаны на пользовательских агентах, потому что это значительно проще реализовать, чем белый список на основе IP, поскольку Google и Bing не используют жестко закодированные списки и ожидают, что веб-мастера будут проверять IP-адреса индивидуально. Microsoft предоставляет инструмент проверки Bingbot . Google не предлагает такую ​​услугу.

  • Действительные пользовательские агенты из поисковых роботов Google перечислены здесь:  Googlebot User-Agents
  • Действительные пользовательские агенты для ботов Microsoft перечислены здесь:  Bingbot User-Agents .

Как проверить действительный трафик ботов

Чтобы убедиться, что любой IP-адрес, который вы видите в своих журналах, действительно действителен, проще всего воспользоваться командой nslookup. Просто откройте окно командной строки в большинстве операционных систем и введите nslookup, а затем IP. Например:

$ nslookup 66.249.65.17
Server:    8.8.8.8
Address:8.8.8.8#53

Non-authoritative answer:
17.65.249.66.in-addr.arpaname = crawl-66-249-65-17.googlebot.com.

Выше приведен простой nslookup для IP-адреса Googlebot. Вы можете видеть, что имя содержит адрес googlebot.com в конце. Большинство злых актеров не собираются заходить так далеко. Но затем вы убедитесь, что поле имени возвращает IP-адрес, который вы ввели выше при выполнении nslookup.


$ nslookup crawl-66-249-65-17.googlebot.com
Server:    8.8.8.8
Address:8.8.8.8#53

Non-authoritative answer:
Name:crawl-66-249-65-17.googlebot.com
Address: 66.249.65.17

В этом разделе вы ищете IP-адрес для записи адреса в разделе неавторизованных ответов. Если это соответствует вашему исходному IP, это подтвердит, что источник IP действителен. Ответы Google заканчиваются на googlebot.com, а ответы Bingbot — на search.microsoft.com. Дальнейшее подтверждение можно сделать, выполнив запрос whois соответствующего IP. Ниже приведена выдержка из запроса whois с пропущенными разделами, отмеченными многоточием (…).

$ whois 66.249.65.17
...
NetRange:       66.249.64.0 - 66.249.95.255
CIDR:           66.249.64.0/19
NetName:        GOOGLE
NetHandle:      NET-66-249-64-0-1
Parent:         NET66 (NET-66-0-0-0-0)
NetType:        Direct Allocation
OriginAS:
Organization:   Google Inc. (GOGL)
RegDate:        2004-03-05
Updated:        2012-02-24
Ref:            http://whois.arin.net/rest/net/NET-66-249-64-0-1



OrgName:        Google Inc.
OrgId:          GOGL
Address:        1600 Amphitheatre Parkway
City:           Mountain View
StateProv:      CA
PostalCode:     94043
Country:        US
RegDate:        2000-03-30
Updated:        2015-11-06
Ref:            http://whois.arin.net/rest/org/GOGL
...

Мы видим, что как nslookup, так и whois показывают, что это продукт Google, который возвращается как принадлежащий Googlebot. Это действительный запрос. Вы также можете увидеть все другие IP-адреса, которые попадают в диапазон допустимых IP-адресов, просмотрев запись NetRange в whois. Это все текущие IP-адреса, но они не всегда могут быть точными, поэтому и Google, и Microsoft оба требуют, чтобы вы не жестко закодировали любой из их диапазонов IP-адресов в белый список.

Что, если вы слишком запуганы консолью, в вашей операционной системе нет этих инструментов или вы уже в браузере? Не стоит бояться, что существуют сайты на основе браузера, которые будут предоставлять те же функции для проверки IP-адресов. Хороший ресурс для запросов whois — AbuseIPDB.com . Использование инструмента сайта бесплатно. Инструмент для обратного поиска DNS можно найти на MXToolbox.com , этот сайт также предоставляет множество других инструментов. Использовать эти инструменты обычно просто. Введите соответствующий IP-адрес и соберите ту же информацию, что и выше, чтобы определить, является ли запрос действительным. Процесс такой же, как с консольными инструментами. Проверьте информацию, и вы будете знать, что вы смотрите на законный трафик.

Эта статья была написана Филиппом Труаксом