Статьи

Почему страницы, запрещенные в robots.txt, по-прежнему отображаются в Google

robots.txt запретить robots.txt — это полезный файл, который находится в корне вашего сайта и контролирует, как поисковые системы индексируют ваши страницы. Одним из наиболее полезных объявлений является «Запретить» — оно блокирует доступ поисковых систем к частным или нерелевантным разделам вашего сайта, например:


Disallow: /junk/
Disallow: /temp/
Disallow: /section1/mysecretpage.html

Вы даже можете заблокировать поисковые системы, индексирующие каждую страницу вашего домена:

 
User-agent: *
Disallow: /

Я не уверен, почему кто-то сделал бы это, но кто-то где-то не хочет, чтобы их сайт появлялся в результатах поиска.

Однако заблокированные страницы все еще могут появляться в Google. Прежде чем перейти к своей мыльнице, чтобы поспорить, что Google нарушает robots.txt и злоупотребляет контролем компании в Интернете, уделите немного времени, чтобы понять, как и почему это происходит.

Предположим, у вас есть страница по адресу http://www.mysite.com/secretpage.html, содержащая конфиденциальную информацию о новом проекте Foozle вашей компании. Вы можете поделиться этой страницей с партнерами, но пока не хотите, чтобы информация стала общедоступной. Поэтому вы блокируете страницу, используя объявление в http://www.mysite.com/robots.txt:

 
User-agent: *
Disallow: /secretpage.html

Несколько недель спустя вы ищете «Foozle» в Google, и появится следующая запись:

mysite.com/secretpage.html

Как это могло случиться? Первое, что нужно отметить, — это то, что Google соблюдает ваши инструкции robots.txt — он не индексирует текст секретной страницы. Тем не менее, URL все еще отображается, потому что Google нашел ссылку в другом месте, например,

 
<a href="http://mysite.com/secretpage.html">Read about the new Foozle project…</a>

Поэтому Google связывает слово «Foozle» с вашей секретной страницей. Ваш URL может показываться в верхней части результатов поиска, потому что Foozle — это редко используемый термин, а ваша страница является единственным источником информации.

Кроме того, Google может показать описание страницы под URL. Опять же, это не является нарушением правил robots.txt — это происходит потому, что Google нашел запись для вашей секретной страницы в распознанном ресурсе, таком как Open Directory Project . Описание исходит от этого сайта, а не от содержания вашей страницы.

Можно ли заблокировать страницы?

Есть несколько решений, которые не позволят вашим секретным страницам появляться в результатах поиска Google.

1. Установите метатег «без индекса»

Google никогда не покажет вашу секретную страницу или не перейдет по ее ссылкам, если вы добавите следующий код в ваш HTML <head>:

 
<meta name="robots" content="no index, no follow" />

2. Используйте инструмент удаления URL

Google предлагает инструмент для удаления URL в своих Инструментах для веб-мастеров.

3. Добавить аутентификацию

Apache, IIS и большинство других веб-серверов предлагают базовые средства аутентификации. Посетитель должен ввести идентификатор пользователя и пароль перед просмотром страницы. Это может не помешать Google показывать URL страницы в результатах, но остановит неавторизованные посетители, читающие контент.

4. Просмотрите ваши правила публикации

Если у вас сверхсекретный контент, возможно, вам не следует публиковать эти документы в общедоступной сети!