robots.txt — это полезный файл, который находится в корне вашего сайта и контролирует, как поисковые системы индексируют ваши страницы. Одним из наиболее полезных объявлений является «Запретить» — оно блокирует доступ поисковых систем к частным или нерелевантным разделам вашего сайта, например:
Disallow: /junk/
Disallow: /temp/
Disallow: /section1/mysecretpage.html
Вы даже можете заблокировать поисковые системы, индексирующие каждую страницу вашего домена:
User-agent: *
Disallow: /
Я не уверен, почему кто-то сделал бы это, но кто-то где-то не хочет, чтобы их сайт появлялся в результатах поиска.
Однако заблокированные страницы все еще могут появляться в Google. Прежде чем перейти к своей мыльнице, чтобы поспорить, что Google нарушает robots.txt и злоупотребляет контролем компании в Интернете, уделите немного времени, чтобы понять, как и почему это происходит.
Предположим, у вас есть страница по адресу http://www.mysite.com/secretpage.html, содержащая конфиденциальную информацию о новом проекте Foozle вашей компании. Вы можете поделиться этой страницей с партнерами, но пока не хотите, чтобы информация стала общедоступной. Поэтому вы блокируете страницу, используя объявление в http://www.mysite.com/robots.txt:
User-agent: *
Disallow: /secretpage.html
Несколько недель спустя вы ищете «Foozle» в Google, и появится следующая запись:
mysite.com/secretpage.html
Как это могло случиться? Первое, что нужно отметить, — это то, что Google соблюдает ваши инструкции robots.txt — он не индексирует текст секретной страницы. Тем не менее, URL все еще отображается, потому что Google нашел ссылку в другом месте, например,
<a href="http://mysite.com/secretpage.html">Read about the new Foozle project…</a>
Поэтому Google связывает слово «Foozle» с вашей секретной страницей. Ваш URL может показываться в верхней части результатов поиска, потому что Foozle — это редко используемый термин, а ваша страница является единственным источником информации.
Кроме того, Google может показать описание страницы под URL. Опять же, это не является нарушением правил robots.txt — это происходит потому, что Google нашел запись для вашей секретной страницы в распознанном ресурсе, таком как Open Directory Project . Описание исходит от этого сайта, а не от содержания вашей страницы.
Можно ли заблокировать страницы?
Есть несколько решений, которые не позволят вашим секретным страницам появляться в результатах поиска Google.
1. Установите метатег «без индекса»
Google никогда не покажет вашу секретную страницу или не перейдет по ее ссылкам, если вы добавите следующий код в ваш HTML <head>:
<meta name="robots" content="no index, no follow" />
2. Используйте инструмент удаления URL
Google предлагает инструмент для удаления URL в своих Инструментах для веб-мастеров.
3. Добавить аутентификацию
Apache, IIS и большинство других веб-серверов предлагают базовые средства аутентификации. Посетитель должен ввести идентификатор пользователя и пароль перед просмотром страницы. Это может не помешать Google показывать URL страницы в результатах, но остановит неавторизованные посетители, читающие контент.
4. Просмотрите ваши правила публикации
Если у вас сверхсекретный контент, возможно, вам не следует публиковать эти документы в общедоступной сети!