Статьи

Пределы индексации поисковой системы: где останавливаются боты?

Сообщество SEO может похвастаться множеством различных мнений относительно объема текста, проиндексированного поисковыми системами на одной веб-странице. Вопрос в том, насколько большой должна быть оптимизированная страница? В какой момент баланс между страницей настолько короткий, что SE игнорируют ее как «неинформативную», и страницей настолько длинной, что она оставляет потенциально важный контент вне внимания пауков?

Насколько я знаю, еще никто не пытался ответить на этот вопрос своими экспериментами. Участники SEO-форумов обычно ограничиваются цитированием руководств, опубликованных самими движками. Сегодня уверенность в том, что ведущие поисковые системы ограничивают объем индексируемого текста пресловутым лимитом в 100 КБ, все еще широко распространена в сообществе SEO, в результате чего клиенты оптимизаторов ломают голову, пытаясь понять, что делать. с текстом, который выходит за этот предел.

Запуск эксперимента

Когда я решил провести эксперимент, чтобы ответить на этот вопрос практически, мои цели были:

  • определить объем текста веб-страницы, фактически проиндексированного и кэшированного поисковыми системами
  • выяснить, зависит ли объем индексируемого текста от общего размера HTML-страницы

Вот как на самом деле проводился этот эксперимент. Я взял 25 страниц разных размеров (от 45 КБ до 4151 КБ) и вставил уникальные, несуществующие ключевые слова в каждую страницу с интервалами 10 КБ (то есть уникальное ключевое слово было включено после каждых 10 КБ текста). Эти ключевые слова были автоматически сгенерированы исключительно для этого эксперимента и служили «отметками глубины индексации». Затем страницы были опубликованы, и я пошел готовить себе кофе, потому что ожидание появления роботов обещало быть медленным процессом! Наконец я увидел ботов Большой тройки (Google, Yahoo !, и MSN) в журналах своего сервера. Журналы доступа к сайту предоставили мне информацию, необходимую для продолжения эксперимента и его успешного завершения.

Уместно отметить, что я использовал специальные экспериментальные страницы для этого теста. Эти страницы находятся в домене, который я зарезервировал для таких экспериментов, и содержат только текст с ключевыми словами, которые мне нужны для эксперимента. Такие страницы — с бессмысленным текстом, наполненным словами абракадабры, время от времени — наверняка вызовут брови, если их увидит человек. Но люди-люди определенно не были ожидаемой аудиторией здесь.

После того, как я просмотрел файлы журналов и убедился, что боты были добавлены, осталось только проверить рейтинг каждой экспериментальной страницы для каждого уникального ключевого слова, которое я использовал. (Я использовал для этого рейтинговую проверку Web CEO ). Как вы, наверное, догадались, если поисковые системы индексируют только определенную часть страницы, они будут возвращать эту страницу в результатах поиска для условий поиска, которые превышают предел сканирования, но не будут возвращать страницу в результатах, предоставленных для ключевые слова, которые появились ниже предела.

Результаты теста

Этот график показывает, где Большая тройка перестала возвращать мои тестовые страницы.

1525_performance

Теперь, когда у меня были данные о количестве текста страницы, загруженного ботами SE, я смог определить длину текста страницы, проиндексированного поисковыми системами. Поверьте, результаты неожиданны — по меньшей мере! Но это делает еще более приятным делиться ими со всеми, кто интересуется актуальными вопросами поисковой оптимизации.

Как видно из приведенной ниже таблицы, бронзовая медаль присуждается Yahoo! с результатом 210 кб. Любое содержимое страницы выше этого предела не будет проиндексировано.

1525_yahoo

Второе место принадлежит Великому (по качеству поиска) и Ужасному (по своему отношению к SEO) Google. Их робот Google может переносить на бесчисленные серверы более 600 КБ информации. В то же время, в поисковой выдаче Google (страницы результатов поиска) отображаются только страницы, на которых были найдены ключевые слова, не дальше 520 КБ от начала страницы. Это именно тот размер страницы, который, по мнению Google, является наиболее информативным и предоставляет посетителям максимально полезную информацию, не заставляя их погружаться в слишком длинный текст.

Этот график показывает, сколько текста было проверено Google на тестовых страницах.

1525_google

Абсолютный чемпион по глубине индексации — MSN. Его MSNBot способен загружать до 1,1 МБ текста с одной страницы. Самое главное, что он может проиндексировать весь этот текст и показать его на страницах результатов. Если размер страницы превышает 1,1 МБ, содержимое, отображаемое на странице после этого ограничения, остается неиндексированным.

Вот как MSN справляется с большими объемами текста.

1525_msn

MSN продемонстрировал замечательное поведение во время своего первого посещения экспериментальных страниц. Если страница была меньше 170 КБ, она была хорошо представлена ​​в поисковой выдаче. Страницы выше этого порога не были представлены в поисковой выдаче для моих запросов, хотя робот загрузил полный 1,1 МБ текста. Похоже, что если страница была больше 170 КБ, она едва ли была в результатах MSN. Однако в течение 4-5 недель большие страницы, которые я создал, начали появляться в индексе MSN, показывая способность механизма индексировать большие объемы текста с течением времени. Это исследование заставляет меня думать, что скорость индексации MSN зависит от размера страницы. Следовательно, если вы хотите, чтобы часть информации вашего сайта была видна аудитории MSN как можно скорее, разместите ее на странице размером менее 170 КБ.

Эта сводная диаграмма показывает, сколько информации загружают поисковые системы и сколько затем сохраняется в их индексах.

1525_ranking

Таким образом, этот эксперимент установил тот факт, что ведущие поисковые системы значительно различаются по количеству текста страницы, который они могут сканировать. Для Yahoo !, ограничение составляет 210 КБ; для Google — 520 КБ; и для MSN это 1030 КБ. Страницы меньше этих размеров индексируются полностью, в то время как любой текст, который выходит за эти пределы, не будет проиндексирован.

Превышение пределов

Разве плохо иметь текст, который превышает лимит индексации?

Точно нет! Наличие большего количества текста, чем может проиндексировать поисковая система, не повредит вашему рейтингу. То, что вы должны знать, — то, что такой текст не обязательно помогает Вашему ранжированию поисковой машины. Если контент нужен вашим посетителям и предоставляет им важную информацию, не стесняйтесь оставлять его на странице. Тем не менее, широко распространено мнение, что поисковые системы уделяют больше внимания словам, расположенным в начале и конце веб-страницы. Другими словами, если у вас есть фраза «теннисный мяч» в первом и последнем абзацах вашей копии, это повышает рейтинг страницы для «теннисного мяча», чем если бы вы ввели ее дважды в середине текста страницы.

Если вы намерены воспользоваться этой рекомендацией, но ваша страница выходит за пределы индексации, важно помнить, что «последний абзац» — это не место, где вы перестали печатать, а место, где бот SE перестал читать.