Google PageRank ™ — это то, что привело Google туда, где он находится сегодня.
Google стал любимой поисковой системой в мире, и в среднем он, вероятно, приносит более 50% новых посетителей веб-сайтов (если принять во внимание посетителей из поисковых запросов веб-страниц Yahoo, которые также предоставляет Google). Для многих веб-сайтов, включая мой, Google приближает к 90% всего нового трафика.
В последнее время Google PageRank привлек некоторые противоречия. Теперь, когда пыль немного улеглась, в этой статье делается попытка более рационально взглянуть на PageRank, его сильные и слабые стороны и рассмотреть, куда Google может пойти отсюда.
Что такое PageRank?
Google предъявляет большие претензии к PageRank. Они объясняют концепцию PageRank следующим образом:
PageRank опирается на уникальную демократичность Интернета, используя свою обширную структуру ссылок в качестве показателя ценности отдельной страницы.
По сути, Google интерпретирует ссылку со страницы A на страницу B как голосование, по странице A, за страницу B. Но Google смотрит не только на количество голосов, либо на ссылки, которые получает страница;
он также анализирует страницу, которая голосует.
Голоса, поданные на страницах, которые сами «важны», весят больше и помогают сделать другие страницы «важными».
Важные, высококачественные сайты получают более высокий PageRank, который Google запоминает каждый раз, когда проводит поиск .
Оригинальный алгоритм расчета PageRank был опубликован основателями Google Сергеем Брином и Лоуренсом Пейджем в статье «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете» . Хотя с тех пор Google, возможно, и усовершенствовал алгоритм, мы знаем из этого документа, что PageRank веб-страницы — это число, рассчитываемое с использованием рекурсивного алгоритма, в котором страница получает долю от PageRank каждой страницы, которая ссылается на нее. Доля, которую страница A получает со страницы B, зависит от количества исходящих ссылок на странице B (при увеличении количества ссылок ценность каждой ссылки уменьшается).
Другими словами, PageRank — это математический расчет, который учитывает только количество страниц и количество ссылок на этих страницах во всей сети гиперссылок, которые ведут к рассматриваемой странице. Содержание не учитывается при расчете PageRank. Содержимое учитывается, когда вы фактически выполняете поиск по определенным условиям поиска.
Кому это выгодно?
Итак, как Google делает шаг вперед от этой относительно простой концепции, утверждая, что «Важные, высококачественные сайты получают более высокий PageRank»? Ну, как они говорят, они интерпретируют ссылку со страницы A на страницу B как показатель важности и качества страницы B. Но, конечно, есть много других причин, почему страница A может ссылаться на страницу B:
- Владелец страницы A хочет продвигать страницу B, поскольку она является частью его собственного веб-сайта.
- Владелец страницы A хочет продвигать страницу B, потому что это другой веб-сайт, которым он владеет
- Владелец страницы B оплачивает рекламу на странице A
- Владельцы обмениваются взаимными ссылками специально для повышения PageRank
- Владелец страницы A является партнером страницы B и получает комиссию с продаж
- Страница A — это новость (хорошая или плохая) о веб-сайте B.
В большинстве этих случаев важность или качество страницы B имеет мало общего с размещением ее ссылки на странице A. Что еще хуже, во многих случаях просто коммерческий интерес определяет количество ссылок на страницу B.
Результатом является то, что PageRank предпочитает бизнес, и особенно большой бизнес. Компания, продающая продукт или услугу на своем веб-сайте, естественно, получит PageRank из-за партнерских ссылок, рекламы и ресурсов, посвященных продвижению в Интернете. Веб-сайту, который предлагает информацию или бесплатные услуги, будет намного сложнее привлекать входящие ссылки и, следовательно, добиваться хорошего PageRank. Кажется, что корпоративная сила полезна, когда дело доходит до победы PageRank.
Но это не все…
Когда вы действительно выполняете поиск в Google, PageRank является лишь одним из факторов, которые учитываются при принятии решения о том, какие результаты являются предварительными, и в каком порядке. Собственное объяснение Google продолжается следующим образом:
Конечно, важные страницы ничего не значат для вас, если они не соответствуют вашему запросу.
Таким образом, Google комбинирует PageRank со сложными методами сопоставления текста, чтобы найти страницы, которые важны и актуальны для вашего поиска.
Google выходит за рамки того, сколько раз термин появляется на странице, и проверяет все аспекты содержимого страницы (и содержимого страниц, на которые она ссылается), чтобы определить, подходит ли оно для вашего запроса.
Это означает, что комбинация контента и PageRank определяет последовательность или ранжирование результатов поиска, которые возвращает Google. Ранжирование результатов поиска очень важно, так как большинство пользователей не будут смотреть дальше первых 20 результатов или около того. Это важно для пользователя, потому что если поисковая система не возвращает наиболее релевантные результаты в первых 20, пользователь отказывается от поиска — и теряет веру в эту поисковую систему. Очевидно, что веб-сайт должен быть включен в первые 20 результатов для соответствующих условий поиска, в противном случае этот веб-сайт будет получать очень мало трафика от поисковых систем.
Для большинства поисков алгоритм ранжирования Google очень хорошо работает для пользователя, и я действительно использую Google почти для всех своих поисков. Google обычно возвращает релевантные результаты и часто возвращает то, что я считаю первым наиболее важным веб-сайтом. Именно фактор PageRank гарантирует, что при поиске «Amazon» в первую очередь возвращается домашняя страница Amazon.com (хотя я не уверен, почему кому-то понадобится поисковая система для поиска Amazon!).
Неожиданные эффекты
Тем не менее, PageRank является настолько важным фактором в ранжировании результатов поиска, что может иметь некоторые очень существенные последствия.
Ограниченная конкуренция
Один из эффектов проиллюстрирован поиском в Google по слову store store. В течение двух месяцев (и, возможно, раньше), когда Amazon открыла свой магазин одежды, этот поиск вернул магазин одежды Amazon первым в результатах. Причина, по которой страница Amazon занимает первое место, заключается в том, что она не только актуальна, но и получила огромный PageRank благодаря тому, что находится на сайте Amazon. Магазин одежды Amazon может быть важным, высококачественным сайтом, но это не причина, по которой он приобрел свой PageRank. Он приобрел свой PageRank, будучи частью огромного сайта Amazon.com, посвященного книгам, компакт-дискам и т. Д., И в частности всем этим партнерским ссылкам на раздел книг.
Имеет ли это значение для пользователя? В краткосрочной перспективе, вероятно, нет. Пользователь получил соответствующий набор результатов поиска и, возможно, даже будет рад, что нашел магазин одежды Amazon. В долгосрочной перспективе, однако, это может иметь большее значение. Маленьким компаниям и небольшим веб-сайтам трудно получить PageRank, и поэтому они занимают лидирующие позиции в результатах поиска, независимо от того, насколько важными могут быть их сайты. Это представляет собой барьер для новых участников рынка, что в долгосрочной перспективе ограничивает конкуренцию и наносит ущерб потребительскому выбору. С растущим доминирующим положением Google этот побочный эффект вызывает беспокойство.
Снижение релевантности
В некоторых случаях эффект PageRank действительно наносит ущерб релевантности результатов. Если вы выполняете поиск бесплатной веб-страницы в стандартном поиске Google, лучшим результатом будет digits.com, предлагающий бесплатные счетчики страниц, и только 5 из первых 10 результатов предлагают бесплатные веб-страницы. Другие предлагают бесплатную регистрацию в поисковых системах, бесплатный перевод и бесплатную загрузку шрифтов (с Microsoft.com). В случае с digits.com, это обратные ссылки, которые требуются на всех сайтах, использующих счетчик страниц digits.com, который дал их сайту огромный PageRank, подняв его до вершины результатов.
Результаты поиска для этого поиска могут быть улучшены, если вы используете точный поиск по фразе на странице расширенного поиска Google или помещаете поисковую фразу в кавычки, но я подозреваю, что только небольшая часть пользователей когда-либо использовала эти параметры. В точной фразе поиска «бесплатная веб-страница» digits.com падает до номера 4 в результатах. Однако это ранжирование номер 4 все еще немного удивляет, учитывая, что фраза «бесплатная веб-страница» вообще не появляется на странице, а появляется только в ссылках, указывающих на эту страницу. Это иллюстрирует важность текста ссылки в поисковой оптимизации для Google.
Предположим, вы ищете офисное помещение в Нью-Йорке. Вы можете искать офис в Нью-Йорке. В этом случае главной страницей рейтинга, независимо от того, используете ли вы точный поиск по фразе или нет, является страница «Губернатор Нью-Йорка Джордж Э. Патаки», которая опять-таки не содержит точной поисковой фразы на странице, а только в ссылках, указывающих страница. Тем не менее, страница имеет рейтинг PageRank панели инструментов Google, равный 9, для учета ее позиции. На самом деле, если вы используете точный поиск по фразе «New York Office», я не думаю, что какая-либо из 20 лучших страниц содержит точную поисковую фразу, кроме ссылок, указывающих на них!
Конечно, если вы будете стараться изо всех сил, вы можете получить всевозможные странные результаты поиска! Как насчет поиска в Google самого большого сада на Земле! Угадайте, что Google возвращает первым? Да, домашняя страница Amazon.com! Почему? Поскольку заголовок страницы «Amazon.com — самый большой выбор в мире», содержащий два ключевых слова, на странице есть еще одно ключевое слово «Сад», и, конечно, он имеет огромный PageRank.
Это показывает, что если у вас есть веб-сайт с Google ToolBar PageRank, равным 9 или 10, например Amazon, Microsoft, Adobe и т. Д., То вам практически гарантирован высокий рейтинг Google по ключевым словам по вашему выбору на новой веб-странице, если Вы помещаете эти ключевые слова в заголовок своей страницы и ссылаетесь на него с остальной части своего сайта. Содержание страницы не имеет значения вообще. Это заставляет задуматься, почему Amazon так часто использует Google Adwords!
Эти примеры, конечно, являются исключениями. Как я уже сказал, Google — это поисковая система, которую многие люди предпочитают использовать, и для подавляющего большинства поисков Google возвращает релевантные результаты поиска, которые удовлетворяют пользователя. И это именно то, что нужно Google, чтобы продолжать завоевывать долю рынка.
Список дел Google
К счастью для большинства веб-мастеров, существует множество поисковых терминов, в которых вы не конкурируете с Amazon и Microsoft. При некотором внимании к заголовкам страниц, содержанию страниц и тексту ссылок, можно достичь разумного рейтинга в результатах поиска. Например, один из моих веб-сайтов имеет высший рейтинг по двум лучшим релевантным поисковым фразам, генерирующим трафик, а другой — рейтинг 3 по моей предпочтительной поисковой фразе. Да, вам нужно убедиться, что вы получаете ссылки со страниц с разумным PageRank, но обычно нет необходимости переходить к крайностям поисковой оптимизации. На самом деле вы должны быть осторожны, чтобы не выходить за пределы того, что Google считает этическими методами поисковой оптимизации, в противном случае вы получите страшный штраф PageRank Zero!
Тем не менее, с растущим доминирующим положением Google поисковый гигант будет подвергаться все большей критике, если его результаты поиска будут работать в пользу крупного бизнеса и против свободной рыночной конкуренции.
Google, конечно, все время усердно работает над улучшением своих алгоритмов, и будет интересно посмотреть, приняты ли на вооружение такие проблемы.
В краткосрочной перспективе Google может потребоваться учесть следующие моменты:
- Увеличьте вес близости ключевых слов , что увеличит рейтинг точных совпадений фраз, даже если точный поиск фразы не был указан.
- Увеличьте вес ключевых слов в видимом тексте на странице , чтобы уменьшить количество раз, когда страницы включаются в результаты только с ключевыми словами в ссылках, указывающих на страницу.
- Подумайте о том, чтобы ограничить вес PageRank некоторым значением, чтобы страницы с очень высоким PageRank были менее перегруженными. В качестве альтернативы, измените масштаб так, чтобы при перемещении вверх по лестнице PageRank увеличение веса не увеличивалось пропорционально. Шкала, вероятно, уже логарифмическая, но, похоже, не дает желаемого эффекта.
- По умолчанию поиск ищет как единственное, так и множественное число поисковых слов . Это спорное предложение, поскольку некоторые запросы работают лучше этот путь, в то время как для другого я это пагубный шага. Тем не менее, я считаю, что больше поисков будет более успешным, если этот подход будет принят. Возможно, он может быть введен как опция выбора в расширенном поиске.
- Уменьшите вес ключевых слов в заголовке страницы . Это одна часть веб-страницы, на которую пользователи почти не смотрят, и поэтому ее легко манипулировать. Поэтому это предложение будет непопулярным среди веб-мастеров!
Теперь для большого!
Что действительно нужно, так это чувствительный к контенту или теме PageRank. Другими словами, PageRank должен рассчитываться для каждого используемого поискового запроса, чтобы PageRank накапливался только по ссылкам с релевантных страниц и обратно по всей сети ссылок. Проблема заключается в том, что коэффициенты содержания алгоритма ранжирования поиска оцениваются только во время поиска, а вычисление PageRank во время поиска будет невероятно медленным, тем более что это рекурсивный алгоритм.
Однако были опубликованы исследовательские работы по предложениям для расчета чувствительного к содержанию или тематического PageRank во время сканирования. Одним из таких документов является «Тема-чувствительный PageRank» Тахера Х. Хавеливала (будьте готовы к некоторой математике, если вы прочитаете эту статью!). Haveliwala предлагает, чтобы для каждой веб-страницы рассчитывался отдельный PageRank для каждой соответствующей темы, представленной категориями проекта Open Directory. Ограничивая количество тем категориями Open Directory, и поскольку большинство веб-страниц не будут иметь контента, относящегося ко многим темам в этом движке, требуемая вычислительная мощность не является невозможной.
Другой документ — «Умный серфер: пробалистическое сочетание информации о ссылках и контенте в PageRank» (pdf) Мэтью Ричардсона и Педро Домингоса, который предлагает предварительно рассчитать отдельные PageRank для всех поисковых терминов. Их эксперименты показывают, что даже для миллионов поисковых слов вычислительная мощность и объем хранилища (только!) В 100-200 раз больше, чем необходимо для расчета одного PageRank.
Проблема для Google заключается в том, что последнее, что они хотят сделать, — это увеличить время, необходимое для сканирования и обновления. В настоящее время их усилия направлены на поиск путей более частого обновления индекса, чтобы их результаты поиска отражали то, что находится в Интернете сегодня, а не то, что было в прошлом месяце.
Google будет трудно сбалансировать все требования и давление, с которыми он сталкивается, но я уверен, что они лучше подготовлены, чтобы добиться успеха, чем большинство. Время покажет…