Статьи

Ответ Microsoft на PageRank: BrowseRank

Согласно CNET, в новом документе Microsoft Research Asia ( PDF ) подробно описывается то, что в конечном итоге может быть ответом Microsoft на алгоритм Google PageRank, который в значительной степени был ответственен за восхождение компании на основе Mountain View на трон поисковой системы. Версия Microsoft под названием BrowseRank будет ранжировать страницы на основе поведения пользователя, а не на основе ссылок.

Основная идея Google PageRank заключается в том, что чем больше ссылок на страницу, тем важнее она должна быть. Microsoft утверждает, что алгоритмы анализа ссылок, такие как PageRank, несовершенны, поскольку их легко настраивать и не учитывать поведение пользователей. Конечно, фактическая реализация Google PageRank далеко не так проста, и компания обновляет свои алгоритмы поиска сотни раз в год. Кроме того, Google часто напоминает нам, что PageRank — это всего лишь одна из многих вещей, которые он использует для ранжирования результатов поиска.

Тем не менее, Microsoft считает, что она может работать лучше, и она надеется, что она может работать намного лучше. Как мы уже говорили ранее, победа над Google с помощью технологий означает, что вы должны избавиться от них и по-настоящему удивить пользователей значительно лучшими результатами поиска.

Алгоритм BrowseRank компании Microsoft Research Asia отбрасывает модель графа ссылок, которая была популяризирована Google, и вместо этого создает граф просмотра пользователей, который смотрит на такие вещи, как ссылки, на которые нажимали пользователи, и как долго они оставались на каждой странице.

«Данные о поведении пользователей могут быть записаны интернет-браузерами на веб-клиентах и ​​собраны на веб-сервере», — утверждают исследователи. Microsoft Research Asia заявила, что они собрали анонимные данные «чрезвычайно большой группы пользователей, заключивших юридические соглашения с ними», чтобы проверить свою теорию. Идея состоит в том, что вы можете взять анонимные данные о просмотрах от сотен миллионов пользователей и создать график просмотра, который может нарисовать картину того, какие страницы наиболее важны для пользователей.

«График просмотра пользователя может более точно представлять процесс случайного обхода веб-серфера и, таким образом, более полезен для расчета важности страницы. Чем больше посещений страницы совершают пользователи [sic] и чем дольше пользователи проводят ее на странице, тем выше вероятность того, что страница важна », — говорят исследователи. «С помощью этого графика мы можем использовать неявное голосование сотен миллионов пользователей по важности страницы. В связи с этим наш подход соответствует концепции Web 2.0 ».

Конечно, само по себе поведение просмотра пользователей, вероятно, недостаточно для ранжирования страниц — если бы BrowseRank использовался сам по себе, было бы легко увидеть MySpace и Facebook, а также такие видео-сайты, как Hulu, попадали на верх страницы результатов поиска. Тем не менее, исследователи Microsoft считают, что его можно объединить с другими алгоритмами ранжирования веб-страниц, чтобы значительно улучшить результаты поиска. «Также возможно объединить граф ссылок и данные о поведении пользователей для вычисления важности страницы», — пишут они. Исследователи говорят, что первоначальные результаты их тестов с использованием BrowseRank показали лучшую производительность, чем существующие методы.

Не удивительно, что Google разрабатывает нечто подобное. Google уже фиксирует поведение пользователей при помощи своей популярной панели инструментов Google и, похоже, использует эти данные для использования в начале этого года с запуском Планировщика объявлений и улучшений в Google Trends, которые включают веб-трафик. Использование этих данных в рейтингах результатов поисковой системы — или, по крайней мере, эксперименты с этим — не является огромным скачком. Гугл вряд ли спящий гигант.