Статьи

Дэнни Салливан в Google Print

Дэнни Салливан (Danny Sullivan) опубликовал превосходный анализ технических проблем, связанных с Google Print, в разделе «Индексирование в сравнении с кэшированием и как Google Print не перепечатывает» .

Суть аргумента Дэнни, и я согласен на 100%, состоит в том, что индексирование содержания книги, чтобы она стала доступной для поиска, — это не то же самое, что создание или публикация копии книги. Он прав в этом, но его сообщение увековечивает недоразумение о том, как работают поисковые системы. Это недоразумение является одной из причин, почему издатели считают, что Google «крадет» их интеллектуальную собственность.

Дэнни описывает индекс поисковой системы как похожий на большую таблицу (выделение добавлено):

Я описал индекс… как «большую книгу в Интернете». Но это не так. Это больше похоже на гигантскую электронную таблицу, где все слова страницы находятся в одном ряду электронной таблицы, каждое слово находится в отдельном столбце, затем на следующей странице в строке ниже этого и т. Д.

На самом деле, индекс гораздо менее читабелен, чем электронная таблица, потому что поисковые машины хранят вхождения слова, а не документы, когда они создают свой индекс. Это не строка для каждого документа, это таблица вхождений для каждого слова.

Если на веб-странице появляется слово «defenestration», поисковые системы, такие как Google, сохранят идентификатор документа (ссылающийся на URL), местоположение на странице (342-е слово) и некоторые другие элементы, например, курсивом или чем-то еще , Этот случай будет сохранен в базе данных со всеми другими случаями «дефенестрации», а не в отдельной записи для этого документа.

Индексирование по словам очень удобно, потому что люди ищут слова. Если я ищу «руководство по инструкции по удалению,», поисковая система может быстро найти все документы, перечисленные в указателе для всех 3 из этих слов. Поиск по индексам из трех слов намного быстрее, чем поиск по 8 миллиардам документов.

Нет отдельного «указателя» самого документа. Слова встречаются, документ одноразовый. Чтобы восстановить документ, вам нужно изучить каждый индекс слов, найти все вхождения, которые соответствуют идентификатору документа, и собрать их все вместе.

В случае веб-страниц обычно хранится кэшированная копия, но Google Print не предлагает этого. Если вы выполните поиск некоторых слов с помощью Google Print, они скажут вам, в каких книгах встречаются слова, и предоставят вам очень маленький фрагмент контекста, который примерно соответствует «добросовестному использованию», как вы найдете… Я только что процитировал гораздо более существенную часть интеллектуальной собственности Дэнни, чем когда-либо использовал Google Print, и я вполне в рамках разумного добросовестного использования.

Я знаю, что Дэнни прекрасно все это понимает, и он просто пытается что-то сказать. Итак, позвольте мне остановиться на этом вопросе, потому что я согласен с ним.

Я работал в FedEx Kinko’s, мировом лидере в области решений для управления документами . Я знаю, сколько предприятий готовы платить, чтобы перевести свои унаследованные документы в электронный формат с возможностью поиска. Я не могу понять, почему издатели не делают колесные диски, когда видят, что Google выполняет работу за них бесплатно.