Учебники

Data Mining — Mining World Wide Web

Всемирная паутина содержит огромное количество информации, которая предоставляет богатый источник для интеллектуального анализа данных.

Проблемы в веб-майнинге

Интернет создает большие проблемы для поиска ресурсов и знаний на основе следующих наблюдений —

  • Сеть слишком велика — размер сети очень велик и быстро увеличивается. Кажется, что Интернет слишком велик для хранилищ данных и интеллектуального анализа данных.

  • Сложность веб-страниц — веб-страницы не имеют объединяющей структуры. Они очень сложны по сравнению с традиционным текстовым документом. В цифровой библиотеке сети огромное количество документов. Эти библиотеки расположены не в соответствии с каким-либо конкретным отсортированным порядком.

  • Сеть — это динамический источник информации. Информация в Интернете быстро обновляется. Такие данные, как новости, фондовые рынки, погода, спорт, покупки и т. Д., Регулярно обновляются.

  • Разнообразие сообществ пользователейсообщество пользователей в сети быстро расширяется. Эти пользователи имеют разный опыт, интересы и цели использования. Существует более 100 миллионов рабочих станций, которые подключены к Интернету и продолжают быстро расти.

  • Актуальность информации. Считается, что конкретный человек, как правило, интересуется лишь небольшой частью сети, тогда как остальная часть сети содержит информацию, которая не относится к пользователю и может затмить желаемые результаты.

Сеть слишком велика — размер сети очень велик и быстро увеличивается. Кажется, что Интернет слишком велик для хранилищ данных и интеллектуального анализа данных.

Сложность веб-страниц — веб-страницы не имеют объединяющей структуры. Они очень сложны по сравнению с традиционным текстовым документом. В цифровой библиотеке сети огромное количество документов. Эти библиотеки расположены не в соответствии с каким-либо конкретным отсортированным порядком.

Сеть — это динамический источник информации. Информация в Интернете быстро обновляется. Такие данные, как новости, фондовые рынки, погода, спорт, покупки и т. Д., Регулярно обновляются.

Разнообразие сообществ пользователейсообщество пользователей в сети быстро расширяется. Эти пользователи имеют разный опыт, интересы и цели использования. Существует более 100 миллионов рабочих станций, которые подключены к Интернету и продолжают быстро расти.

Актуальность информации. Считается, что конкретный человек, как правило, интересуется лишь небольшой частью сети, тогда как остальная часть сети содержит информацию, которая не относится к пользователю и может затмить желаемые результаты.

Структура макета веб-страницы Mining

Базовая структура веб-страницы основана на объектной модели документа (DOM). Структура DOM относится к древовидной структуре, где HTML-тег на странице соответствует узлу в дереве DOM. Мы можем сегментировать веб-страницу, используя предопределенные теги в HTML. Синтаксис HTML гибкий, поэтому веб-страницы не соответствуют спецификациям W3C. Несоблюдение спецификаций W3C может привести к ошибке в древовидной структуре DOM.

Структура DOM изначально была представлена ​​для представления в браузере, а не для описания семантической структуры веб-страницы. Структура DOM не может правильно идентифицировать семантические отношения между различными частями веб-страницы.

Сегментация страниц на основе видения (VIPS)

  • Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.

  • Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.

  • Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.

  • Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.

  • Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.

  • Семантика веб-страницы построена на основе этих блоков.

Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.

Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.

Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.

Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.

Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.

Семантика веб-страницы построена на основе этих блоков.

На следующем рисунке показана процедура алгоритма VIPS —