Всемирная паутина содержит огромное количество информации, которая предоставляет богатый источник для интеллектуального анализа данных.
Проблемы в веб-майнинге
Интернет создает большие проблемы для поиска ресурсов и знаний на основе следующих наблюдений —
-
Сеть слишком велика — размер сети очень велик и быстро увеличивается. Кажется, что Интернет слишком велик для хранилищ данных и интеллектуального анализа данных.
-
Сложность веб-страниц — веб-страницы не имеют объединяющей структуры. Они очень сложны по сравнению с традиционным текстовым документом. В цифровой библиотеке сети огромное количество документов. Эти библиотеки расположены не в соответствии с каким-либо конкретным отсортированным порядком.
-
Сеть — это динамический источник информации. Информация в Интернете быстро обновляется. Такие данные, как новости, фондовые рынки, погода, спорт, покупки и т. Д., Регулярно обновляются.
-
Разнообразие сообществ пользователей — сообщество пользователей в сети быстро расширяется. Эти пользователи имеют разный опыт, интересы и цели использования. Существует более 100 миллионов рабочих станций, которые подключены к Интернету и продолжают быстро расти.
-
Актуальность информации. Считается, что конкретный человек, как правило, интересуется лишь небольшой частью сети, тогда как остальная часть сети содержит информацию, которая не относится к пользователю и может затмить желаемые результаты.
Сеть слишком велика — размер сети очень велик и быстро увеличивается. Кажется, что Интернет слишком велик для хранилищ данных и интеллектуального анализа данных.
Сложность веб-страниц — веб-страницы не имеют объединяющей структуры. Они очень сложны по сравнению с традиционным текстовым документом. В цифровой библиотеке сети огромное количество документов. Эти библиотеки расположены не в соответствии с каким-либо конкретным отсортированным порядком.
Сеть — это динамический источник информации. Информация в Интернете быстро обновляется. Такие данные, как новости, фондовые рынки, погода, спорт, покупки и т. Д., Регулярно обновляются.
Разнообразие сообществ пользователей — сообщество пользователей в сети быстро расширяется. Эти пользователи имеют разный опыт, интересы и цели использования. Существует более 100 миллионов рабочих станций, которые подключены к Интернету и продолжают быстро расти.
Актуальность информации. Считается, что конкретный человек, как правило, интересуется лишь небольшой частью сети, тогда как остальная часть сети содержит информацию, которая не относится к пользователю и может затмить желаемые результаты.
Структура макета веб-страницы Mining
Базовая структура веб-страницы основана на объектной модели документа (DOM). Структура DOM относится к древовидной структуре, где HTML-тег на странице соответствует узлу в дереве DOM. Мы можем сегментировать веб-страницу, используя предопределенные теги в HTML. Синтаксис HTML гибкий, поэтому веб-страницы не соответствуют спецификациям W3C. Несоблюдение спецификаций W3C может привести к ошибке в древовидной структуре DOM.
Структура DOM изначально была представлена для представления в браузере, а не для описания семантической структуры веб-страницы. Структура DOM не может правильно идентифицировать семантические отношения между различными частями веб-страницы.
Сегментация страниц на основе видения (VIPS)
-
Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.
-
Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.
-
Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.
-
Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.
-
Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.
-
Семантика веб-страницы построена на основе этих блоков.
Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.
Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.
Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.
Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.
Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.
Семантика веб-страницы построена на основе этих блоков.
На следующем рисунке показана процедура алгоритма VIPS —