Data Mining — Обзор

В информационной индустрии доступно огромное количество данных. Эти данные бесполезны, пока они не преобразуются в полезную информацию. Необходимо проанализировать этот огромный объем данных и извлечь из него полезную информацию.

Извлечение информации — не единственный процесс, который нам нужно выполнить; интеллектуальный анализ данных также включает другие процессы, такие как очистка данных, интеграция данных, преобразование данных, интеллектуальный анализ данных, оценка шаблона и представление данных. Когда все эти процессы будут завершены, мы сможем использовать эту информацию во многих приложениях, таких как обнаружение мошенничества, анализ рынка, контроль производства, исследование науки и т. Д.

Что такое Data Mining?

Data Mining определяется как извлечение информации из огромных наборов данных. Другими словами, мы можем сказать, что интеллектуальный анализ данных — это процедура извлечения знаний из данных. Извлеченная информация или знания могут быть использованы для любого из следующих приложений —

Анализ рынка
Обнаружение мошенничества
Удержание клиентов
Контроль производства
Наука Разведка

Приложения для интеллектуального анализа данных

Интеллектуальный анализ данных очень полезен в следующих областях:

Анализ рынка и управление
Корпоративный анализ и управление рисками
Обнаружение мошенничества

Помимо этого, интеллектуальный анализ данных может также использоваться в областях контроля производства, удержания клиентов, научных исследований, спорта, астрологии и интернет-серфинга.

Анализ рынка и управление

Ниже перечислены различные области рынка, где используется интеллектуальный анализ данных —

Профилирование клиентов — Data Mining помогает определить, какие люди покупают какие продукты.
Определение требований клиентов — интеллектуальный анализ данных помогает определить лучшие продукты для различных клиентов. Он использует прогноз, чтобы найти факторы, которые могут привлечь новых клиентов.
Cross Market Analysis — Data Mining выполняет ассоциацию / корреляцию между продажами продукта.
Целевой маркетинг — интеллектуальный анализ данных помогает находить кластеры модельных клиентов, которые имеют одинаковые характеристики, такие как интересы, привычки расходов, доходы и т. Д.
Определение покупательской модели — интеллектуальный анализ данных помогает определить покупательскую модель.
Предоставление сводной информации — Data Mining предоставляет нам различные многомерные сводные отчеты.

Профилирование клиентов — Data Mining помогает определить, какие люди покупают какие продукты.

Определение требований клиентов — интеллектуальный анализ данных помогает определить лучшие продукты для различных клиентов. Он использует прогноз, чтобы найти факторы, которые могут привлечь новых клиентов.

Cross Market Analysis — Data Mining выполняет ассоциацию / корреляцию между продажами продукта.

Целевой маркетинг — интеллектуальный анализ данных помогает находить кластеры модельных клиентов, которые имеют одинаковые характеристики, такие как интересы, привычки расходов, доходы и т. Д.

Определение покупательской модели — интеллектуальный анализ данных помогает определить покупательскую модель.

Предоставление сводной информации — Data Mining предоставляет нам различные многомерные сводные отчеты.

Корпоративный анализ и управление рисками

Интеллектуальный анализ данных используется в следующих областях корпоративного сектора —

Финансовое планирование и оценка активов — включает анализ и прогноз денежных потоков, анализ условных требований для оценки активов.
Планирование ресурсов — включает в себя обобщение и сравнение ресурсов и расходов.
Конкуренция — включает в себя мониторинг конкурентов и направления рынка.

Финансовое планирование и оценка активов — включает анализ и прогноз денежных потоков, анализ условных требований для оценки активов.

Планирование ресурсов — включает в себя обобщение и сравнение ресурсов и расходов.

Конкуренция — включает в себя мониторинг конкурентов и направления рынка.

Обнаружение мошенничества

Интеллектуальный анализ данных также используется в сфере обслуживания кредитных карт и телекоммуникаций для обнаружения мошенничества. При мошеннических телефонных звонках он помогает определить пункт назначения звонка, продолжительность звонка, время дня или недели и т. Д. Он также анализирует закономерности, которые отличаются от ожидаемых норм.

Data Mining — Задачи

Интеллектуальный анализ данных имеет дело с типами образцов, которые могут быть добыты. На основе вида данных, которые будут добыты, есть две категории функций, вовлеченных в Data Mining —

описательный
Классификация и прогноз

Описательная функция

Описательная функция имеет дело с общими свойствами данных в базе данных. Вот список описательных функций —

Класс / Концепция Описание
Майнинг частых паттернов
Горное дело ассоциаций
Добыча корреляций
Майнинг кластеров

Класс / Концепция Описание

Класс / понятие относится к данным, которые должны быть связаны с классами или понятиями. Например, в компании классы товаров для продажи включают в себя компьютеры и принтеры, а концепции клиентов включают большие и большие расходы. Такие описания класса или концепции называются описаниями классов / концепций. Эти описания могут быть получены следующими двумя способами:

Характеристика данных — это относится к обобщению данных изучаемого класса. Этот изучаемый класс называется Target Class.
Различение данных — это относится к отображению или классификации класса с некоторой предопределенной группой или классом.

Характеристика данных — это относится к обобщению данных изучаемого класса. Этот изучаемый класс называется Target Class.

Различение данных — это относится к отображению или классификации класса с некоторой предопределенной группой или классом.

Майнинг частых паттернов

Частые шаблоны — это те шаблоны, которые часто встречаются в транзакционных данных. Вот список видов частых паттернов —

Набор часто встречающихся предметов — это набор предметов, которые часто появляются вместе, например, молоко и хлеб.
Частая подпоследовательность — за последовательностью часто встречающихся шаблонов, таких как покупка камеры, следует карта памяти.
Частая Подструктура — Подструктура относится к различным структурным формам, таким как графы, деревья или решетки, которые могут комбинироваться с наборами элементов или подпоследовательностями.

Набор часто встречающихся предметов — это набор предметов, которые часто появляются вместе, например, молоко и хлеб.

Частая подпоследовательность — за последовательностью часто встречающихся шаблонов, таких как покупка камеры, следует карта памяти.

Частая Подструктура — Подструктура относится к различным структурным формам, таким как графы, деревья или решетки, которые могут комбинироваться с наборами элементов или подпоследовательностями.

Горное дело Ассоциации

Ассоциации используются в розничных продажах для определения моделей, которые часто покупаются вместе. Этот процесс относится к процессу выявления взаимосвязи между данными и определения правил ассоциации.

Например, продавец создает правило ассоциации, которое показывает, что 70% времени молоко продается с хлебом, и только 30% случаев печенье продается с хлебом.

Добыча корреляций

Это своего рода дополнительный анализ, выполняемый для выявления интересных статистических корреляций между парами связанных атрибутов-значений или между двумя наборами элементов для анализа того, оказывают ли они положительное, отрицательное влияние или не влияют друг на друга.

Майнинг кластеров

Кластер относится к группе объектов подобного типа. Кластерный анализ относится к формированию группы объектов, которые очень похожи друг на друга, но сильно отличаются от объектов в других кластерах.

Классификация и прогноз

Классификация — это процесс поиска модели, которая описывает классы данных или концепции. Цель состоит в том, чтобы иметь возможность использовать эту модель для прогнозирования класса объектов, чья метка класса неизвестна. Эта производная модель основана на анализе наборов обучающих данных. Производная модель может быть представлена в следующих формах —

Правила классификации (IF-THEN)
Деревья решений
Математические формулы
Нейронные сети

Список функций, участвующих в этих процессах, следующий:

Классификация. Предсказывает класс объектов, метка класса которых неизвестна. Его цель — найти производную модель, которая описывает и различает классы или понятия данных. Производная модель основана на анализе набора обучающих данных, то есть объекта данных, метка класса которого хорошо известна.
Предсказание — используется для прогнозирования отсутствующих или недоступных числовых значений данных, а не меток классов. Регрессионный анализ обычно используется для прогнозирования. Прогнозирование также может быть использовано для идентификации тенденций распределения на основе имеющихся данных.
Анализ выбросов — выбросы могут быть определены как объекты данных, которые не соответствуют общему поведению или модели доступных данных.
Эволюционный анализ — Эволюционный анализ относится к описанию и моделированию закономерностей или тенденций для объектов, поведение которых меняется со временем.

Классификация. Предсказывает класс объектов, метка класса которых неизвестна. Его цель — найти производную модель, которая описывает и различает классы или понятия данных. Производная модель основана на анализе набора обучающих данных, то есть объекта данных, метка класса которого хорошо известна.

Предсказание — используется для прогнозирования отсутствующих или недоступных числовых значений данных, а не меток классов. Регрессионный анализ обычно используется для прогнозирования. Прогнозирование также может быть использовано для идентификации тенденций распределения на основе имеющихся данных.

Анализ выбросов — выбросы могут быть определены как объекты данных, которые не соответствуют общему поведению или модели доступных данных.

Эволюционный анализ — Эволюционный анализ относится к описанию и моделированию закономерностей или тенденций для объектов, поведение которых меняется со временем.

Примитивы задач интеллектуального анализа данных

Мы можем указать задачу интеллектуального анализа данных в форме запроса интеллектуального анализа данных.
Этот запрос вводится в систему.
Запрос на интеллектуальный анализ данных определяется в терминах примитивов задач интеллектуального анализа данных.

Примечание. Эти примитивы позволяют нам взаимодействовать в интерактивном режиме с системой интеллектуального анализа данных. Вот список примитивов Data Mining —

Набор данных, относящихся к задаче, которые будут добыты.
Вид знаний, которые будут добыты.
Базовые знания для использования в процессе обнаружения.
Показатели интереса и пороги для оценки модели.
Представление для визуализации обнаруженных закономерностей.

Набор данных, относящихся к задаче, которые будут добыты

Это та часть базы данных, в которой заинтересован пользователь. Эта часть включает в себя следующее —

Атрибуты базы данных
Измерения хранилища данных представляют интерес

Вид знаний, которые будут добыты

Это относится к виду выполняемых функций. Эти функции —

характеристика
дискриминация
Ассоциативный и корреляционный анализ
классификация
прогнозирование
Кластеризация
Анализ выбросов
Эволюционный анализ

Жизненный опыт

Базовые знания позволяют добывать данные на нескольких уровнях абстракции. Например, иерархии концептов являются одним из базовых знаний, которые позволяют добывать данные на нескольких уровнях абстракции.

Показатели заинтересованности и пороги для оценки модели

Это используется для оценки шаблонов, обнаруженных в процессе обнаружения знаний. Существуют разные интересные меры для разного рода знаний.

Представление для визуализации обнаруженных паттернов

Это относится к форме, в которой должны отображаться обнаруженные шаблоны. Эти представления могут включать в себя следующее. —

правила
таблицы
Графики
диаграммы
Деревья решений
Кубики

Data Mining — Проблемы

Интеллектуальный анализ данных — непростая задача, поскольку используемые алгоритмы могут быть очень сложными, а данные не всегда доступны в одном месте. Он должен быть интегрирован из различных разнородных источников данных. Эти факторы также создают некоторые проблемы. Здесь, в этом уроке, мы обсудим основные вопросы, касающиеся —

Методология майнинга и взаимодействие с пользователем
Проблемы с производительностью
Проблемы различных типов данных

Следующая диаграмма описывает основные проблемы.

Методология майнинга и вопросы взаимодействия с пользователем

Это относится к следующим видам вопросов —

Добыча разных видов знаний в базах данных. Разные пользователи могут быть заинтересованы в разных видах знаний. Поэтому для интеллектуального анализа данных необходимо охватить широкий круг задач по обнаружению знаний.
Интерактивный анализ знаний на нескольких уровнях абстракции. Процесс интеллектуального анализа данных должен быть интерактивным, поскольку он позволяет пользователям сфокусировать поиск шаблонов, предоставляя и уточняя запросы интеллектуального анализа данных на основе возвращенных результатов.
Включение фоновых знаний — Для руководства процессом обнаружения и для выражения обнаруженных шаблонов, фоновые знания могут быть использованы. Базовые знания могут использоваться для выражения обнаруженных закономерностей не только в сжатых терминах, но и на нескольких уровнях абстракции.
Языки запросов интеллектуального анализа данных и специальный анализ данных. Язык запросов интеллектуального анализа данных, который позволяет пользователю описывать специальные задачи интеллектуального анализа данных, должен быть интегрирован с языком запросов хранилища данных и оптимизирован для эффективного и гибкого интеллектуального анализа данных.
Представление и визуализация результатов интеллектуального анализа данных. Как только шаблоны обнаружены, их необходимо выразить на языках высокого уровня и в визуальных представлениях. Эти представления должны быть легко понятны.
Обработка шумных или неполных данных . Методы очистки данных необходимы для обработки шума и неполных объектов при выявлении закономерностей данных. Если методы очистки данных отсутствуют, точность обнаруженных шаблонов будет низкой.
Оценка шаблонов. Обнаруженные шаблоны должны быть интересными, поскольку они либо представляют собой общеизвестные знания, либо лишены новизны.

Добыча разных видов знаний в базах данных. Разные пользователи могут быть заинтересованы в разных видах знаний. Поэтому для интеллектуального анализа данных необходимо охватить широкий круг задач по обнаружению знаний.

Интерактивный анализ знаний на нескольких уровнях абстракции. Процесс интеллектуального анализа данных должен быть интерактивным, поскольку он позволяет пользователям сфокусировать поиск шаблонов, предоставляя и уточняя запросы интеллектуального анализа данных на основе возвращенных результатов.

Включение фоновых знаний — Для руководства процессом обнаружения и для выражения обнаруженных шаблонов, фоновые знания могут быть использованы. Базовые знания могут использоваться для выражения обнаруженных закономерностей не только в сжатых терминах, но и на нескольких уровнях абстракции.

Языки запросов интеллектуального анализа данных и специальный анализ данных. Язык запросов интеллектуального анализа данных, который позволяет пользователю описывать специальные задачи интеллектуального анализа данных, должен быть интегрирован с языком запросов хранилища данных и оптимизирован для эффективного и гибкого интеллектуального анализа данных.

Представление и визуализация результатов интеллектуального анализа данных. Как только шаблоны обнаружены, их необходимо выразить на языках высокого уровня и в визуальных представлениях. Эти представления должны быть легко понятны.

Обработка шумных или неполных данных . Методы очистки данных необходимы для обработки шума и неполных объектов при выявлении закономерностей данных. Если методы очистки данных отсутствуют, точность обнаруженных шаблонов будет низкой.

Оценка шаблонов. Обнаруженные шаблоны должны быть интересными, поскольку они либо представляют собой общеизвестные знания, либо лишены новизны.

Проблемы с производительностью

Могут быть проблемы, связанные с производительностью, такие как:

Эффективность и масштабируемость алгоритмов интеллектуального анализа данных. Чтобы эффективно извлекать информацию из огромного объема данных в базах данных, алгоритм интеллектуального анализа данных должен быть эффективным и масштабируемым.
Алгоритмы параллельного, распределенного и инкрементного майнинга. Такие факторы, как огромный размер баз данных, широкое распространение данных и сложность методов интеллектуального анализа данных, мотивируют разработку алгоритмов параллельного и распределенного анализа данных. Эти алгоритмы делят данные на разделы, которые затем обрабатываются параллельно. Затем результаты из разделов объединяются. Инкрементные алгоритмы, обновляйте базы данных без повторного анализа данных с нуля.

Эффективность и масштабируемость алгоритмов интеллектуального анализа данных. Чтобы эффективно извлекать информацию из огромного объема данных в базах данных, алгоритм интеллектуального анализа данных должен быть эффективным и масштабируемым.

Алгоритмы параллельного, распределенного и инкрементного майнинга. Такие факторы, как огромный размер баз данных, широкое распространение данных и сложность методов интеллектуального анализа данных, мотивируют разработку алгоритмов параллельного и распределенного анализа данных. Эти алгоритмы делят данные на разделы, которые затем обрабатываются параллельно. Затем результаты из разделов объединяются. Инкрементные алгоритмы, обновляйте базы данных без повторного анализа данных с нуля.

Проблемы различных типов данных

Обработка реляционных и сложных типов данных. База данных может содержать сложные объекты данных, объекты мультимедийных данных, пространственные данные, временные данные и т. Д. Одна система не может получить все эти данные.
Добыча информации из разнородных баз данных и глобальных информационных систем . Данные доступны в разных источниках данных в локальной или глобальной сети. Эти источники данных могут быть структурированными, полуструктурированными или неструктурированными. Поэтому извлечение знаний из них создает проблемы для интеллектуального анализа данных.

Обработка реляционных и сложных типов данных. База данных может содержать сложные объекты данных, объекты мультимедийных данных, пространственные данные, временные данные и т. Д. Одна система не может получить все эти данные.

Добыча информации из разнородных баз данных и глобальных информационных систем . Данные доступны в разных источниках данных в локальной или глобальной сети. Эти источники данных могут быть структурированными, полуструктурированными или неструктурированными. Поэтому извлечение знаний из них создает проблемы для интеллектуального анализа данных.

Data Mining — Оценка

Хранилище данных

Хранилище данных обладает следующими характеристиками для поддержки процесса принятия решений руководством:

Предметно-ориентированный. Хранилище данных является предметно-ориентированным, поскольку предоставляет нам информацию о предмете, а не о текущих операциях организации. Такими субъектами могут быть продукт, клиенты, поставщики, продажи, выручка и т. Д. Хранилище данных не ориентировано на текущие операции, а сосредоточено на моделировании и анализе данных для принятия решений.
Интегрированный — хранилище данных строится путем интеграции данных из разнородных источников, таких как реляционные базы данных, плоские файлы и т. Д. Эта интеграция повышает эффективность анализа данных.
Вариант времени — данные, собранные в хранилище данных, идентифицируются с определенным периодом времени. Данные в хранилище данных предоставляют информацию с исторической точки зрения.
Энергонезависимый — энергонезависимый означает, что предыдущие данные не удаляются при добавлении новых данных. Хранилище данных хранится отдельно от оперативной базы данных, поэтому частые изменения в оперативной базе данных не отражаются в хранилище данных.

Предметно-ориентированный. Хранилище данных является предметно-ориентированным, поскольку предоставляет нам информацию о предмете, а не о текущих операциях организации. Такими субъектами могут быть продукт, клиенты, поставщики, продажи, выручка и т. Д. Хранилище данных не ориентировано на текущие операции, а сосредоточено на моделировании и анализе данных для принятия решений.

Интегрированный — хранилище данных строится путем интеграции данных из разнородных источников, таких как реляционные базы данных, плоские файлы и т. Д. Эта интеграция повышает эффективность анализа данных.

Вариант времени — данные, собранные в хранилище данных, идентифицируются с определенным периодом времени. Данные в хранилище данных предоставляют информацию с исторической точки зрения.

Энергонезависимый — энергонезависимый означает, что предыдущие данные не удаляются при добавлении новых данных. Хранилище данных хранится отдельно от оперативной базы данных, поэтому частые изменения в оперативной базе данных не отражаются в хранилище данных.

Хранилище данных

Хранилище данных — это процесс построения и использования хранилища данных. Хранилище данных создается путем интеграции данных из нескольких разнородных источников. Он поддерживает аналитическую отчетность, структурированные и / или специальные запросы и принятие решений.

Хранилище данных включает в себя очистку данных, интеграцию данных и консолидацию данных. Для интеграции разнородных баз данных у нас есть два следующих подхода:

Query Driven подход
Обновить управляемый подход

Query-Driven подход

Это традиционный подход к интеграции разнородных баз данных. Этот подход используется для создания оболочек и интеграторов поверх множества разнородных баз данных. Эти интеграторы также известны как посредники.

Процесс запроса управляемый подход

Когда запрос выдается на стороне клиента, словарь метаданных преобразует запрос в запросы, соответствующие отдельному гетерогенному участку.
Теперь эти запросы отображаются и отправляются локальному обработчику запросов.
Результаты из разнородных сайтов интегрированы в глобальный набор ответов.

Когда запрос выдается на стороне клиента, словарь метаданных преобразует запрос в запросы, соответствующие отдельному гетерогенному участку.

Теперь эти запросы отображаются и отправляются локальному обработчику запросов.

Результаты из разнородных сайтов интегрированы в глобальный набор ответов.

Недостатки

Этот подход имеет следующие недостатки —

Подход, основанный на запросах, требует сложных процессов интеграции и фильтрации.
Это очень неэффективно и очень дорого для частых запросов.
Этот подход дорог для запросов, которые требуют агрегирования.

Подход, основанный на запросах, требует сложных процессов интеграции и фильтрации.

Это очень неэффективно и очень дорого для частых запросов.

Этот подход дорог для запросов, которые требуют агрегирования.

Обновленный подход

Современные системы хранения данных следуют подходу, основанному на обновлениях, а не традиционному подходу, который обсуждался ранее. В подходе, основанном на обновлении, информация из нескольких разнородных источников заранее интегрируется и сохраняется на складе. Эта информация доступна для прямого запроса и анализа.

преимущества

Этот подход имеет следующие преимущества —

Такой подход обеспечивает высокую производительность.
Данные могут быть заранее скопированы, обработаны, интегрированы, аннотированы, обобщены и реструктурированы в хранилище семантических данных.

Такой подход обеспечивает высокую производительность.

Данные могут быть заранее скопированы, обработаны, интегрированы, аннотированы, обобщены и реструктурированы в хранилище семантических данных.

Обработка запросов не требует взаимодействия с обработкой на локальных источниках.

От хранилища данных (OLAP) к интеллектуальному анализу данных (OLAM)

Online Analytical Mining интегрируется с Online Analytical Processing с интеллектуальным анализом данных и интеллектуальным анализом в многомерных базах данных. Вот схема, которая показывает интеграцию OLAP и OLAM —

Важность OLAM

OLAM важен по следующим причинам —

Высокое качество данных в хранилищах данных. Инструменты интеллектуального анализа данных необходимы для работы с интегрированными, согласованными и очищенными данными. Эти шаги очень дороги при предварительной обработке данных. Хранилища данных, созданные с помощью такой предварительной обработки, являются ценными источниками высококачественных данных для OLAP и интеллектуального анализа данных.
Доступная инфраструктура обработки информации, окружающая хранилища данных. Инфраструктура обработки информации относится к доступу, интеграции, консолидации и преобразованию нескольких разнородных баз данных, средствам доступа в Интернет и обслуживания, инструментам отчетности и анализа OLAP.
Исследовательский анализ данных на основе OLAP. Для эффективного извлечения данных необходим исследовательский анализ данных. OLAM предоставляет средства для интеллектуального анализа данных на различных подмножествах данных и на разных уровнях абстракции.
Онлайновый выбор функций интеллектуального анализа данных. Интеграция OLAP с несколькими функциями интеллектуального анализа данных и интерактивным аналитическим анализом данных дает пользователям возможность гибко выбирать нужные функции интеллектуального анализа данных и динамически заменять задачи интеллектуального анализа данных.

Высокое качество данных в хранилищах данных. Инструменты интеллектуального анализа данных необходимы для работы с интегрированными, согласованными и очищенными данными. Эти шаги очень дороги при предварительной обработке данных. Хранилища данных, созданные с помощью такой предварительной обработки, являются ценными источниками высококачественных данных для OLAP и интеллектуального анализа данных.

Доступная инфраструктура обработки информации, окружающая хранилища данных. Инфраструктура обработки информации относится к доступу, интеграции, консолидации и преобразованию нескольких разнородных баз данных, средствам доступа в Интернет и обслуживания, инструментам отчетности и анализа OLAP.

Исследовательский анализ данных на основе OLAP. Для эффективного извлечения данных необходим исследовательский анализ данных. OLAM предоставляет средства для интеллектуального анализа данных на различных подмножествах данных и на разных уровнях абстракции.

Онлайновый выбор функций интеллектуального анализа данных. Интеграция OLAP с несколькими функциями интеллектуального анализа данных и интерактивным аналитическим анализом данных дает пользователям возможность гибко выбирать нужные функции интеллектуального анализа данных и динамически заменять задачи интеллектуального анализа данных.

Data Mining — Терминология

Сбор данных

Интеллектуальный анализ данных определяется как извлечение информации из огромного набора данных. Другими словами, мы можем сказать, что интеллектуальный анализ данных извлекает знания из данных. Эта информация может использоваться для любого из следующих приложений —

Анализ рынка
Обнаружение мошенничества
Удержание клиентов
Контроль производства
Наука Разведка

Data Mining Engine

Механизм интеллектуального анализа данных очень важен для системы интеллектуального анализа данных. Он состоит из набора функциональных модулей, которые выполняют следующие функции —

характеристика
Ассоциативный и корреляционный анализ
классификация
прогнозирование
Кластерный анализ
Анализ выбросов
Эволюционный анализ

База знаний

Это область знаний. Эти знания используются, чтобы вести поиск или оценивать интересность полученных шаблонов.

Открытие знаний

Некоторые люди рассматривают интеллектуальный анализ данных так же, как обнаружение знаний, в то время как другие рассматривают интеллектуальный анализ данных как важный шаг в процессе обнаружения знаний. Вот список шагов, вовлеченных в процесс обнаружения знаний —

Очистка данных
Интеграция данных
Выбор данных
Преобразование данных
Сбор данных
Оценка шаблона
Презентация знаний

Пользовательский интерфейс

Пользовательский интерфейс — это модуль системы интеллектуального анализа данных, который помогает в коммуникации между пользователями и системой интеллектуального анализа данных. Пользовательский интерфейс позволяет следующие функции —

Взаимодействуйте с системой, указав задачу запроса данных.
Предоставление информации, чтобы помочь сосредоточиться на поиске.
Майнинг основан на промежуточных результатах интеллектуального анализа данных.
Просмотрите базы данных и схемы хранилища данных или структуры данных.
Оценить добытые образцы.
Визуализируйте шаблоны в разных формах.

Интеграция данных

Интеграция данных — это метод предварительной обработки данных, который объединяет данные из нескольких разнородных источников данных в единое хранилище данных. Интеграция данных может включать противоречивые данные и, следовательно, требует очистки данных.

Очистка данных

Очистка данных — это метод, который применяется для удаления зашумленных данных и исправления несоответствий в данных. Очистка данных включает в себя преобразования для исправления неправильных данных. Очистка данных выполняется как этап предварительной обработки данных при подготовке данных для хранилища данных.

Выбор данных

Выбор данных — это процесс, в котором данные, относящиеся к задаче анализа, извлекаются из базы данных. Иногда преобразование и консолидация данных выполняются до процесса выбора данных.

Кластеры

Преобразование данных

На этом этапе данные преобразуются или объединяются в формы, подходящие для майнинга, путем выполнения операций суммирования или агрегирования.

Data Mining — Открытие знаний

Что такое открытие знаний?

Некоторые люди не отличают интеллектуальный анализ данных от обнаружения знаний, в то время как другие рассматривают интеллектуальный анализ данных как важный шаг в процессе обнаружения знаний. Вот список шагов, вовлеченных в процесс обнаружения знаний —

Очистка данных — на этом этапе шум и несогласованные данные удаляются.
Интеграция данных — на этом этапе объединяются несколько источников данных.
Выбор данных — на этом этапе данные, относящиеся к задаче анализа, извлекаются из базы данных.
Преобразование данных — на этом этапе данные преобразуются или объединяются в формы, подходящие для интеллектуального анализа данных, путем выполнения операций суммирования или агрегирования.
Data Mining — на этом этапе применяются интеллектуальные методы для извлечения шаблонов данных.
Оценка шаблона. На этом этапе оцениваются шаблоны данных.
Представление знаний — На этом этапе представлены знания.

Очистка данных — на этом этапе шум и несогласованные данные удаляются.

Интеграция данных — на этом этапе объединяются несколько источников данных.

Выбор данных — на этом этапе данные, относящиеся к задаче анализа, извлекаются из базы данных.

Преобразование данных — на этом этапе данные преобразуются или объединяются в формы, подходящие для интеллектуального анализа данных, путем выполнения операций суммирования или агрегирования.

Data Mining — на этом этапе применяются интеллектуальные методы для извлечения шаблонов данных.

Оценка шаблона. На этом этапе оцениваются шаблоны данных.

Представление знаний — На этом этапе представлены знания.

Следующая диаграмма показывает процесс обнаружения знаний —

Data Mining — Системы

Существует большое разнообразие доступных систем интеллектуального анализа данных. Системы интеллектуального анализа данных могут включать в себя следующие методы:

Пространственный анализ данных
Поиск информации
Распознавание образов
Анализ изображений
Обработка сигнала
Компьютерная графика
Веб-технологии
Бизнес
Биоинформатика

Классификация систем интеллектуального анализа данных

Система интеллектуального анализа данных может быть классифицирована в соответствии со следующими критериями —

Технология баз данных
Статистика
Машинное обучение
Информационная наука
Визуализация
Другие Дисциплины

Помимо этого, система интеллектуального анализа данных также может быть классифицирована на основе вида (а) добываемых баз данных, (б) добываемых знаний, (в) используемых методов и (d) адаптированных приложений.

Классификация на основе разрабатываемых баз данных

Мы можем классифицировать систему интеллектуального анализа данных по типу добываемых баз данных. Система базы данных может быть классифицирована в соответствии с различными критериями, такими как модели данных, типы данных и т. Д. И система интеллектуального анализа данных может быть классифицирована соответствующим образом.

Например, если мы классифицируем базу данных в соответствии с моделью данных, то у нас может быть реляционная, транзакционная, объектно-реляционная или хранилище данных.

Классификация на основе вида знаний, добытых

Мы можем классифицировать систему интеллектуального анализа данных в зависимости от вида добываемых знаний. Это означает, что система интеллектуального анализа данных классифицируется на основе таких функций, как —

характеристика
дискриминация
Ассоциативный и корреляционный анализ
классификация
прогнозирование
Анализ выбросов
Эволюционный анализ

Классификация, основанная на используемых методах

Мы можем классифицировать систему интеллектуального анализа данных в соответствии с используемыми методами. Мы можем описать эти методы в зависимости от степени взаимодействия с пользователем или методов анализа.

Классификация на основе адаптированных приложений

Мы можем классифицировать систему интеллектуального анализа данных в соответствии с адаптированными приложениями. Эти приложения следующие —

финансов
связь
ДНК
Фондовые рынки
Эл. почта

Интеграция системы интеллектуального анализа данных с системой DB / DW

Если система интеллектуального анализа данных не интегрирована с базой данных или системой хранилища данных, то не будет никакой системы для связи. Эта схема известна как схема без связи. В этой схеме основное внимание уделяется проектированию интеллектуального анализа данных и разработке эффективных и действенных алгоритмов для анализа доступных наборов данных.

Список схем интеграции выглядит следующим образом:

Нет связи — в этой схеме система интеллектуального анализа данных не использует ни одну из функций базы данных или хранилища данных. Он извлекает данные из определенного источника и обрабатывает эти данные, используя некоторые алгоритмы интеллектуального анализа данных. Результат интеллектуального анализа данных сохраняется в другом файле.
Слабая связь — в этой схеме система интеллектуального анализа данных может использовать некоторые функции базы данных и системы хранилища данных. Он извлекает данные из респираторных данных, управляемых этими системами, и выполняет анализ данных на этих данных. Затем он сохраняет результаты интеллектуального анализа либо в файле, либо в указанном месте в базе данных или в хранилище данных.
Полугерметичное соединение — в этой схеме система интеллектуального анализа данных связана с базой данных или системой хранилища данных, и в дополнение к этому в базе данных могут быть обеспечены эффективные реализации нескольких примитивов интеллектуального анализа данных.
Тесная связь — в этой схеме связи система интеллектуального анализа данных плавно интегрируется в базу данных или систему хранилища данных. Подсистема интеллектуального анализа данных рассматривается как один функциональный компонент информационной системы.

Нет связи — в этой схеме система интеллектуального анализа данных не использует ни одну из функций базы данных или хранилища данных. Он извлекает данные из определенного источника и обрабатывает эти данные, используя некоторые алгоритмы интеллектуального анализа данных. Результат интеллектуального анализа данных сохраняется в другом файле.

Слабая связь — в этой схеме система интеллектуального анализа данных может использовать некоторые функции базы данных и системы хранилища данных. Он извлекает данные из респираторных данных, управляемых этими системами, и выполняет анализ данных на этих данных. Затем он сохраняет результаты интеллектуального анализа либо в файле, либо в указанном месте в базе данных или в хранилище данных.

Полугерметичное соединение — в этой схеме система интеллектуального анализа данных связана с базой данных или системой хранилища данных, и в дополнение к этому в базе данных могут быть обеспечены эффективные реализации нескольких примитивов интеллектуального анализа данных.

Тесная связь — в этой схеме связи система интеллектуального анализа данных плавно интегрируется в базу данных или систему хранилища данных. Подсистема интеллектуального анализа данных рассматривается как один функциональный компонент информационной системы.

Data Mining — Язык запросов

Язык Data Mining Query Language (DMQL) был предложен Han, Fu, Wang, et al. для системы интеллектуального анализа данных DBMiner. Язык запросов интеллектуального анализа данных фактически основан на языке структурированных запросов (SQL). Data Mining Query Languages могут быть разработаны для поддержки специального и интерактивного анализа данных. Этот DMQL предоставляет команды для определения примитивов. DMQL также может работать с базами данных и хранилищами данных. DMQL может использоваться для определения задач интеллектуального анализа данных. В частности, мы рассмотрим, как определить хранилища данных и витрины данных в DMQL.

Синтаксис для спецификации данных, связанных с задачей

Вот синтаксис DMQL для указания данных, относящихся к задаче —

use database database_name

or 

use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list

Синтаксис для указания вида знаний

Здесь мы обсудим синтаксис для характеристики, дискриминации, ассоциации, классификации и прогнозирования.

характеристика

Синтаксис для характеристики —

mine characteristics [as pattern_name]
   analyze  {measure(s) }

Предложение анализа определяет совокупные показатели, такие как количество, сумма или количество%.

Например —

Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%

дискриминация

Синтаксис для дискриминации —

mine comparison [as {pattern_name]}
For {target_class } where  {t arget_condition } 
{versus  {contrast_class_i }
where {contrast_condition_i}}  
analyze  {measure(s) }

Например, пользователь может определить крупных клиентов как клиентов, которые покупают товары в среднем по 100 долларов или более; и бюджет тратится как клиенты, которые покупают товары в среднем менее чем за 100 долларов. Изучение описания дискриминантов для клиентов из каждой из этих категорий может быть указано в DMQL как —

mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count

ассоциация

Синтаксис для ассоциации is-

mine associations [ as {pattern_name} ]
{matching {metapattern} }

Например —

mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)

где X — ключ отношения с клиентом; P и Q — переменные предиката; и W, Y и Z являются объектными переменными.

классификация

Синтаксис для классификации —

mine classification [as pattern_name]
analyze classifying_attribute_or_dimension

Например, для майнинга шаблонов, классификации кредитного рейтинга клиента, где классы определяются атрибутом credit_rating, а классификация шахты определяется как classifyCustomerCreditRating.

analyze credit_rating

прогнозирование

Синтаксис для прогнозирования —

mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

Синтаксис для спецификации иерархии понятий

Чтобы указать иерархии понятий, используйте следующий синтаксис —

use hierarchy <hierarchy> for <attribute_or_dimension>

Мы используем разные синтаксисы для определения различных типов иерархий, таких как:

-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior

-operation-derived hierarchies
define hierarchy age_hierarchy  for age  on customer  as
{age_category(1), ..., age_category(5)} 
:= cluster(default, age, 5) < all(age)

-rule-based hierarchies
define hierarchy profit_margin_hierarchy  on item  as
level_1: low_profit_margin < level_0:  all

if (price - cost)< $50
   level_1:  medium-profit_margin < level_0:  all
   
if ((price - cost) > $50)  and ((price - cost) ≤ $250)) 
   level_1:  high_profit_margin < level_0:  all

Синтаксис для спецификации мер интереса

Меры и пороги заинтересованности могут быть указаны пользователем с помощью заявления —

with <interest_measure_name>  threshold = threshold_value

Например —

with support threshold = 0.05
with confidence threshold = 0.7

Синтаксис для представления шаблона и спецификации визуализации

У нас есть синтаксис, который позволяет пользователям указывать отображение обнаруженных шаблонов в одной или нескольких формах.

display as <result_form>

Например —

display as table

Полная спецификация DMQL

Как менеджер по маркетингу компании, вы хотели бы охарактеризовать покупательские привычки клиентов, которые могут покупать товары по цене не менее 100 долларов США; с учетом возраста покупателя, типа приобретенного товара и места, где он был приобретен. Вы хотели бы знать процент клиентов, имеющих эту характеристику. В частности, вас интересуют только покупки, сделанные в Канаде и оплаченные кредитной картой American Express. Вы хотели бы просмотреть результирующие описания в виде таблицы.

use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S,  branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table

Стандартизация языков интеллектуального анализа данных

Стандартизация языков интеллектуального анализа данных будет служить следующим целям —

Помогает систематической разработке решений для интеллектуального анализа данных.
Улучшает взаимодействие между несколькими системами и функциями интеллектуального анализа данных.
Способствует образованию и быстрому обучению.
Способствует использованию систем интеллектуального анализа данных в промышленности и обществе.

Помогает систематической разработке решений для интеллектуального анализа данных.

Улучшает взаимодействие между несколькими системами и функциями интеллектуального анализа данных.

Способствует образованию и быстрому обучению.

Способствует использованию систем интеллектуального анализа данных в промышленности и обществе.

Data Mining — классификация и прогнозирование

Существует две формы анализа данных, которые можно использовать для извлечения моделей, описывающих важные классы, или для прогнозирования будущих трендов данных. Эти две формы следующие:

классификация
прогнозирование

Классификационные модели предсказывают категориальные метки классов; и модели прогнозирования предсказывают непрерывные функции. Например, мы можем построить классификационную модель, чтобы классифицировать банковские кредитные заявки как безопасные или рискованные, или прогнозную модель для прогнозирования расходов в долларах потенциальных клиентов на компьютерное оборудование с учетом их доходов и профессии.

Что такое классификация?

Ниже приведены примеры случаев, когда задачей анализа данных является классификация.

Сотрудник банка по кредитам хочет проанализировать данные, чтобы узнать, какой клиент (соискатель кредита) является рискованным или кто в безопасности.
Менеджер по маркетингу в компании должен проанализировать клиента с заданным профилем, который купит новый компьютер.

Сотрудник банка по кредитам хочет проанализировать данные, чтобы узнать, какой клиент (соискатель кредита) является рискованным или кто в безопасности.

Менеджер по маркетингу в компании должен проанализировать клиента с заданным профилем, который купит новый компьютер.

В обоих приведенных выше примерах модель или классификатор строятся для прогнозирования категориальных меток. Эти ярлыки опасны или безопасны для данных заявки на кредит и да или нет для данных маркетинга.

Что такое прогноз?

Ниже приведены примеры случаев, когда задачей анализа данных является прогнозирование.

Предположим, что менеджер по маркетингу должен предсказать, сколько данный клиент потратит во время продажи в своей компании. В этом примере мы пытаемся предсказать числовое значение. Поэтому задача анализа данных является примером численного прогнозирования. В этом случае будет построена модель или предиктор, который предсказывает непрерывную функцию или упорядоченное значение.

Примечание. Регрессионный анализ — это статистическая методология, которая чаще всего используется для численного прогнозирования.

Как работает классификация?

С помощью заявки на получение банковского кредита, о которой мы говорили выше, давайте разберемся в работе классификации. Процесс классификации данных включает два этапа:

Построение классификатора или модели
Использование классификатора для классификации

Построение классификатора или модели

Этот этап является этапом обучения или этапом обучения.
На этом этапе алгоритмы классификации строят классификатор.
Классификатор построен из обучающего набора, состоящего из кортежей базы данных и связанных с ними меток классов.
Каждый кортеж, составляющий тренировочный набор, называется категорией или классом. Эти кортежи также могут называться образцами, объектами или точками данных.

Этот этап является этапом обучения или этапом обучения.

На этом этапе алгоритмы классификации строят классификатор.

Классификатор построен из обучающего набора, состоящего из кортежей базы данных и связанных с ними меток классов.

Каждый кортеж, составляющий тренировочный набор, называется категорией или классом. Эти кортежи также могут называться образцами, объектами или точками данных.

Использование классификатора для классификации

На этом этапе классификатор используется для классификации. Здесь данные теста используются для оценки точности правил классификации. Правила классификации могут применяться к новым кортежам данных, если точность считается приемлемой.

Вопросы классификации и прогнозирования

Основная проблема заключается в подготовке данных для классификации и прогнозирования. Подготовка данных включает в себя следующие действия —

Очистка данных — Очистка данных включает в себя удаление шума и обработку пропущенных значений. Шум удаляется путем применения методов сглаживания, а проблема пропущенных значений решается путем замены пропущенного значения наиболее часто встречающимся значением для этого атрибута.
Анализ релевантности — база данных также может иметь нерелевантные атрибуты. Корреляционный анализ используется, чтобы узнать, связаны ли какие-либо два заданных атрибута.
Преобразование и сокращение данных — данные могут быть преобразованы любым из следующих способов.
- Нормализация — данные преобразуются с использованием нормализации. Нормализация включает в себя масштабирование всех значений для данного атрибута, чтобы они попадали в небольшой заданный диапазон. Нормализация используется, когда на этапе обучения используются нейронные сети или методы, включающие измерения.
- Обобщение — данные также можно преобразовать, обобщив их в более высокую концепцию. Для этого мы можем использовать иерархию понятий.

Очистка данных — Очистка данных включает в себя удаление шума и обработку пропущенных значений. Шум удаляется путем применения методов сглаживания, а проблема пропущенных значений решается путем замены пропущенного значения наиболее часто встречающимся значением для этого атрибута.

Анализ релевантности — база данных также может иметь нерелевантные атрибуты. Корреляционный анализ используется, чтобы узнать, связаны ли какие-либо два заданных атрибута.

Преобразование и сокращение данных — данные могут быть преобразованы любым из следующих способов.

Нормализация — данные преобразуются с использованием нормализации. Нормализация включает в себя масштабирование всех значений для данного атрибута, чтобы они попадали в небольшой заданный диапазон. Нормализация используется, когда на этапе обучения используются нейронные сети или методы, включающие измерения.

Обобщение — данные также можно преобразовать, обобщив их в более высокую концепцию. Для этого мы можем использовать иерархию понятий.

Примечание. Данные также можно сократить с помощью некоторых других методов, таких как вейвлет-преобразование, группирование, анализ гистограмм и кластеризация.

Сравнение методов классификации и прогнозирования

Вот критерии для сравнения методов классификации и прогнозирования —

Точность — Точность классификатора относится к способности классификатора. Он правильно предсказывает метку класса, а точность предиктора указывает, насколько хорошо данный предиктор может угадать значение прогнозируемого атрибута для новых данных.
Скорость — это относится к вычислительным затратам при создании и использовании классификатора или предиктора.
Надежность — относится к способности классификатора или предиктора делать правильные прогнозы на основе данных с шумом.
Масштабируемость — Масштабируемость относится к способности эффективно построить классификатор или предиктор; учитывая большое количество данных.
Интерпретируемость. Относится к тому, в какой степени понимает классификатор или предиктор.

Точность — Точность классификатора относится к способности классификатора. Он правильно предсказывает метку класса, а точность предиктора указывает, насколько хорошо данный предиктор может угадать значение прогнозируемого атрибута для новых данных.

Скорость — это относится к вычислительным затратам при создании и использовании классификатора или предиктора.

Надежность — относится к способности классификатора или предиктора делать правильные прогнозы на основе данных с шумом.

Масштабируемость — Масштабируемость относится к способности эффективно построить классификатор или предиктор; учитывая большое количество данных.

Интерпретируемость. Относится к тому, в какой степени понимает классификатор или предиктор.

Интеллектуальный анализ данных — индукция дерева решений

Дерево решений — это структура, которая включает в себя корневой узел, ветви и конечные узлы. Каждый внутренний узел обозначает тест для атрибута, каждая ветвь обозначает результат теста, а каждый конечный узел содержит метку класса. Самым верхним узлом в дереве является корневой узел.

Следующее дерево решений относится к понятию buy_computer, которое указывает, может ли клиент в компании купить компьютер или нет. Каждый внутренний узел представляет собой тест для атрибута. Каждый листовой узел представляет класс.

Преимущества наличия дерева решений следующие:

Не требует никаких знаний в предметной области.
Это легко понять.
Этапы обучения и классификации дерева решений просты и быстры.

Алгоритм индукции дерева решений

Исследователь машин по имени Дж. Росс Куинлан в 1980 году разработал алгоритм дерева решений, известный как ID3 (Итеративный дихотомайзер). Позже он представил C4.5, который был преемником ID3. ID3 и C4.5 используют жадный подход. В этом алгоритме нет возврата; деревья построены рекурсивным способом «разделяй и властвуй» сверху вниз.

Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree

Input:
Data partition, D, which is a set of training tuples 
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data 
tuples into individual classes. This criterion includes a 
splitting_attribute and either a splitting point or splitting subset.

Output:
 A Decision Tree

Method
create a node N;

if tuples in D are all of the same class, C then
   return N as leaf node labeled with class C;
   
if attribute_list is empty then
   return N as leaf node with labeled 
   with majority class in D;|| majority voting
   
apply attribute_selection_method(D, attribute_list) 
to find the best splitting_criterion;
label node N with splitting_criterion;

if splitting_attribute is discrete-valued and
   multiway splits allowed then  // no restricted to binary trees

attribute_list = splitting attribute; // remove splitting attribute
for each outcome j of splitting criterion

   // partition the tuples and grow subtrees for each partition
   let Dj be the set of data tuples in D satisfying outcome j; // a partition
   
   if Dj is empty then
      attach a leaf labeled with the majority 
      class in D to node N;
   else 
      attach the node returned by Generate 
      decision tree(Dj, attribute list) to node N;
   end for
return N;

Обрезка деревьев

Обрезка деревьев выполняется для устранения аномалий в данных тренировки из-за шума или выбросов. Обрезанные деревья меньше и менее сложны.

Подходы для обрезки деревьев

Есть два подхода, чтобы обрезать дерево —

Предварительная обрезка — дерево обрезается за счет преждевременного прекращения строительства.
Постобрезка — этот подход удаляет поддерево из полностью выросшего дерева.

Предварительная обрезка — дерево обрезается за счет преждевременного прекращения строительства.

Постобрезка — этот подход удаляет поддерево из полностью выросшего дерева.

Стоимость Сложность

Сложность стоимости измеряется следующими двумя параметрами:

Количество листьев на дереве и
Коэффициент ошибок по дереву.

Data Mining — Байесовская классификация

Байесовская классификация основана на теореме Байеса. Байесовские классификаторы являются статистическими классификаторами. Байесовские классификаторы могут предсказать вероятности принадлежности к классу, такие как вероятность того, что данный кортеж принадлежит определенному классу.

Теорема Байе

Теорема Байеса названа в честь Томаса Байеса. Есть два типа вероятностей —

Задняя вероятность [P (H / X)]
Априорная вероятность [P (H)]

где X — кортеж данных, а H — некоторая гипотеза.

Согласно теореме Байеса,

P (H / X) = P (X / H) P (H) / P (X)

Байесовская сеть убеждений

Байесовские сети убеждений определяют совместные условные распределения вероятностей. Они также известны как сети убеждений, байесовские сети или вероятностные сети.

Сеть убеждений позволяет определять условные зависимости класса между подмножествами переменных.
Он предоставляет графическую модель причинно-следственной связи, на которой может быть выполнено обучение.
Мы можем использовать обученную байесовскую сеть для классификации.

Сеть убеждений позволяет определять условные зависимости класса между подмножествами переменных.

Он предоставляет графическую модель причинно-следственной связи, на которой может быть выполнено обучение.

Мы можем использовать обученную байесовскую сеть для классификации.

Есть два компонента, которые определяют Байесовскую сеть убеждений —

Направленный ациклический граф
Набор таблиц условной вероятности

Направленный ациклический граф

Каждый узел в ориентированном ациклическом графе представляет случайную величину.
Эти переменные могут быть дискретными или непрерывными.
Эти переменные могут соответствовать фактическому атрибуту, указанному в данных.

Направленное представление ациклического графа

Следующая диаграмма показывает направленный ациклический граф для шести булевых переменных.

Дуга на диаграмме позволяет представить причинное знание. Например, на рак легких влияет семейный анамнез рака легких, а также то, является ли человек курильщиком. Стоит отметить, что переменная PositiveXray не зависит от того, есть ли у пациента семейный анамнез рака легких или является ли он курильщиком, учитывая, что мы знаем, что у пациента рак легких.

Таблица условных вероятностей

Таблица условных вероятностей для значений переменной LungCancer (LC), показывающая каждую возможную комбинацию значений его родительских узлов, FamilyHistory (FH) и Smoker (S), выглядит следующим образом:

Интеллектуальный анализ данных — классификация на основе правил

ЕСЛИ-ТО правила

Основанный на правилах классификатор использует набор правил IF-THEN для классификации. Мы можем выразить правило в следующем из —

ЕСЛИ условие ТО ЗАКЛЮЧЕНИЕ

Рассмотрим правило R1,

R1: IF age = youth AND student = yes 
   THEN buy_computer = yes

Нужно помнить

IF часть правила называется antecedent или предварительное условие правила .
ТОГДА часть правила называется правилом последовательной .
Предыдущая часть условия состоит из одного или нескольких атрибутных тестов, и эти тесты логически объединяются.
Последующая часть состоит из предсказания класса.

IF часть правила называется antecedent или предварительное условие правила .

ТОГДА часть правила называется правилом последовательной .

Предыдущая часть условия состоит из одного или нескольких атрибутных тестов, и эти тесты логически объединяются.

Последующая часть состоит из предсказания класса.

Примечание. Мы также можем написать правило R1 следующим образом:

R1: (age = youth) ^ (student = yes))(buys computer = yes)

Если условие выполняется для данного кортежа, то предшествующий элемент удовлетворяется.

Правило извлечения

Здесь мы узнаем, как построить классификатор на основе правил, извлекая правила IF-THEN из дерева решений.

Нужно помнить

Чтобы извлечь правило из дерева решений —

Одно правило создается для каждого пути от корневого до конечного узла.
Чтобы сформировать предшествующее правило, каждый критерий разбиения логически AND.
Конечный узел содержит прогноз класса, формируя правило, являющееся следствием.

Одно правило создается для каждого пути от корневого до конечного узла.

Чтобы сформировать предшествующее правило, каждый критерий разбиения логически AND.

Конечный узел содержит прогноз класса, формируя правило, являющееся следствием.

Индукция правил с использованием алгоритма последовательного покрытия

Последовательный алгоритм покрытия может быть использован для извлечения IF-THEN правил из обучающих данных. Мы не требуем сначала создавать дерево решений. В этом алгоритме каждое правило для данного класса охватывает множество кортежей этого класса.

Некоторыми из последовательных алгоритмов покрытия являются AQ, CN2 и RIPPER. Согласно общей стратегии правила изучаются по одному. При каждом изучении правил кортеж, на который распространяется правило, удаляется, и процесс продолжается для остальных кортежей. Это связано с тем, что путь к каждому листу в дереве решений соответствует правилу.

Примечание . Индукцию дерева решений можно рассматривать как изучение набора правил одновременно.

Ниже приведен алгоритм последовательного обучения, в котором правила изучаются для одного класса за раз. При изучении правила из класса Ci мы хотим, чтобы правило охватывало все кортежи только из класса C, и никакой кортеж из какого-либо другого класса отсутствовал.

Algorithm: Sequential Covering

Input: 
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty

for each class c do
   
   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;
   
   Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;

Правило Обрезка

Правило сокращено по следующей причине —

Оценка качества производится по оригинальному набору обучающих данных. Правило может хорошо работать с данными обучения, но хуже с последующими данными. Вот почему правило обрезки обязательно.
Правило сокращено, удаляя соединение. Правило R сокращается, если сокращенная версия R имеет большее качество, чем то, что было оценено на независимом наборе кортежей.

Оценка качества производится по оригинальному набору обучающих данных. Правило может хорошо работать с данными обучения, но хуже с последующими данными. Вот почему правило обрезки обязательно.

Правило сокращено, удаляя соединение. Правило R сокращается, если сокращенная версия R имеет большее качество, чем то, что было оценено на независимом наборе кортежей.

FOIL — это один из простых и эффективных методов обрезки правил. Для данного правила R,

FOIL_Prune = pos — neg / pos + neg

где pos и neg — число положительных кортежей, покрытых R, соответственно.

Примечание. Это значение будет увеличиваться с точностью R на наборе обрезки. Следовательно, если значение FOIL_Prune выше для сокращенной версии R, то мы сокращаем R.

Разные методы классификации

Здесь мы обсудим другие методы классификации, такие как генетические алгоритмы, подход грубых множеств и подход нечетких множеств.

Генетические алгоритмы

Идея генетического алгоритма вытекает из естественной эволюции. В генетическом алгоритме, прежде всего, создается начальная популяция. Эта начальная популяция состоит из случайно сгенерированных правил. Мы можем представить каждое правило строкой битов.

Например, в данном обучающем наборе выборки описываются двумя логическими атрибутами, такими как A1 и A2. И этот данный обучающий набор содержит два класса, таких как C1 и C2.

Мы можем закодировать правило ЕСЛИ А1, а не А2, а затем С2 в битовую строку 100 . В этом битовом представлении два крайних левых бита представляют атрибуты А1 и А2 соответственно.

Аналогично, правило ЕСЛИ НЕ А1 И НЕ А2, ТО С1 может быть закодировано как 001 .

Примечание. Если атрибут имеет значения K, где K> 2, то мы можем использовать биты K для кодирования значений атрибута. Классы также кодируются таким же образом.

Нужно помнить

Основываясь на понятии выживания наиболее приспособленных, формируется новая популяция, которая состоит из наиболее приспособленных правил в текущей популяции и значений этих правил для потомства.
Пригодность правила оценивается по точности его классификации на наборе обучающих выборок.
Генетические операторы, такие как скрещивание и мутация, применяются для создания потомства.
В кроссовере подстрока из пары правил меняются местами, образуя новую пару правил.
При мутации случайно выбранные биты в строке правила инвертируются.

Основываясь на понятии выживания наиболее приспособленных, формируется новая популяция, которая состоит из наиболее приспособленных правил в текущей популяции и значений этих правил для потомства.

Пригодность правила оценивается по точности его классификации на наборе обучающих выборок.

Генетические операторы, такие как скрещивание и мутация, применяются для создания потомства.

В кроссовере подстрока из пары правил меняются местами, образуя новую пару правил.

При мутации случайно выбранные биты в строке правила инвертируются.

Грубый подход

Мы можем использовать приблизительный подход, чтобы обнаружить структурные отношения в неточных и шумных данных.

Примечание. Этот подход может применяться только к дискретным атрибутам. Следовательно, непрерывнозначные атрибуты должны быть дискретизированы перед его использованием.

Rough Set Theory основана на установлении классов эквивалентности в данных данных обучения. Кортежи, образующие класс эквивалентности, неразличимы. Это означает, что образцы идентичны в отношении атрибутов, описывающих данные.

В данных реального мира есть несколько классов, которые нельзя различить с точки зрения доступных атрибутов. Мы можем использовать грубые наборы, чтобы приблизительно определить такие классы.

Для данного класса C грубое определение набора аппроксимируется двумя наборами следующим образом:

Нижняя аппроксимация C — нижняя аппроксимация C состоит из всех кортежей данных, которые, основываясь на знании атрибута, наверняка принадлежат классу C.
Верхняя аппроксимация C — верхняя аппроксимация C состоит из всех кортежей, которые, основываясь на знании атрибутов, не могут быть описаны как не принадлежащие C.

Нижняя аппроксимация C — нижняя аппроксимация C состоит из всех кортежей данных, которые, основываясь на знании атрибута, наверняка принадлежат классу C.

Верхняя аппроксимация C — верхняя аппроксимация C состоит из всех кортежей, которые, основываясь на знании атрибутов, не могут быть описаны как не принадлежащие C.

На следующей диаграмме показана верхняя и нижняя аппроксимация класса C —

Подходы нечетких множеств

Теория нечетких множеств также называется теорией вероятностей. Эта теория была предложена Лотфи Заде в 1965 году как альтернатива двухзначной логике и теории вероятностей . Эта теория позволяет нам работать на высоком уровне абстракции. Это также дает нам средства для неточного измерения данных.

Теория нечетких множеств также позволяет нам иметь дело с неопределенными или неточными фактами. Например, членство в группе с высокими доходами является точным (например, если 50 000 долларов высоки, то примерно 49 000 и 48 000 долларов США). В отличие от традиционного набора CRISP, где элемент либо принадлежит S, либо его дополнению, но в теории нечетких множеств элемент может принадлежать более чем одному нечеткому множеству.

Например, значение дохода в 49 000 долларов относится как к средним, так и к высоким нечетким множествам, но в разной степени. Нечеткое обозначение набора для этого значения дохода выглядит следующим образом:

m _{medium_income} ($49k)=0.15 and m _{high_income} ($49k)=0.96

где «m» — функция принадлежности, которая работает с нечеткими множествами medium_income и high_income соответственно. Эта запись может быть схематически показана следующим образом:

Интеллектуальный анализ данных — кластерный анализ

Кластер — это группа объектов, принадлежащих к одному классу. Другими словами, похожие объекты группируются в одном кластере, а разнородные объекты — в другом кластере.

Что такое кластеризация?

Кластеризация — это процесс превращения группы абстрактных объектов в классы похожих объектов.

Очки для запоминания

Кластер объектов данных можно рассматривать как одну группу.
Выполняя кластерный анализ, мы сначала разбиваем набор данных на группы на основе сходства данных, а затем назначаем метки группам.
Основное преимущество кластеризации перед классификацией заключается в том, что она адаптируется к изменениям и помогает выделить полезные функции, которые отличают разные группы.

Кластер объектов данных можно рассматривать как одну группу.

Выполняя кластерный анализ, мы сначала разбиваем набор данных на группы на основе сходства данных, а затем назначаем метки группам.

Основное преимущество кластеризации перед классификацией заключается в том, что она адаптируется к изменениям и помогает выделить полезные функции, которые отличают разные группы.

Приложения кластерного анализа

Кластерный анализ широко используется во многих приложениях, таких как исследование рынка, распознавание образов, анализ данных и обработка изображений.
Кластеризация также может помочь маркетологам обнаружить отдельные группы в своей клиентской базе. И они могут охарактеризовать свои группы клиентов на основе моделей покупки.
В области биологии он может быть использован для выведения таксономий растений и животных, классификации генов с аналогичными функциями и получения понимания структур, присущих популяциям.
Кластеризация также помогает в определении областей схожего землепользования в базе данных наблюдения Земли. Это также помогает в идентификации групп домов в городе в соответствии с типом дома, стоимостью и географическим положением.
Кластеризация также помогает в классификации документов в Интернете для обнаружения информации.
Кластеризация также используется в приложениях обнаружения выбросов, таких как обнаружение мошенничества с кредитными картами.
Как функция интеллектуального анализа данных, кластерный анализ служит инструментом, позволяющим получить представление о распределении данных для наблюдения за характеристиками каждого кластера.

Кластерный анализ широко используется во многих приложениях, таких как исследование рынка, распознавание образов, анализ данных и обработка изображений.

Кластеризация также может помочь маркетологам обнаружить отдельные группы в своей клиентской базе. И они могут охарактеризовать свои группы клиентов на основе моделей покупки.

В области биологии он может быть использован для выведения таксономий растений и животных, классификации генов с аналогичными функциями и получения понимания структур, присущих популяциям.

Кластеризация также помогает в определении областей схожего землепользования в базе данных наблюдения Земли. Это также помогает в идентификации групп домов в городе в соответствии с типом дома, стоимостью и географическим положением.

Кластеризация также помогает в классификации документов в Интернете для обнаружения информации.

Кластеризация также используется в приложениях обнаружения выбросов, таких как обнаружение мошенничества с кредитными картами.

Как функция интеллектуального анализа данных, кластерный анализ служит инструментом, позволяющим получить представление о распределении данных для наблюдения за характеристиками каждого кластера.

Требования к кластеризации в Data Mining

Следующие пункты проливают свет на то, почему в интеллектуальном анализе данных требуется кластеризация.

Масштабируемость. Нам нужны масштабируемые алгоритмы кластеризации для работы с большими базами данных.
Способность работать с различными типами атрибутов. Алгоритмы должны быть в состоянии применяться к любым данным, таким как интервальные (числовые) данные, категориальные и двоичные данные.
Обнаружение кластеров с формой атрибута — алгоритм кластеризации должен быть способен обнаруживать кластеры произвольной формы. Они не должны быть ограничены только мерами расстояния, которые имеют тенденцию находить сферическое скопление небольших размеров.
Высокая размерность . Алгоритм кластеризации должен быть способен обрабатывать не только низкоразмерные данные, но и пространство с большими размерами.
Способность работать с зашумленными данными. Базы данных содержат зашумленные, отсутствующие или ошибочные данные. Некоторые алгоритмы чувствительны к таким данным и могут привести к кластерам низкого качества.
Интерпретируемость. Результаты кластеризации должны быть интерпретируемыми, понятными и пригодными для использования.

Масштабируемость. Нам нужны масштабируемые алгоритмы кластеризации для работы с большими базами данных.

Способность работать с различными типами атрибутов. Алгоритмы должны быть в состоянии применяться к любым данным, таким как интервальные (числовые) данные, категориальные и двоичные данные.

Обнаружение кластеров с формой атрибута — алгоритм кластеризации должен быть способен обнаруживать кластеры произвольной формы. Они не должны быть ограничены только мерами расстояния, которые имеют тенденцию находить сферическое скопление небольших размеров.

Высокая размерность . Алгоритм кластеризации должен быть способен обрабатывать не только низкоразмерные данные, но и пространство с большими размерами.

Способность работать с зашумленными данными. Базы данных содержат зашумленные, отсутствующие или ошибочные данные. Некоторые алгоритмы чувствительны к таким данным и могут привести к кластерам низкого качества.

Интерпретируемость. Результаты кластеризации должны быть интерпретируемыми, понятными и пригодными для использования.

Методы кластеризации

Методы кластеризации можно классифицировать по следующим категориям:

Метод разбиения
Иерархический метод
Метод на основе плотности
Метод на основе сетки
Модельно-ориентированный метод
Метод на основе ограничений

Метод разбиения

Предположим, нам дана база данных из «n» объектов, а метод разбиения создает «k» раздел данных. Каждый раздел будет представлять кластер и k ≤ n. Это означает, что он будет классифицировать данные по k группам, которые удовлетворяют следующим требованиям:

Каждая группа содержит хотя бы один объект.
Каждый объект должен принадлежать ровно одной группе.

Каждая группа содержит хотя бы один объект.

Каждый объект должен принадлежать ровно одной группе.

Нужно помнить

Для заданного количества разделов (скажем, k) метод разделения создаст начальное разделение.
Затем он использует метод итеративного перемещения для улучшения разделения путем перемещения объектов из одной группы в другую.

Для заданного количества разделов (скажем, k) метод разделения создаст начальное разделение.

Затем он использует метод итеративного перемещения для улучшения разделения путем перемещения объектов из одной группы в другую.

Иерархические Методы

Этот метод создает иерархическую декомпозицию заданного набора объектов данных. Мы можем классифицировать иерархические методы на основе того, как формируется иерархическая декомпозиция. Здесь есть два подхода —

Агломерационный подход
Разделительный подход

Агломерационный подход

Этот подход также известен как восходящий подход. В этом мы начнем с каждого объекта, образующего отдельную группу. Он продолжает объединять объекты или группы, которые находятся близко друг к другу. Это продолжается до тех пор, пока все группы не будут объединены в одну или пока не выполнится условие завершения.

Разделительный подход

Этот подход также известен как нисходящий подход. В этом мы начнем со всех объектов в одном кластере. В непрерывной итерации кластер делится на более мелкие кластеры. Он не работает до тех пор, пока не будет соблюден каждый объект в одном кластере или условие завершения. Этот метод является жестким, т. Е. После объединения или разделения его нельзя отменить.

Подходы к улучшению качества иерархической кластеризации

Вот два подхода, которые используются для улучшения качества иерархической кластеризации:

Выполните тщательный анализ связей объектов при каждом иерархическом разделении.
Интегрируйте иерархическую агломерацию, сначала используя иерархический агломерационный алгоритм для группировки объектов в микрокластеры, а затем выполняя макрокластеризацию на микрокластерах.

Выполните тщательный анализ связей объектов при каждом иерархическом разделении.

Интегрируйте иерархическую агломерацию, сначала используя иерархический агломерационный алгоритм для группировки объектов в микрокластеры, а затем выполняя макрокластеризацию на микрокластерах.

Метод на основе плотности

Этот метод основан на понятии плотности. Основная идея состоит в том, чтобы продолжать наращивать данный кластер до тех пор, пока плотность в окрестности превышает некоторый порог, т. Е. Для каждой точки данных в данном кластере радиус данного кластера должен содержать как минимум минимальное количество точек.

Метод на основе сетки

В этом объекты вместе образуют сетку. Пространство объекта квантуется на конечное число ячеек, которые образуют сеточную структуру.

преимущества

Основным преимуществом этого метода является быстрое время обработки.
Он зависит только от количества ячеек в каждом измерении в квантованном пространстве.

Основным преимуществом этого метода является быстрое время обработки.

Он зависит только от количества ячеек в каждом измерении в квантованном пространстве.

Основанные на модели методы

В этом методе модель выдвигается для каждого кластера, чтобы найти наилучшее соответствие данных для данной модели. Этот метод находит кластеры путем кластеризации функции плотности. Он отражает пространственное распределение точек данных.

Этот метод также предоставляет способ автоматического определения количества кластеров на основе стандартной статистики с учетом выброса или шума. Поэтому он дает надежные методы кластеризации.

Метод на основе ограничений

В этом методе кластеризация выполняется путем включения пользовательских или прикладных ограничений. Ограничение относится к ожиданиям пользователя или свойствам желаемых результатов кластеризации. Ограничения предоставляют нам интерактивный способ связи с процессом кластеризации. Ограничения могут быть указаны пользователем или требованиями приложения.

Data Mining — Mining Text Data

Текстовые базы данных состоят из огромной коллекции документов. Они собирают эту информацию из нескольких источников, таких как новостные статьи, книги, электронные библиотеки, сообщения электронной почты, веб-страницы и т. Д. Из-за увеличения объема информации текстовые базы данных быстро растут. Во многих текстовых базах данных данные частично структурированы.

Например, документ может содержать несколько структурированных полей, таких как title, author, publishing_date и т. Д. Но наряду со структурными данными документ также содержит неструктурированные текстовые компоненты, такие как аннотация и содержимое. Не зная, что может быть в документах, сложно сформулировать эффективные запросы для анализа и извлечения полезной информации из данных. Пользователям требуются инструменты для сравнения документов и ранжирования их важности и актуальности. Таким образом, интеллектуальный анализ текста стал популярной и важной темой в интеллектуальном анализе данных.

Поиск информации

Под поиском информации понимается извлечение информации из большого количества текстовых документов. Некоторые из систем баз данных обычно не присутствуют в информационно-поисковых системах, поскольку обе они обрабатывают различные виды данных. Примеры информационно-поисковой системы включают в себя —

Система каталогов онлайн-библиотеки
Системы управления документами онлайн
Системы веб-поиска и т. Д.

Примечание . Основная проблема в информационно-поисковой системе — найти соответствующие документы в коллекции документов на основе запроса пользователя. Этот вид запроса пользователя состоит из нескольких ключевых слов, описывающих информационную потребность.

В таких задачах поиска пользователь берет на себя инициативу по извлечению соответствующей информации из коллекции. Это целесообразно, когда у пользователя есть специальная потребность в информации, то есть краткосрочная потребность. Но если у пользователя есть долгосрочная потребность в информации, тогда поисковая система также может предпринять инициативу для передачи любого вновь поступившего информационного элемента пользователю.

Этот вид доступа к информации называется фильтрацией информации. И соответствующие системы известны как системы фильтрации или системы рекомендаций.

Основные меры для поиска текста

Нам нужно проверить точность системы, когда она получает ряд документов на основе ввода пользователя. Пусть набор документов, относящихся к запросу, будет обозначен как {Соответствующий}, а набор извлеченных документов — как {Восстановленный}. Набор документов, которые являются релевантными и извлеченными, можно обозначить как {Соответствующий} ∩ {Полученный}. Это может быть показано в виде диаграммы Венна следующим образом:

Существует три основных критерия оценки качества поиска текста:

точность
Отзыв
F-оценка

точность

Точность — это процент найденных документов, которые действительно имеют отношение к запросу. Точность может быть определена как —

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Отзыв

Напомним, это процент документов, которые имеют отношение к запросу и были фактически получены. Напомним, определяется как —

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F-оценка

F-оценка является широко используемым компромиссом. Информационно-поисковая система часто нуждается в компромиссе для точности или наоборот. F-оценка определяется как среднее гармонического запоминания или точности следующим образом:

F-score = recall x precision / (recall + precision) / 2

Data Mining — Mining World Wide Web

Всемирная паутина содержит огромное количество информации, которая предоставляет богатый источник для интеллектуального анализа данных.

Проблемы в веб-майнинге

Интернет создает большие проблемы для поиска ресурсов и знаний на основе следующих наблюдений —

Сеть слишком велика — размер сети очень велик и быстро увеличивается. Кажется, что Интернет слишком велик для хранилищ данных и интеллектуального анализа данных.
Сложность веб-страниц — веб-страницы не имеют объединяющей структуры. Они очень сложны по сравнению с традиционным текстовым документом. В цифровой библиотеке сети огромное количество документов. Эти библиотеки расположены не в соответствии с каким-либо конкретным отсортированным порядком.
Сеть — это динамический источник информации. Информация в Интернете быстро обновляется. Такие данные, как новости, фондовые рынки, погода, спорт, покупки и т. Д., Регулярно обновляются.
Разнообразие сообществ пользователей — сообщество пользователей в сети быстро расширяется. Эти пользователи имеют разный опыт, интересы и цели использования. Существует более 100 миллионов рабочих станций, которые подключены к Интернету и продолжают быстро расти.
Актуальность информации. Считается, что конкретный человек, как правило, интересуется лишь небольшой частью сети, тогда как остальная часть сети содержит информацию, которая не относится к пользователю и может затмить желаемые результаты.

Сеть слишком велика — размер сети очень велик и быстро увеличивается. Кажется, что Интернет слишком велик для хранилищ данных и интеллектуального анализа данных.

Сложность веб-страниц — веб-страницы не имеют объединяющей структуры. Они очень сложны по сравнению с традиционным текстовым документом. В цифровой библиотеке сети огромное количество документов. Эти библиотеки расположены не в соответствии с каким-либо конкретным отсортированным порядком.

Сеть — это динамический источник информации. Информация в Интернете быстро обновляется. Такие данные, как новости, фондовые рынки, погода, спорт, покупки и т. Д., Регулярно обновляются.

Разнообразие сообществ пользователей — сообщество пользователей в сети быстро расширяется. Эти пользователи имеют разный опыт, интересы и цели использования. Существует более 100 миллионов рабочих станций, которые подключены к Интернету и продолжают быстро расти.

Актуальность информации. Считается, что конкретный человек, как правило, интересуется лишь небольшой частью сети, тогда как остальная часть сети содержит информацию, которая не относится к пользователю и может затмить желаемые результаты.

Структура макета веб-страницы Mining

Базовая структура веб-страницы основана на объектной модели документа (DOM). Структура DOM относится к древовидной структуре, где HTML-тег на странице соответствует узлу в дереве DOM. Мы можем сегментировать веб-страницу, используя предопределенные теги в HTML. Синтаксис HTML гибкий, поэтому веб-страницы не соответствуют спецификациям W3C. Несоблюдение спецификаций W3C может привести к ошибке в древовидной структуре DOM.

Структура DOM изначально была представлена для представления в браузере, а не для описания семантической структуры веб-страницы. Структура DOM не может правильно идентифицировать семантические отношения между различными частями веб-страницы.

Сегментация страниц на основе видения (VIPS)

Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.
Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.
Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.
Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.
Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.
Семантика веб-страницы построена на основе этих блоков.

Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.

Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.

Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.

Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.

Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.

Семантика веб-страницы построена на основе этих блоков.

На следующем рисунке показана процедура алгоритма VIPS —

Data Mining — приложения и тенденции

Интеллектуальный анализ данных широко используется в различных областях. На сегодняшний день существует ряд коммерческих систем сбора данных, но в этой области существует множество проблем. В этом уроке мы обсудим приложения и тенденции интеллектуального анализа данных.

Приложения для интеллектуального анализа данных

Вот список областей, где широко используется интеллектуальный анализ данных —

Анализ финансовых данных
Розничной торговли
Телекоммуникационная индустрия
Анализ биологических данных
Другие научные приложения
Обнаружения вторжений

Анализ финансовых данных

Финансовые данные в банковской и финансовой индустрии, как правило, надежны и имеют высокое качество, что облегчает систематический анализ данных и их анализ. Некоторые из типичных случаев следующие:

Проектирование и строительство хранилищ данных для многомерного анализа данных и интеллектуального анализа данных.
Прогноз платежей по кредитам и анализ кредитной политики клиентов.
Классификация и кластеризация клиентов для целевого маркетинга.
Выявление отмывания денег и других финансовых преступлений.

Проектирование и строительство хранилищ данных для многомерного анализа данных и интеллектуального анализа данных.

Прогноз платежей по кредитам и анализ кредитной политики клиентов.

Классификация и кластеризация клиентов для целевого маркетинга.

Выявление отмывания денег и других финансовых преступлений.

Розничной торговли

Data Mining имеет большое применение в розничной торговле, поскольку собирает большой объем данных о продажах, истории покупок клиентов, транспортировке товаров, потреблении и услугах. Естественно, что количество собираемых данных будет продолжать быстро расти из-за возрастающей легкости, доступности и популярности сети.

Интеллектуальный анализ данных в розничной торговле помогает выявить модели и тенденции покупок, которые ведут к повышению качества обслуживания клиентов, а также к их удержанию и удовлетворению. Вот список примеров интеллектуального анализа данных в розничной торговле —

Проектирование и строительство хранилищ данных на основе преимуществ интеллектуального анализа данных.
Многомерный анализ продаж, клиентов, продуктов, времени и региона.
Анализ эффективности рекламных кампаний.
Удержание клиентов.
Рекомендация продукта и перекрестные ссылки на товары.

Проектирование и строительство хранилищ данных на основе преимуществ интеллектуального анализа данных.

Многомерный анализ продаж, клиентов, продуктов, времени и региона.

Анализ эффективности рекламных кампаний.

Удержание клиентов.

Рекомендация продукта и перекрестные ссылки на товары.

Телекоммуникационная индустрия

Сегодня телекоммуникационная отрасль является одной из наиболее развивающихся отраслей, предоставляющих различные услуги, такие как факс, пейджер, сотовый телефон, интернет-мессенджер, изображения, электронная почта, передача веб-данных и т. Д. В связи с развитием новых компьютерных и коммуникационных технологий, телекоммуникационная отрасль стремительно расширяется. Это причина, почему интеллектуальный анализ данных становится очень важным, чтобы помочь и понять бизнес.

Интеллектуальный анализ данных в телекоммуникационной отрасли помогает выявлять модели электросвязи, выявлять мошеннические действия, более эффективно использовать ресурсы и улучшать качество обслуживания. Вот список примеров, для которых интеллектуальный анализ данных улучшает телекоммуникационные услуги —

Многомерный анализ телекоммуникационных данных.
Анализ мошеннических паттернов.
Выявление необычных узоров.
Многомерная ассоциация и анализ последовательных паттернов.
Услуги мобильной связи.
Использование инструментов визуализации в анализе телекоммуникационных данных.

Многомерный анализ телекоммуникационных данных.

Анализ мошеннических паттернов.

Выявление необычных узоров.

Многомерная ассоциация и анализ последовательных паттернов.

Услуги мобильной связи.

Использование инструментов визуализации в анализе телекоммуникационных данных.

Анализ биологических данных

В последнее время мы наблюдаем огромный рост в области биологии, такой как геномика, протеомика, функциональная геномика и биомедицинские исследования. Сбор биологических данных является очень важной частью биоинформатики. Ниже приведены аспекты, в которых интеллектуальный анализ данных способствует анализу биологических данных.

Семантическая интеграция гетерогенных, распределенных геномных и протеомных баз данных.
Выравнивание, индексация, поиск сходства и сравнительный анализ множественных нуклеотидных последовательностей.
Открытие структурных структур и анализ генетических сетей и белковых путей.
Ассоциация и анализ пути.
Инструменты визуализации в анализе генетических данных.

Семантическая интеграция гетерогенных, распределенных геномных и протеомных баз данных.

Выравнивание, индексация, поиск сходства и сравнительный анализ множественных нуклеотидных последовательностей.

Открытие структурных структур и анализ генетических сетей и белковых путей.

Ассоциация и анализ пути.

Инструменты визуализации в анализе генетических данных.

Другие научные приложения

Обсуждаемые выше приложения имеют тенденцию обрабатывать относительно небольшие и однородные наборы данных, для которых подходят статистические методы. Огромное количество данных было собрано из научных областей, таких как геонауки, астрономия и т. Д. Из-за быстрого численного моделирования в различных областях, таких как моделирование климата и экосистемы, химическая инженерия, гидродинамика и т. Д., Создается большое количество наборов данных. Ниже приведены приложения интеллектуального анализа данных в области научных приложений —

Хранилища данных и предварительная обработка данных.
График на основе майнинга.
Визуализация и знание предметной области.

Обнаружения вторжений

Вторжение означает любое действие, которое угрожает целостности, конфиденциальности или доступности сетевых ресурсов. В этом мире связи безопасность стала главной проблемой. С ростом использования Интернета и доступности инструментов и приемов для вторжения и атаки на сеть, обнаружение вторжений стало критически важным компонентом сетевого администрирования. Вот список областей, в которых технология интеллектуального анализа данных может применяться для обнаружения вторжений —

Разработка алгоритма интеллектуального анализа данных для обнаружения вторжений.
Анализ ассоциации и корреляции, агрегация, чтобы помочь выбрать и построить различающие атрибуты.
Анализ данных потока.
Распределенный анализ данных.
Инструменты визуализации и запросов.

Разработка алгоритма интеллектуального анализа данных для обнаружения вторжений.

Анализ ассоциации и корреляции, агрегация, чтобы помочь выбрать и построить различающие атрибуты.

Анализ данных потока.

Распределенный анализ данных.

Инструменты визуализации и запросов.

Продукты Data Mining System

Существует множество продуктов для систем интеллектуального анализа данных и приложений для анализа данных в конкретных областях. Новые системы и приложения для интеллектуального анализа данных добавляются в предыдущие системы. Также предпринимаются усилия для стандартизации языков интеллектуального анализа данных.

Выбор системы интеллектуального анализа данных

Выбор системы интеллектуального анализа данных зависит от следующих функций:

Типы данных. Система интеллектуального анализа данных может обрабатывать форматированный текст, данные на основе записей и реляционные данные. Данные также могут быть в виде текста ASCII, данных реляционной базы данных или данных хранилища данных. Поэтому мы должны проверить, какой именно формат может обрабатывать система интеллектуального анализа данных.
Системные проблемы — Мы должны рассмотреть совместимость системы интеллектуального анализа данных с различными операционными системами. Одна система интеллектуального анализа данных может работать только в одной операционной системе или в нескольких. Существуют также системы интеллектуального анализа данных, которые предоставляют веб-интерфейсы пользователя и позволяют вводить данные XML.
Источники данных — Источники данных относятся к форматам данных, в которых будет работать система интеллектуального анализа данных. Некоторые системы интеллектуального анализа данных могут работать только с текстовыми файлами ASCII, а другие — с несколькими реляционными источниками. Система интеллектуального анализа данных также должна поддерживать соединения ODBC или OLE DB для соединений ODBC.
Функции и методологии интеллектуального анализа данных. Существуют некоторые системы интеллектуального анализа данных, которые предоставляют только одну функцию интеллектуального анализа данных, например классификацию, в то время как некоторые предоставляют несколько функций интеллектуального анализа данных, таких как описание концепции, анализ OLAP на основе обнаружения, интеллектуальный анализ ассоциаций, анализ связей, статистический анализ, классификация. прогнозирование, кластеризация, анализ выбросов, поиск сходства и т. д.
Сопоставление интеллектуального анализа данных с базами данных или системами хранилища данных. Системы интеллектуального анализа данных должны сочетаться с базой данных или системой хранилища данных. Связанные компоненты интегрированы в единую среду обработки информации. Вот типы сцепления, перечисленные ниже —
- Нет связи
- Слабая связь
- Полугерметичная муфта
- Тесная связь
Масштабируемость. Есть две проблемы масштабируемости в интеллектуальном анализе данных.
- Масштабируемость строк (размер базы данных). Система интеллектуального анализа данных считается масштабируемой строкой, когда число или строки увеличиваются в 10 раз. Выполнение запроса занимает не более 10 раз.
- Возможность использования столбцов (измерений). Система интеллектуального анализа данных считается масштабируемой по столбцам, если время выполнения запроса интеллектуального анализа увеличивается линейно с числом столбцов.
Инструменты визуализации — Визуализация в интеллектуальном анализе данных может быть классифицирована следующим образом —
- Визуализация данных
- Визуализация результатов майнинга
- Визуализация горного процесса
- Визуальный анализ данных
Язык запросов Data Mining и графический пользовательский интерфейс . Простой в использовании графический пользовательский интерфейс важен для продвижения интерактивного интеллектуального анализа данных. В отличие от систем реляционных баз данных, системы интеллектуального анализа данных не используют общий язык запросов для интеллектуального анализа данных.

Типы данных. Система интеллектуального анализа данных может обрабатывать форматированный текст, данные на основе записей и реляционные данные. Данные также могут быть в виде текста ASCII, данных реляционной базы данных или данных хранилища данных. Поэтому мы должны проверить, какой именно формат может обрабатывать система интеллектуального анализа данных.

Системные проблемы — Мы должны рассмотреть совместимость системы интеллектуального анализа данных с различными операционными системами. Одна система интеллектуального анализа данных может работать только в одной операционной системе или в нескольких. Существуют также системы интеллектуального анализа данных, которые предоставляют веб-интерфейсы пользователя и позволяют вводить данные XML.

Источники данных — Источники данных относятся к форматам данных, в которых будет работать система интеллектуального анализа данных. Некоторые системы интеллектуального анализа данных могут работать только с текстовыми файлами ASCII, а другие — с несколькими реляционными источниками. Система интеллектуального анализа данных также должна поддерживать соединения ODBC или OLE DB для соединений ODBC.

Функции и методологии интеллектуального анализа данных. Существуют некоторые системы интеллектуального анализа данных, которые предоставляют только одну функцию интеллектуального анализа данных, например классификацию, в то время как некоторые предоставляют несколько функций интеллектуального анализа данных, таких как описание концепции, анализ OLAP на основе обнаружения, интеллектуальный анализ ассоциаций, анализ связей, статистический анализ, классификация. прогнозирование, кластеризация, анализ выбросов, поиск сходства и т. д.

Сопоставление интеллектуального анализа данных с базами данных или системами хранилища данных. Системы интеллектуального анализа данных должны сочетаться с базой данных или системой хранилища данных. Связанные компоненты интегрированы в единую среду обработки информации. Вот типы сцепления, перечисленные ниже —

Масштабируемость. Есть две проблемы масштабируемости в интеллектуальном анализе данных.

Масштабируемость строк (размер базы данных). Система интеллектуального анализа данных считается масштабируемой строкой, когда число или строки увеличиваются в 10 раз. Выполнение запроса занимает не более 10 раз.

Возможность использования столбцов (измерений). Система интеллектуального анализа данных считается масштабируемой по столбцам, если время выполнения запроса интеллектуального анализа увеличивается линейно с числом столбцов.

Инструменты визуализации — Визуализация в интеллектуальном анализе данных может быть классифицирована следующим образом —

Язык запросов Data Mining и графический пользовательский интерфейс . Простой в использовании графический пользовательский интерфейс важен для продвижения интерактивного интеллектуального анализа данных. В отличие от систем реляционных баз данных, системы интеллектуального анализа данных не используют общий язык запросов для интеллектуального анализа данных.

Тенденции в Data Mining

Концепции интеллектуального анализа данных все еще развиваются, и вот последние тенденции, которые мы можем увидеть в этой области:

Исследование приложения.
Масштабируемые и интерактивные методы анализа данных.
Интеграция интеллектуального анализа данных с системами баз данных, системами хранилищ данных и системами веб-баз данных.
Стандарт стандартизации языка запросов интеллектуального анализа данных.
Визуальный анализ данных.
Новые методы добычи сложных типов данных.
Добыча биологических данных.
Интеллектуальный анализ данных и разработка программного обеспечения.
Веб майнинг.
Распределенный анализ данных.
Интеллектуальный анализ данных в реальном времени.
Мульти баз данных интеллектуального анализа.
Защита конфиденциальности и защита информации при добыче данных.

Исследование приложения.

Масштабируемые и интерактивные методы анализа данных.

Интеграция интеллектуального анализа данных с системами баз данных, системами хранилищ данных и системами веб-баз данных.

Стандарт стандартизации языка запросов интеллектуального анализа данных.

Визуальный анализ данных.

Новые методы добычи сложных типов данных.

Добыча биологических данных.

Интеллектуальный анализ данных и разработка программного обеспечения.

Веб майнинг.

Распределенный анализ данных.

Интеллектуальный анализ данных в реальном времени.

Мульти баз данных интеллектуального анализа.

Защита конфиденциальности и защита информации при добыче данных.

Data Mining — Темы

Теоретические основы интеллектуального анализа данных

Теоретические основы интеллектуального анализа данных включают в себя следующие понятия —

Сокращение данных . Основная идея этой теории состоит в том, чтобы уменьшить представление данных, которое меняет точность на скорость в ответ на необходимость быстрого получения приблизительных ответов на запросы в очень больших базах данных. Некоторые из методов сокращения данных следующие:
- Сингулярное значение Разложение
- Всплески
- регрессия
- Лог-линейные модели
- Гистограммы
- Кластеризация
- отбор проб
- Строительство индексных деревьев
Сжатие данных . Основная идея этой теории заключается в сжатии данных путем кодирования в терминах следующего:
- Биты
- Правила Ассоциации
- Деревья решений
- Кластеры
Обнаружение паттернов . Основная идея этой теории — обнаруживать паттерны, встречающиеся в базе данных. Ниже приведены области, которые способствуют этой теории —
- Машинное обучение
- Нейронная сеть
- Ассоциация Горного дела
- Последовательное сопоставление с образцом
- Кластеризация
Теория вероятностей — Эта теория основана на статистической теории. Основная идея этой теории заключается в обнаружении совместных вероятностных распределений случайных величин.
Теория вероятностей. Согласно этой теории, интеллектуальный анализ данных находит модели, которые интересны только в той степени, в которой они могут быть использованы в процессе принятия решений на каком-либо предприятии.
Микроэкономическое представление. Согласно этой теории схема базы данных состоит из данных и шаблонов, которые хранятся в базе данных. Таким образом, интеллектуальный анализ данных является задачей индукции в базах данных.
Индуктивные базы данных — Помимо методов, ориентированных на базы данных, существуют статистические методы, доступные для анализа данных. Эти методы могут быть применены к научным данным и данным из экономических и социальных наук.

Сокращение данных . Основная идея этой теории состоит в том, чтобы уменьшить представление данных, которое меняет точность на скорость в ответ на необходимость быстрого получения приблизительных ответов на запросы в очень больших базах данных. Некоторые из методов сокращения данных следующие:

Сингулярное значение Разложение

Всплески

регрессия

Лог-линейные модели

Гистограммы

Кластеризация

отбор проб

Строительство индексных деревьев

Сжатие данных . Основная идея этой теории заключается в сжатии данных путем кодирования в терминах следующего:

Биты

Правила Ассоциации

Деревья решений

Кластеры

Обнаружение паттернов . Основная идея этой теории — обнаруживать паттерны, встречающиеся в базе данных. Ниже приведены области, которые способствуют этой теории —

Машинное обучение

Нейронная сеть

Ассоциация Горного дела

Последовательное сопоставление с образцом

Кластеризация

Теория вероятностей — Эта теория основана на статистической теории. Основная идея этой теории заключается в обнаружении совместных вероятностных распределений случайных величин.

Теория вероятностей. Согласно этой теории, интеллектуальный анализ данных находит модели, которые интересны только в той степени, в которой они могут быть использованы в процессе принятия решений на каком-либо предприятии.

Микроэкономическое представление. Согласно этой теории схема базы данных состоит из данных и шаблонов, которые хранятся в базе данных. Таким образом, интеллектуальный анализ данных является задачей индукции в базах данных.

Индуктивные базы данных — Помимо методов, ориентированных на базы данных, существуют статистические методы, доступные для анализа данных. Эти методы могут быть применены к научным данным и данным из экономических и социальных наук.

Сбор статистических данных

Вот некоторые из методов сбора статистических данных:

Регрессия — методы регрессии используются для прогнозирования значения переменной отклика из одной или нескольких переменных-предикторов, где переменные являются числовыми. Ниже перечислены формы регрессии —
- линейный
- множественный
- утяжеленный
- многочлен
- Непараметрические
- крепкий
Обобщенные линейные модели — Обобщенная линейная модель включает в себя —
- Логистическая регрессия
- Пуассоновская регрессия
Обобщение модели позволяет связать категориальную переменную ответа с набором переменных-предикторов способом, аналогичным моделированию числовой переменной ответа с использованием линейной регрессии.
Анализ отклонений — этот метод анализа —
- Экспериментальные данные для двух или более групп населения, описываемых числовой переменной ответа.
- Одна или несколько категориальных переменных (факторов).
Модели со смешанным эффектом — эти модели используются для анализа сгруппированных данных. Эти модели описывают взаимосвязь между переменной отклика и некоторыми ко-переменными в данных, сгруппированных в соответствии с одним или несколькими факторами.
Факторный анализ — Факторный анализ используется для прогнозирования категориальной переменной ответа. Этот метод предполагает, что независимые переменные следуют за многомерным нормальным распределением.
Анализ временных рядов. Ниже приведены методы анализа данных временных рядов.
- Методы авторегрессии.
- Одномерное моделирование ARIMA (AutoRegressive Integrated Moving Average).
- Моделирование временных рядов с большой памятью.

Регрессия — методы регрессии используются для прогнозирования значения переменной отклика из одной или нескольких переменных-предикторов, где переменные являются числовыми. Ниже перечислены формы регрессии —

линейный

множественный

утяжеленный

многочлен

Непараметрические

крепкий

Обобщенные линейные модели — Обобщенная линейная модель включает в себя —

Логистическая регрессия

Пуассоновская регрессия

Обобщение модели позволяет связать категориальную переменную ответа с набором переменных-предикторов способом, аналогичным моделированию числовой переменной ответа с использованием линейной регрессии.

Анализ отклонений — этот метод анализа —

Экспериментальные данные для двух или более групп населения, описываемых числовой переменной ответа.

Одна или несколько категориальных переменных (факторов).

Модели со смешанным эффектом — эти модели используются для анализа сгруппированных данных. Эти модели описывают взаимосвязь между переменной отклика и некоторыми ко-переменными в данных, сгруппированных в соответствии с одним или несколькими факторами.

Факторный анализ — Факторный анализ используется для прогнозирования категориальной переменной ответа. Этот метод предполагает, что независимые переменные следуют за многомерным нормальным распределением.

Анализ временных рядов. Ниже приведены методы анализа данных временных рядов.

Методы авторегрессии.

Одномерное моделирование ARIMA (AutoRegressive Integrated Moving Average).

Моделирование временных рядов с большой памятью.

Visual Data Mining

Visual Data Mining использует методы визуализации данных и / или знаний для обнаружения неявных знаний из больших наборов данных. Визуальный анализ данных можно рассматривать как интеграцию следующих дисциплин —

Визуализация данных
Сбор данных

Визуализация данных

Сбор данных

Визуальный анализ данных тесно связан со следующим:

Компьютерная графика
Мультимедийные системы
Взаимодействие человека с компьютером
Распознавание образов
Высокопроизводительные вычисления

Компьютерная графика

Мультимедийные системы

Взаимодействие человека с компьютером

Распознавание образов

Высокопроизводительные вычисления

Как правило, визуализация данных и интеллектуальный анализ данных могут быть интегрированы следующими способами:

Визуализация данных — данные в базе данных или хранилище данных можно просматривать в нескольких визуальных формах, которые перечислены ниже —
- присущи рефлективный, вербальный
- 3-D кубики
- Диаграммы распределения данных
- Кривые
- Поверхности
- Графики ссылок и т. Д.
Визуализация результатов интеллектуального анализа данных — Визуализация результатов интеллектуального анализа данных — это представление результатов интеллектуального анализа данных в визуальных формах. Эти визуальные формы могут быть разрозненными участками, коробками и т. Д.
Визуализация процесса интеллектуального анализа данных — Визуализация процесса интеллектуального анализа данных представляет несколько процессов интеллектуального анализа данных. Это позволяет пользователям видеть, как данные извлекаются. Это также позволяет пользователям видеть, из какой базы данных или хранилища данных данные очищаются, интегрируются, предварительно обрабатываются и добываются.

Визуализация данных — данные в базе данных или хранилище данных можно просматривать в нескольких визуальных формах, которые перечислены ниже —

присущи рефлективный, вербальный

3-D кубики

Диаграммы распределения данных

Кривые

Поверхности

Графики ссылок и т. Д.

Визуализация результатов интеллектуального анализа данных — Визуализация результатов интеллектуального анализа данных — это представление результатов интеллектуального анализа данных в визуальных формах. Эти визуальные формы могут быть разрозненными участками, коробками и т. Д.

Визуализация процесса интеллектуального анализа данных — Визуализация процесса интеллектуального анализа данных представляет несколько процессов интеллектуального анализа данных. Это позволяет пользователям видеть, как данные извлекаются. Это также позволяет пользователям видеть, из какой базы данных или хранилища данных данные очищаются, интегрируются, предварительно обрабатываются и добываются.

Аудиоданных Mining

При извлечении аудиоданных используются аудиосигналы для указания структуры данных или особенностей результатов интеллектуального анализа данных. Превращая шаблоны в звук и музыку, мы можем слушать тональности и мелодии, а не смотреть картинки, чтобы определить что-нибудь интересное.

Интеллектуальный анализ данных и совместная фильтрация

Потребители сегодня сталкиваются с различными товарами и услугами при совершении покупок. Во время транзакций с клиентом система Рекомендатора помогает потребителю путем предоставления рекомендаций по продукту. Подход Collaborative Filtering обычно используется для рекомендации продуктов клиентам. Эти рекомендации основаны на мнениях других клиентов.

Data Mining — Краткое руководство

Data Mining — Обзор

Что такое Data Mining?

Приложения для интеллектуального анализа данных

Анализ рынка и управление

Корпоративный анализ и управление рисками

Обнаружение мошенничества

Data Mining — Задачи

Описательная функция

Класс / Концепция Описание

Майнинг частых паттернов

Горное дело Ассоциации

Добыча корреляций

Майнинг кластеров

Классификация и прогноз

Примитивы задач интеллектуального анализа данных

Набор данных, относящихся к задаче, которые будут добыты

Вид знаний, которые будут добыты

Жизненный опыт

Показатели заинтересованности и пороги для оценки модели

Представление для визуализации обнаруженных паттернов

Data Mining — Проблемы

Методология майнинга и вопросы взаимодействия с пользователем

Проблемы с производительностью

Проблемы различных типов данных

Data Mining — Оценка

Хранилище данных

Хранилище данных

Query-Driven подход

Процесс запроса управляемый подход

Недостатки

Обновленный подход

преимущества

От хранилища данных (OLAP) к интеллектуальному анализу данных (OLAM)

Важность OLAM

Data Mining — Терминология

Сбор данных

Data Mining Engine

База знаний

Открытие знаний

Пользовательский интерфейс

Интеграция данных

Очистка данных

Выбор данных

Кластеры

Преобразование данных

Data Mining — Открытие знаний

Что такое открытие знаний?

Data Mining — Системы

Классификация систем интеллектуального анализа данных

Классификация на основе разрабатываемых баз данных

Классификация на основе вида знаний, добытых

Классификация, основанная на используемых методах

Классификация на основе адаптированных приложений

Интеграция системы интеллектуального анализа данных с системой DB / DW

Data Mining — Язык запросов

Синтаксис для спецификации данных, связанных с задачей

Синтаксис для указания вида знаний

характеристика

дискриминация

ассоциация

классификация

прогнозирование

Синтаксис для спецификации иерархии понятий

Синтаксис для спецификации мер интереса

Синтаксис для представления шаблона и спецификации визуализации

Полная спецификация DMQL

Стандартизация языков интеллектуального анализа данных

Data Mining — классификация и прогнозирование

Что такое классификация?

Что такое прогноз?

Как работает классификация?

Построение классификатора или модели

Использование классификатора для классификации

Вопросы классификации и прогнозирования

Сравнение методов классификации и прогнозирования

Интеллектуальный анализ данных — индукция дерева решений

Алгоритм индукции дерева решений

Обрезка деревьев

Подходы для обрезки деревьев