Учебники

Data Mining — Задачи

Интеллектуальный анализ данных имеет дело с типами образцов, которые могут быть добыты. На основе вида данных, которые будут добыты, есть две категории функций, вовлеченных в Data Mining —

  • описательный
  • Классификация и прогноз

Описательная функция

Описательная функция имеет дело с общими свойствами данных в базе данных. Вот список описательных функций —

  • Класс / Концепция Описание
  • Майнинг частых паттернов
  • Горное дело ассоциаций
  • Добыча корреляций
  • Майнинг кластеров

Класс / Концепция Описание

Класс / понятие относится к данным, которые должны быть связаны с классами или понятиями. Например, в компании классы товаров для продажи включают в себя компьютеры и принтеры, а концепции клиентов включают большие и большие расходы. Такие описания класса или концепции называются описаниями классов / концепций. Эти описания могут быть получены следующими двумя способами:

  • Характеристика данных — это относится к обобщению данных изучаемого класса. Этот изучаемый класс называется Target Class.

  • Различение данных — это относится к отображению или классификации класса с некоторой предопределенной группой или классом.

Характеристика данных — это относится к обобщению данных изучаемого класса. Этот изучаемый класс называется Target Class.

Различение данных — это относится к отображению или классификации класса с некоторой предопределенной группой или классом.

Майнинг частых паттернов

Частые шаблоны — это те шаблоны, которые часто встречаются в транзакционных данных. Вот список видов частых паттернов —

  • Набор часто встречающихся предметов — это набор предметов, которые часто появляются вместе, например, молоко и хлеб.

  • Частая подпоследовательность — за последовательностью часто встречающихся шаблонов, таких как покупка камеры, следует карта памяти.

  • Частая Подструктура — Подструктура относится к различным структурным формам, таким как графы, деревья или решетки, которые могут комбинироваться с наборами элементов или подпоследовательностями.

Набор часто встречающихся предметов — это набор предметов, которые часто появляются вместе, например, молоко и хлеб.

Частая подпоследовательность — за последовательностью часто встречающихся шаблонов, таких как покупка камеры, следует карта памяти.

Частая Подструктура — Подструктура относится к различным структурным формам, таким как графы, деревья или решетки, которые могут комбинироваться с наборами элементов или подпоследовательностями.

Горное дело Ассоциации

Ассоциации используются в розничных продажах для определения моделей, которые часто покупаются вместе. Этот процесс относится к процессу выявления взаимосвязи между данными и определения правил ассоциации.

Например, продавец создает правило ассоциации, которое показывает, что 70% времени молоко продается с хлебом, и только 30% случаев печенье продается с хлебом.

Добыча корреляций

Это своего рода дополнительный анализ, выполняемый для выявления интересных статистических корреляций между парами связанных атрибутов-значений или между двумя наборами элементов для анализа того, оказывают ли они положительное, отрицательное влияние или не влияют друг на друга.

Майнинг кластеров

Кластер относится к группе объектов подобного типа. Кластерный анализ относится к формированию группы объектов, которые очень похожи друг на друга, но сильно отличаются от объектов в других кластерах.

Классификация и прогноз

Классификация — это процесс поиска модели, которая описывает классы данных или концепции. Цель состоит в том, чтобы иметь возможность использовать эту модель для прогнозирования класса объектов, чья метка класса неизвестна. Эта производная модель основана на анализе наборов обучающих данных. Производная модель может быть представлена ​​в следующих формах —

  • Правила классификации (IF-THEN)
  • Деревья решений
  • Математические формулы
  • Нейронные сети

Список функций, участвующих в этих процессах, следующий:

  • Классификация. Предсказывает класс объектов, метка класса которых неизвестна. Его цель — найти производную модель, которая описывает и различает классы или понятия данных. Производная модель основана на анализе набора обучающих данных, то есть объекта данных, метка класса которого хорошо известна.

  • Предсказание — используется для прогнозирования отсутствующих или недоступных числовых значений данных, а не меток классов. Регрессионный анализ обычно используется для прогнозирования. Прогнозирование также может быть использовано для идентификации тенденций распределения на основе имеющихся данных.

  • Анализ выбросов — выбросы могут быть определены как объекты данных, которые не соответствуют общему поведению или модели доступных данных.

  • Эволюционный анализ — Эволюционный анализ относится к описанию и моделированию закономерностей или тенденций для объектов, поведение которых меняется со временем.

Классификация. Предсказывает класс объектов, метка класса которых неизвестна. Его цель — найти производную модель, которая описывает и различает классы или понятия данных. Производная модель основана на анализе набора обучающих данных, то есть объекта данных, метка класса которого хорошо известна.

Предсказание — используется для прогнозирования отсутствующих или недоступных числовых значений данных, а не меток классов. Регрессионный анализ обычно используется для прогнозирования. Прогнозирование также может быть использовано для идентификации тенденций распределения на основе имеющихся данных.

Анализ выбросов — выбросы могут быть определены как объекты данных, которые не соответствуют общему поведению или модели доступных данных.

Эволюционный анализ — Эволюционный анализ относится к описанию и моделированию закономерностей или тенденций для объектов, поведение которых меняется со временем.

Примитивы задач интеллектуального анализа данных

  • Мы можем указать задачу интеллектуального анализа данных в форме запроса интеллектуального анализа данных.
  • Этот запрос вводится в систему.
  • Запрос на интеллектуальный анализ данных определяется в терминах примитивов задач интеллектуального анализа данных.

Примечание. Эти примитивы позволяют нам взаимодействовать в интерактивном режиме с системой интеллектуального анализа данных. Вот список примитивов Data Mining —

  • Набор данных, относящихся к задаче, которые будут добыты.
  • Вид знаний, которые будут добыты.
  • Базовые знания для использования в процессе обнаружения.
  • Показатели интереса и пороги для оценки модели.
  • Представление для визуализации обнаруженных закономерностей.

Набор данных, относящихся к задаче, которые будут добыты

Это та часть базы данных, в которой заинтересован пользователь. Эта часть включает в себя следующее —

  • Атрибуты базы данных
  • Измерения хранилища данных представляют интерес

Вид знаний, которые будут добыты

Это относится к виду выполняемых функций. Эти функции —

  • характеристика
  • дискриминация
  • Ассоциативный и корреляционный анализ
  • классификация
  • прогнозирование
  • Кластеризация
  • Анализ выбросов
  • Эволюционный анализ

Жизненный опыт

Базовые знания позволяют добывать данные на нескольких уровнях абстракции. Например, иерархии концептов являются одним из базовых знаний, которые позволяют добывать данные на нескольких уровнях абстракции.

Показатели заинтересованности и пороги для оценки модели

Это используется для оценки шаблонов, обнаруженных в процессе обнаружения знаний. Существуют разные интересные меры для разного рода знаний.

Представление для визуализации обнаруженных паттернов

Это относится к форме, в которой должны отображаться обнаруженные шаблоны. Эти представления могут включать в себя следующее.