Учебники

Data Mining — Темы

Теоретические основы интеллектуального анализа данных включают в себя следующие понятия —

  • Сокращение данных . Основная идея этой теории состоит в том, чтобы уменьшить представление данных, которое меняет точность на скорость в ответ на необходимость быстрого получения приблизительных ответов на запросы в очень больших базах данных. Некоторые из методов сокращения данных следующие:

    • Сингулярное значение Разложение

    • Всплески

    • регрессия

    • Лог-линейные модели

    • Гистограммы

    • Кластеризация

    • отбор проб

    • Строительство индексных деревьев

  • Сжатие данных . Основная идея этой теории заключается в сжатии данных путем кодирования в терминах следующего:

    • Биты

    • Правила Ассоциации

    • Деревья решений

    • Кластеры

  • Обнаружение паттернов . Основная идея этой теории — обнаруживать паттерны, встречающиеся в базе данных. Ниже приведены области, которые способствуют этой теории —

    • Машинное обучение

    • Нейронная сеть

    • Ассоциация Горного дела

    • Последовательное сопоставление с образцом

    • Кластеризация

  • Теория вероятностей — Эта теория основана на статистической теории. Основная идея этой теории заключается в обнаружении совместных вероятностных распределений случайных величин.

  • Теория вероятностей. Согласно этой теории, интеллектуальный анализ данных находит модели, которые интересны только в той степени, в которой они могут быть использованы в процессе принятия решений на каком-либо предприятии.

  • Микроэкономическое представление. Согласно этой теории схема базы данных состоит из данных и шаблонов, которые хранятся в базе данных. Таким образом, интеллектуальный анализ данных является задачей индукции в базах данных.

  • Индуктивные базы данных — Помимо методов, ориентированных на базы данных, существуют статистические методы, доступные для анализа данных. Эти методы могут быть применены к научным данным и данным из экономических и социальных наук.

Сокращение данных . Основная идея этой теории состоит в том, чтобы уменьшить представление данных, которое меняет точность на скорость в ответ на необходимость быстрого получения приблизительных ответов на запросы в очень больших базах данных. Некоторые из методов сокращения данных следующие:

Сингулярное значение Разложение

Всплески

регрессия

Лог-линейные модели

Гистограммы

Кластеризация

отбор проб

Строительство индексных деревьев

Сжатие данных . Основная идея этой теории заключается в сжатии данных путем кодирования в терминах следующего:

Биты

Правила Ассоциации

Деревья решений

Кластеры

Обнаружение паттернов . Основная идея этой теории — обнаруживать паттерны, встречающиеся в базе данных. Ниже приведены области, которые способствуют этой теории —

Машинное обучение

Нейронная сеть

Ассоциация Горного дела

Последовательное сопоставление с образцом

Кластеризация

Теория вероятностей — Эта теория основана на статистической теории. Основная идея этой теории заключается в обнаружении совместных вероятностных распределений случайных величин.

Теория вероятностей. Согласно этой теории, интеллектуальный анализ данных находит модели, которые интересны только в той степени, в которой они могут быть использованы в процессе принятия решений на каком-либо предприятии.

Микроэкономическое представление. Согласно этой теории схема базы данных состоит из данных и шаблонов, которые хранятся в базе данных. Таким образом, интеллектуальный анализ данных является задачей индукции в базах данных.

Индуктивные базы данных — Помимо методов, ориентированных на базы данных, существуют статистические методы, доступные для анализа данных. Эти методы могут быть применены к научным данным и данным из экономических и социальных наук.

Сбор статистических данных

Вот некоторые из методов сбора статистических данных:

  • Регрессия — методы регрессии используются для прогнозирования значения переменной отклика из одной или нескольких переменных-предикторов, где переменные являются числовыми. Ниже перечислены формы регрессии —

    • линейный

    • множественный

    • утяжеленный

    • многочлен

    • Непараметрические

    • крепкий

  • Обобщенные линейные модели — Обобщенная линейная модель включает в себя —

    • Логистическая регрессия

    • Пуассоновская регрессия

    Обобщение модели позволяет связать категориальную переменную ответа с набором переменных-предикторов способом, аналогичным моделированию числовой переменной ответа с использованием линейной регрессии.

  • Анализ отклонений — этот метод анализа —

    • Экспериментальные данные для двух или более групп населения, описываемых числовой переменной ответа.

    • Одна или несколько категориальных переменных (факторов).

  • Модели со смешанным эффектом — эти модели используются для анализа сгруппированных данных. Эти модели описывают взаимосвязь между переменной отклика и некоторыми ко-переменными в данных, сгруппированных в соответствии с одним или несколькими факторами.

  • Факторный анализ — Факторный анализ используется для прогнозирования категориальной переменной ответа. Этот метод предполагает, что независимые переменные следуют за многомерным нормальным распределением.

  • Анализ временных рядов. Ниже приведены методы анализа данных временных рядов.

    • Методы авторегрессии.

    • Одномерное моделирование ARIMA (AutoRegressive Integrated Moving Average).

    • Моделирование временных рядов с большой памятью.

Регрессия — методы регрессии используются для прогнозирования значения переменной отклика из одной или нескольких переменных-предикторов, где переменные являются числовыми. Ниже перечислены формы регрессии —

линейный

множественный

утяжеленный

многочлен

Непараметрические

крепкий

Обобщенные линейные модели — Обобщенная линейная модель включает в себя —

Логистическая регрессия

Пуассоновская регрессия

Обобщение модели позволяет связать категориальную переменную ответа с набором переменных-предикторов способом, аналогичным моделированию числовой переменной ответа с использованием линейной регрессии.

Анализ отклонений — этот метод анализа —

Экспериментальные данные для двух или более групп населения, описываемых числовой переменной ответа.

Одна или несколько категориальных переменных (факторов).

Модели со смешанным эффектом — эти модели используются для анализа сгруппированных данных. Эти модели описывают взаимосвязь между переменной отклика и некоторыми ко-переменными в данных, сгруппированных в соответствии с одним или несколькими факторами.

Факторный анализ — Факторный анализ используется для прогнозирования категориальной переменной ответа. Этот метод предполагает, что независимые переменные следуют за многомерным нормальным распределением.

Анализ временных рядов. Ниже приведены методы анализа данных временных рядов.

Методы авторегрессии.

Одномерное моделирование ARIMA (AutoRegressive Integrated Moving Average).

Моделирование временных рядов с большой памятью.

Visual Data Mining

Visual Data Mining использует методы визуализации данных и / или знаний для обнаружения неявных знаний из больших наборов данных. Визуальный анализ данных можно рассматривать как интеграцию следующих дисциплин —

  • Визуализация данных

  • Сбор данных

Визуализация данных

Сбор данных

Визуальный анализ данных тесно связан со следующим:

  • Компьютерная графика

  • Мультимедийные системы

  • Взаимодействие человека с компьютером

  • Распознавание образов

  • Высокопроизводительные вычисления

Компьютерная графика

Мультимедийные системы

Взаимодействие человека с компьютером

Распознавание образов

Высокопроизводительные вычисления

Как правило, визуализация данных и интеллектуальный анализ данных могут быть интегрированы следующими способами:

  • Визуализация данных — данные в базе данных или хранилище данных можно просматривать в нескольких визуальных формах, которые перечислены ниже —

    • присущи рефлективный, вербальный

    • 3-D кубики

    • Диаграммы распределения данных

    • Кривые

    • Поверхности

    • Графики ссылок и т. Д.

  • Визуализация результатов интеллектуального анализа данных — Визуализация результатов интеллектуального анализа данных — это представление результатов интеллектуального анализа данных в визуальных формах. Эти визуальные формы могут быть разрозненными участками, коробками и т. Д.

  • Визуализация процесса интеллектуального анализа данных — Визуализация процесса интеллектуального анализа данных представляет несколько процессов интеллектуального анализа данных. Это позволяет пользователям видеть, как данные извлекаются. Это также позволяет пользователям видеть, из какой базы данных или хранилища данных данные очищаются, интегрируются, предварительно обрабатываются и добываются.

Визуализация данных — данные в базе данных или хранилище данных можно просматривать в нескольких визуальных формах, которые перечислены ниже —

присущи рефлективный, вербальный

3-D кубики

Диаграммы распределения данных

Кривые

Поверхности

Графики ссылок и т. Д.

Визуализация результатов интеллектуального анализа данных — Визуализация результатов интеллектуального анализа данных — это представление результатов интеллектуального анализа данных в визуальных формах. Эти визуальные формы могут быть разрозненными участками, коробками и т. Д.

Визуализация процесса интеллектуального анализа данных — Визуализация процесса интеллектуального анализа данных представляет несколько процессов интеллектуального анализа данных. Это позволяет пользователям видеть, как данные извлекаются. Это также позволяет пользователям видеть, из какой базы данных или хранилища данных данные очищаются, интегрируются, предварительно обрабатываются и добываются.

Аудиоданных Mining

При извлечении аудиоданных используются аудиосигналы для указания структуры данных или особенностей результатов интеллектуального анализа данных. Превращая шаблоны в звук и музыку, мы можем слушать тональности и мелодии, а не смотреть картинки, чтобы определить что-нибудь интересное.

Интеллектуальный анализ данных и совместная фильтрация

Потребители сегодня сталкиваются с различными товарами и услугами при совершении покупок. Во время транзакций с клиентом система Рекомендатора помогает потребителю путем предоставления рекомендаций по продукту. Подход Collaborative Filtering обычно используется для рекомендации продуктов клиентам. Эти рекомендации основаны на мнениях других клиентов.