Учебники

Data Mining — Проблемы

Интеллектуальный анализ данных — непростая задача, поскольку используемые алгоритмы могут быть очень сложными, а данные не всегда доступны в одном месте. Он должен быть интегрирован из различных разнородных источников данных. Эти факторы также создают некоторые проблемы. Здесь, в этом уроке, мы обсудим основные вопросы, касающиеся —

  • Методология майнинга и взаимодействие с пользователем
  • Проблемы с производительностью
  • Проблемы различных типов данных

Следующая диаграмма описывает основные проблемы.

Проблемы интеллектуального анализа данных

Методология майнинга и вопросы взаимодействия с пользователем

Это относится к следующим видам вопросов —

  • Добыча разных видов знаний в базах данных. Разные пользователи могут быть заинтересованы в разных видах знаний. Поэтому для интеллектуального анализа данных необходимо охватить широкий круг задач по обнаружению знаний.

  • Интерактивный анализ знаний на нескольких уровнях абстракции. Процесс интеллектуального анализа данных должен быть интерактивным, поскольку он позволяет пользователям сфокусировать поиск шаблонов, предоставляя и уточняя запросы интеллектуального анализа данных на основе возвращенных результатов.

  • Включение фоновых знаний — Для руководства процессом обнаружения и для выражения обнаруженных шаблонов, фоновые знания могут быть использованы. Базовые знания могут использоваться для выражения обнаруженных закономерностей не только в сжатых терминах, но и на нескольких уровнях абстракции.

  • Языки запросов интеллектуального анализа данных и специальный анализ данных. Язык запросов интеллектуального анализа данных, который позволяет пользователю описывать специальные задачи интеллектуального анализа данных, должен быть интегрирован с языком запросов хранилища данных и оптимизирован для эффективного и гибкого интеллектуального анализа данных.

  • Представление и визуализация результатов интеллектуального анализа данных. Как только шаблоны обнаружены, их необходимо выразить на языках высокого уровня и в визуальных представлениях. Эти представления должны быть легко понятны.

  • Обработка шумных или неполных данных . Методы очистки данных необходимы для обработки шума и неполных объектов при выявлении закономерностей данных. Если методы очистки данных отсутствуют, точность обнаруженных шаблонов будет низкой.

  • Оценка шаблонов. Обнаруженные шаблоны должны быть интересными, поскольку они либо представляют собой общеизвестные знания, либо лишены новизны.

Добыча разных видов знаний в базах данных. Разные пользователи могут быть заинтересованы в разных видах знаний. Поэтому для интеллектуального анализа данных необходимо охватить широкий круг задач по обнаружению знаний.

Интерактивный анализ знаний на нескольких уровнях абстракции. Процесс интеллектуального анализа данных должен быть интерактивным, поскольку он позволяет пользователям сфокусировать поиск шаблонов, предоставляя и уточняя запросы интеллектуального анализа данных на основе возвращенных результатов.

Включение фоновых знаний — Для руководства процессом обнаружения и для выражения обнаруженных шаблонов, фоновые знания могут быть использованы. Базовые знания могут использоваться для выражения обнаруженных закономерностей не только в сжатых терминах, но и на нескольких уровнях абстракции.

Языки запросов интеллектуального анализа данных и специальный анализ данных. Язык запросов интеллектуального анализа данных, который позволяет пользователю описывать специальные задачи интеллектуального анализа данных, должен быть интегрирован с языком запросов хранилища данных и оптимизирован для эффективного и гибкого интеллектуального анализа данных.

Представление и визуализация результатов интеллектуального анализа данных. Как только шаблоны обнаружены, их необходимо выразить на языках высокого уровня и в визуальных представлениях. Эти представления должны быть легко понятны.

Обработка шумных или неполных данных . Методы очистки данных необходимы для обработки шума и неполных объектов при выявлении закономерностей данных. Если методы очистки данных отсутствуют, точность обнаруженных шаблонов будет низкой.

Оценка шаблонов. Обнаруженные шаблоны должны быть интересными, поскольку они либо представляют собой общеизвестные знания, либо лишены новизны.

Проблемы с производительностью

Могут быть проблемы, связанные с производительностью, такие как:

Эффективность и масштабируемость алгоритмов интеллектуального анализа данных. Чтобы эффективно извлекать информацию из огромного объема данных в базах данных, алгоритм интеллектуального анализа данных должен быть эффективным и масштабируемым.

Алгоритмы параллельного, распределенного и инкрементного майнинга. Такие факторы, как огромный размер баз данных, широкое распространение данных и сложность методов интеллектуального анализа данных, мотивируют разработку алгоритмов параллельного и распределенного анализа данных. Эти алгоритмы делят данные на разделы, которые затем обрабатываются параллельно. Затем результаты из разделов объединяются. Инкрементные алгоритмы, обновляйте базы данных без повторного анализа данных с нуля.

Обработка реляционных и сложных типов данных. База данных может содержать сложные объекты данных, объекты мультимедийных данных, пространственные данные, временные данные и т. Д. Одна система не может получить все эти данные.

Добыча информации из разнородных баз данных и глобальных информационных систем . Данные доступны в разных источниках данных в локальной или глобальной сети. Эти источники данных могут быть структурированными, полуструктурированными или неструктурированными. Поэтому извлечение знаний из них создает проблемы для интеллектуального анализа данных.