Учебники

Интеллектуальный анализ данных — кластерный анализ

Кластер — это группа объектов, принадлежащих к одному классу. Другими словами, похожие объекты группируются в одном кластере, а разнородные объекты — в другом кластере.

Что такое кластеризация?

Кластеризация — это процесс превращения группы абстрактных объектов в классы похожих объектов.

Очки для запоминания

  • Кластер объектов данных можно рассматривать как одну группу.

  • Выполняя кластерный анализ, мы сначала разбиваем набор данных на группы на основе сходства данных, а затем назначаем метки группам.

  • Основное преимущество кластеризации перед классификацией заключается в том, что она адаптируется к изменениям и помогает выделить полезные функции, которые отличают разные группы.

Кластер объектов данных можно рассматривать как одну группу.

Выполняя кластерный анализ, мы сначала разбиваем набор данных на группы на основе сходства данных, а затем назначаем метки группам.

Основное преимущество кластеризации перед классификацией заключается в том, что она адаптируется к изменениям и помогает выделить полезные функции, которые отличают разные группы.

Приложения кластерного анализа

  • Кластерный анализ широко используется во многих приложениях, таких как исследование рынка, распознавание образов, анализ данных и обработка изображений.

  • Кластеризация также может помочь маркетологам обнаружить отдельные группы в своей клиентской базе. И они могут охарактеризовать свои группы клиентов на основе моделей покупки.

  • В области биологии он может быть использован для выведения таксономий растений и животных, классификации генов с аналогичными функциями и получения понимания структур, присущих популяциям.

  • Кластеризация также помогает в определении областей схожего землепользования в базе данных наблюдения Земли. Это также помогает в идентификации групп домов в городе в соответствии с типом дома, стоимостью и географическим положением.

  • Кластеризация также помогает в классификации документов в Интернете для обнаружения информации.

  • Кластеризация также используется в приложениях обнаружения выбросов, таких как обнаружение мошенничества с кредитными картами.

  • Как функция интеллектуального анализа данных, кластерный анализ служит инструментом, позволяющим получить представление о распределении данных для наблюдения за характеристиками каждого кластера.

Кластерный анализ широко используется во многих приложениях, таких как исследование рынка, распознавание образов, анализ данных и обработка изображений.

Кластеризация также может помочь маркетологам обнаружить отдельные группы в своей клиентской базе. И они могут охарактеризовать свои группы клиентов на основе моделей покупки.

В области биологии он может быть использован для выведения таксономий растений и животных, классификации генов с аналогичными функциями и получения понимания структур, присущих популяциям.

Кластеризация также помогает в определении областей схожего землепользования в базе данных наблюдения Земли. Это также помогает в идентификации групп домов в городе в соответствии с типом дома, стоимостью и географическим положением.

Кластеризация также помогает в классификации документов в Интернете для обнаружения информации.

Кластеризация также используется в приложениях обнаружения выбросов, таких как обнаружение мошенничества с кредитными картами.

Как функция интеллектуального анализа данных, кластерный анализ служит инструментом, позволяющим получить представление о распределении данных для наблюдения за характеристиками каждого кластера.

Требования к кластеризации в Data Mining

Следующие пункты проливают свет на то, почему в интеллектуальном анализе данных требуется кластеризация.

  • Масштабируемость. Нам нужны масштабируемые алгоритмы кластеризации для работы с большими базами данных.

  • Способность работать с различными типами атрибутов. Алгоритмы должны быть в состоянии применяться к любым данным, таким как интервальные (числовые) данные, категориальные и двоичные данные.

  • Обнаружение кластеров с формой атрибута — алгоритм кластеризации должен быть способен обнаруживать кластеры произвольной формы. Они не должны быть ограничены только мерами расстояния, которые имеют тенденцию находить сферическое скопление небольших размеров.

  • Высокая размерность . Алгоритм кластеризации должен быть способен обрабатывать не только низкоразмерные данные, но и пространство с большими размерами.

  • Способность работать с зашумленными данными. Базы данных содержат зашумленные, отсутствующие или ошибочные данные. Некоторые алгоритмы чувствительны к таким данным и могут привести к кластерам низкого качества.

  • Интерпретируемость. Результаты кластеризации должны быть интерпретируемыми, понятными и пригодными для использования.

Масштабируемость. Нам нужны масштабируемые алгоритмы кластеризации для работы с большими базами данных.

Способность работать с различными типами атрибутов. Алгоритмы должны быть в состоянии применяться к любым данным, таким как интервальные (числовые) данные, категориальные и двоичные данные.

Обнаружение кластеров с формой атрибута — алгоритм кластеризации должен быть способен обнаруживать кластеры произвольной формы. Они не должны быть ограничены только мерами расстояния, которые имеют тенденцию находить сферическое скопление небольших размеров.

Высокая размерность . Алгоритм кластеризации должен быть способен обрабатывать не только низкоразмерные данные, но и пространство с большими размерами.

Способность работать с зашумленными данными. Базы данных содержат зашумленные, отсутствующие или ошибочные данные. Некоторые алгоритмы чувствительны к таким данным и могут привести к кластерам низкого качества.

Интерпретируемость. Результаты кластеризации должны быть интерпретируемыми, понятными и пригодными для использования.

Методы кластеризации

Методы кластеризации можно классифицировать по следующим категориям:

  • Метод разбиения
  • Иерархический метод
  • Метод на основе плотности
  • Метод на основе сетки
  • Модельно-ориентированный метод
  • Метод, основанный на ограничениях

Метод разбиения

Предположим, нам дана база данных из «n» объектов, а метод разбиения создает «k» раздел данных. Каждый раздел будет представлять кластер и k ≤ n. Это означает, что он будет классифицировать данные по k группам, которые удовлетворяют следующим требованиям:

  • Каждая группа содержит хотя бы один объект.

  • Каждый объект должен принадлежать ровно одной группе.

Каждая группа содержит хотя бы один объект.

Каждый объект должен принадлежать ровно одной группе.

Нужно помнить

  • Для заданного количества разделов (скажем, k) метод разделения создаст начальное разделение.

  • Затем он использует метод итеративного перемещения для улучшения разделения путем перемещения объектов из одной группы в другую.

Для заданного количества разделов (скажем, k) метод разделения создаст начальное разделение.

Затем он использует метод итеративного перемещения для улучшения разделения путем перемещения объектов из одной группы в другую.

Иерархические Методы

Этот метод создает иерархическую декомпозицию заданного набора объектов данных. Мы можем классифицировать иерархические методы на основе того, как формируется иерархическая декомпозиция. Здесь есть два подхода —

  • Агломерационный подход
  • Разделительный подход

Агломерационный подход

Этот подход также известен как восходящий подход. В этом мы начнем с каждого объекта, образующего отдельную группу. Он продолжает объединять объекты или группы, которые находятся близко друг к другу. Это продолжается до тех пор, пока все группы не будут объединены в одну или пока не выполнится условие завершения.

Разделительный подход

Этот подход также известен как нисходящий подход. В этом мы начнем со всех объектов в одном кластере. В непрерывной итерации кластер делится на более мелкие кластеры. Он не работает до тех пор, пока не будет соблюден каждый объект в одном кластере или условие завершения. Этот метод является жестким, т. Е. После объединения или разделения его нельзя отменить.

Подходы к улучшению качества иерархической кластеризации

Вот два подхода, которые используются для улучшения качества иерархической кластеризации:

  • Выполните тщательный анализ связей объектов при каждом иерархическом разделении.

  • Интегрируйте иерархическую агломерацию, сначала используя иерархический агломерационный алгоритм для группировки объектов в микрокластеры, а затем выполняя макрокластеризацию на микрокластерах.

Выполните тщательный анализ связей объектов при каждом иерархическом разделении.

Интегрируйте иерархическую агломерацию, сначала используя иерархический агломерационный алгоритм для группировки объектов в микрокластеры, а затем выполняя макрокластеризацию на микрокластерах.

Метод на основе плотности

Этот метод основан на понятии плотности. Основная идея состоит в том, чтобы продолжать наращивать данный кластер до тех пор, пока плотность в окрестности превышает некоторый порог, т. Е. Для каждой точки данных в данном кластере радиус данного кластера должен содержать как минимум минимальное количество точек.

Метод на основе сетки

В этом объекты вместе образуют сетку. Пространство объекта квантуется на конечное число ячеек, которые образуют сеточную структуру.

преимущества

  • Основным преимуществом этого метода является быстрое время обработки.

  • Он зависит только от количества ячеек в каждом измерении в квантованном пространстве.

Основным преимуществом этого метода является быстрое время обработки.

Он зависит только от количества ячеек в каждом измерении в квантованном пространстве.

Основанные на модели методы

В этом методе модель выдвигается для каждого кластера, чтобы найти наилучшее соответствие данных для данной модели. Этот метод находит кластеры путем кластеризации функции плотности. Он отражает пространственное распределение точек данных.

Этот метод также предоставляет способ автоматического определения количества кластеров на основе стандартной статистики с учетом выброса или шума. Поэтому он дает надежные методы кластеризации.

Метод на основе ограничений

В этом методе кластеризация выполняется путем включения пользовательских или прикладных ограничений. Ограничение относится к ожиданиям пользователя или свойствам желаемых результатов кластеризации. Ограничения предоставляют нам интерактивный способ связи с процессом кластеризации. Ограничения могут быть указаны пользователем или требованиями приложения.