Учебники

6) Машинное обучение без присмотра

Что такое обучение без учителя?

Обучение без учителя – это метод машинного обучения, при котором вам не нужно контролировать модель. Вместо этого вам нужно позволить модели работать самостоятельно для обнаружения информации. В основном это касается немаркированных данных.

Необучаемые алгоритмы обучения позволяют выполнять более сложные задачи обработки по сравнению с контролируемым обучением. Хотя неконтролируемое обучение может быть более непредсказуемым по сравнению с другими естественными методами обучения.

В этом уроке вы узнаете:

Пример неконтролируемого машинного обучения

Давайте возьмем случай ребенка и ее семейной собаки.

Она знает и идентифицирует эту собаку. Через несколько недель друг семьи берет с собой собаку и пытается поиграть с ребенком.

Малыш не видел эту собаку ранее. Но он признает, что многие черты (2 уха, глаза, ходьба на 4 ногах) похожи на ее собаку. Она идентифицирует новое животное как собаку. Это неконтролируемое обучение, когда вас не учат, но вы учитесь на основе данных (в данном случае данных о собаке). Если бы это было обучение под наблюдением, друг семьи сказал бы ребенку, что это собака.

Почему неконтролируемое обучение?

Вот основные причины использования неконтролируемого обучения:

  • Неуправляемое машинное обучение находит в данных все виды неизвестных закономерностей.
  • Неуправляемые методы помогут вам найти функции, которые могут быть полезны для категоризации.
  • Это происходит в режиме реального времени, поэтому все входные данные должны быть проанализированы и помечены в присутствии учащихся.
  • Получать немаркированные данные с компьютера легче, чем помечать данные, что требует ручного вмешательства.

Типы неконтролируемого обучения

Необученные проблемы обучения далее сгруппированы в проблемы кластеризации и ассоциации.

Кластеризация

Кластеризация является важной концепцией, когда речь идет об обучении без учителя. В основном это касается поиска структуры или шаблона в коллекции некатегоризованных данных. Алгоритмы кластеризации будут обрабатывать ваши данные и находить естественные кластеры (группы), если они существуют в данных. Вы также можете изменить количество кластеров, которые должны идентифицировать ваши алгоритмы. Это позволяет настроить гранулярность этих групп.

Существуют различные типы кластеризации, которые вы можете использовать:

Эксклюзив (разметка)

В этом методе кластеризации данные группируются таким образом, что одни данные могут принадлежать только одному кластеру.

Пример: К-значит

агломерационных

В этом методе кластеризации все данные являются кластером. Итеративные объединения между двумя ближайшими кластерами уменьшают количество кластеров.

Пример: иерархическая кластеризация

Перекрытие

В этой технике нечеткие множества используются для кластеризации данных. Каждая точка может принадлежать двум или более кластерам с отдельными степенями членства.

Здесь данные будут связаны с соответствующим значением членства. Пример: нечеткие С-средства

вероятностный

Этот метод использует распределение вероятностей для создания кластеров

Пример: следующие ключевые слова

  • “мужская обувь”.
  • “женская обувь”.
  • “женская перчатка”.
  • “мужская перчатка”.

можно разделить на две категории: «обувь» и «перчатка» или «мужчина» и «женщина».

Типы кластеризации

  • Иерархическая кластеризация
  • K-означает кластеризацию
  • K-NN (k ближайших соседей)
  • Анализ главных компонентов
  • Разложение по единственному значению
  • Независимый компонентный анализ

Иерархическая кластеризация:

Иерархическая кластеризация – это алгоритм, который строит иерархию кластеров. Он начинается со всех данных, которые назначены на собственный кластер. Здесь два близких кластера будут находиться в одном кластере. Этот алгоритм заканчивается, когда остается только один кластер.

K-означает кластеризацию

K означает, что это алгоритм итеративной кластеризации, который помогает вам найти максимальное значение для каждой итерации. Вначале выбирается желаемое количество кластеров. В этом методе кластеризации необходимо разбить точки данных на k групп. Больший k означает меньшие группы с большей гранулярностью таким же образом. Меньшее k означает большие группы с меньшей гранулярностью.

Выход алгоритма представляет собой группу «меток». Он назначает точку данных одной из k групп. В кластеризации k-средних каждая группа определяется путем создания центроида для каждой группы. Центроиды подобны сердцу скопления, которое захватывает точки, ближайшие к ним, и добавляет их к скоплению.

К-средняя кластеризация дополнительно определяет две подгруппы:

  • Агломерационная кластеризация
  • Дендрограмма

Агломерационная кластеризация:

Этот тип кластеризации K-средних начинается с фиксированного количества кластеров. Он распределяет все данные в точное количество кластеров. Этот метод кластеризации не требует количества кластеров K в качестве входных данных. Процесс агломерации начинается с формирования всех данных в виде одного кластера.

Этот метод использует некоторую меру расстояния, сокращая количество кластеров (по одному в каждой итерации) путем слияния. Наконец, у нас есть один большой кластер, который содержит все объекты.

Дендрограмма:

В методе кластеризации дендрограммы каждый уровень будет представлять возможный кластер. Высота дендрограммы показывает уровень сходства между двумя объединенными кластерами. Чем ближе к сути процесса, тем больше похожий кластер, который находит группу по дендрограмме, что не является естественным и в основном субъективным.

K- Ближайшие соседи

K- ближайший сосед – самый простой из всех классификаторов машинного обучения. Он отличается от других методов машинного обучения тем, что не производит модель. Это простой алгоритм, который хранит все доступные случаи и классифицирует новые экземпляры на основе показателя сходства.

Это работает очень хорошо, когда есть расстояние между примерами. Скорость обучения низкая, когда тренировочный набор большой, а вычисление дистанции нетривиально.

Анализ основных компонентов:

В случае, если вы хотите более многомерное пространство. Вам нужно выбрать базу для этого пространства и только 200 самых важных баллов этой базы. Эта база известна как основной компонент. Подмножество, которое вы выбираете, представляет собой новое пространство, которое имеет небольшой размер по сравнению с исходным пространством. Он поддерживает как можно большую сложность данных.

ассоциация

Правила ассоциации позволяют устанавливать ассоциации между объектами данных в больших базах данных. Эта неконтролируемая техника предназначена для обнаружения интересных связей между переменными в больших базах данных. Например, люди, которые покупают новый дом, чаще всего покупают новую мебель.

Другие примеры:

  • Подгруппа больных раком, сгруппированных по измерениям экспрессии генов
  • Группы покупателей, основанные на их истории просмотров и покупок
  • Фильм группы по рейтингу зрителей

Машинное обучение под присмотром против обучения без присмотра

параметры Контролируемая техника машинного обучения Техника машинного обучения без присмотра
Входные данные Алгоритмы обучаются с использованием помеченных данных. Алгоритмы используются против данных, которые не помечены
Вычислительная сложность Контролируемое обучение является более простым методом. Неуправляемое обучение является вычислительно сложным
точность Высокоточный и заслуживающий доверия метод. Менее точный и заслуживающий доверия метод.

Применение неконтролируемого машинного обучения

Некоторые применения неконтролируемых методов машинного обучения:

  • Кластеризация автоматически разбивает набор данных на группы на основе их сходства
  • Обнаружение аномалий может обнаружить необычные точки данных в вашем наборе данных. Это полезно для поиска мошеннических транзакций
  • Майнинг ассоциаций определяет наборы элементов, которые часто встречаются в вашем наборе данных
  • Модели скрытой переменной широко используются для предварительной обработки данных. Например, уменьшение количества объектов в наборе данных или разбиение набора данных на несколько компонентов.

Недостатки неконтролируемого обучения

  • Вы не можете получить точную информацию о сортировке данных, а выходные данные в виде данных, используемых в обучении без учителя, помечены и не известны.
  • Меньшая точность результатов объясняется тем, что входные данные неизвестны и не помечены людьми заранее. Это означает, что машина требует сделать это сама.
  • Спектральные классы не всегда соответствуют информационным классам.
  • Пользователь должен потратить время на интерпретацию и маркировку классов, которые соответствуют этой классификации.
  • Спектральные свойства классов также могут изменяться с течением времени, поэтому вы не можете получить ту же информацию о классе при переходе от одного изображения к другому.

Резюме

  • Обучение без учителя – это метод машинного обучения, при котором вам не нужно контролировать модель.
  • Машинное обучение без присмотра помогает вам находить все виды неизвестных шаблонов в данных.
  • Кластеризация и ассоциация – это два типа обучения без учителя.
  • Четыре типа методов кластеризации: 1) Эксклюзивный 2) Агломерационный 3) Перекрывающийся 4) Вероятностный.
  • Важными типами кластеризации являются: 1) Иерархическая кластеризация 2) Кластеризация K-средних 3) K-NN 4) Анализ главных компонентов 5) Разложение по сингулярным значениям 6) Анализ независимых компонентов.
  • Правила ассоциации позволяют устанавливать ассоциации между объектами данных в больших базах данных.
  • В контролируемом обучении алгоритмы обучаются с использованием помеченных данных, в то время как в неконтролируемом обучении алгоритмы используются для данных, которые не помечены.
  • Обнаружение аномалий может обнаружить важные точки данных в вашем наборе данных, которые полезны для обнаружения мошеннических транзакций.
  • Самым большим недостатком обучения без учителя является то, что вы не можете получить точную информацию о сортировке данных.