6) Машинное обучение без присмотра

Что такое обучение без учителя?

Обучение без учителя — это метод машинного обучения, при котором вам не нужно контролировать модель. Вместо этого вам нужно позволить модели работать самостоятельно для обнаружения информации. В основном это касается немаркированных данных.

Необучаемые алгоритмы обучения позволяют выполнять более сложные задачи обработки по сравнению с контролируемым обучением. Хотя неконтролируемое обучение может быть более непредсказуемым по сравнению с другими естественными методами обучения.

В этом уроке вы узнаете:

Пример неконтролируемого машинного обучения
Почему неконтролируемое обучение?
Типы неконтролируемого обучения
Кластеризация
Типы кластеризации
ассоциация
Машинное обучение под присмотром против обучения без присмотра
Применение неконтролируемого машинного обучения
Недостатки неконтролируемого обучения

Пример неконтролируемого машинного обучения

Давайте возьмем случай ребенка и ее семейной собаки.

Она знает и идентифицирует эту собаку. Через несколько недель друг семьи берет с собой собаку и пытается поиграть с ребенком.

Малыш не видел эту собаку ранее. Но он признает, что многие черты (2 уха, глаза, ходьба на 4 ногах) похожи на ее собаку. Она идентифицирует новое животное как собаку. Это неконтролируемое обучение, когда вас не учат, но вы учитесь на основе данных (в данном случае данных о собаке). Если бы это было обучение под наблюдением, друг семьи сказал бы ребенку, что это собака.

Почему неконтролируемое обучение?

Вот основные причины использования неконтролируемого обучения:

Неуправляемое машинное обучение находит в данных все виды неизвестных закономерностей.
Неуправляемые методы помогут вам найти функции, которые могут быть полезны для категоризации.
Это происходит в режиме реального времени, поэтому все входные данные должны быть проанализированы и помечены в присутствии учащихся.
Получать немаркированные данные с компьютера легче, чем помечать данные, что требует ручного вмешательства.

Типы неконтролируемого обучения

Необученные проблемы обучения далее сгруппированы в проблемы кластеризации и ассоциации.

Кластеризация

Кластеризация является важной концепцией, когда речь идет об обучении без учителя. В основном это касается поиска структуры или шаблона в коллекции некатегоризованных данных. Алгоритмы кластеризации будут обрабатывать ваши данные и находить естественные кластеры (группы), если они существуют в данных. Вы также можете изменить количество кластеров, которые должны идентифицировать ваши алгоритмы. Это позволяет настроить гранулярность этих групп.

Существуют различные типы кластеризации, которые вы можете использовать:

Эксклюзив (разметка)

В этом методе кластеризации данные группируются таким образом, что одни данные могут принадлежать только одному кластеру.

Пример: К-значит

агломерационных

В этом методе кластеризации все данные являются кластером. Итеративные объединения между двумя ближайшими кластерами уменьшают количество кластеров.

Пример: иерархическая кластеризация

Перекрытие

В этой технике нечеткие множества используются для кластеризации данных. Каждая точка может принадлежать двум или более кластерам с отдельными степенями членства.

Здесь данные будут связаны с соответствующим значением членства. Пример: нечеткие С-средства

вероятностный

Этот метод использует распределение вероятностей для создания кластеров

Пример: следующие ключевые слова

«мужская обувь».
«женская обувь».
«женская перчатка».
«мужская перчатка».

можно разделить на две категории: «обувь» и «перчатка» или «мужчина» и «женщина».

Типы кластеризации

Иерархическая кластеризация
K-означает кластеризацию
K-NN (k ближайших соседей)
Анализ главных компонентов
Разложение по единственному значению
Независимый компонентный анализ

Иерархическая кластеризация:

Иерархическая кластеризация — это алгоритм, который строит иерархию кластеров. Он начинается со всех данных, которые назначены на собственный кластер. Здесь два близких кластера будут находиться в одном кластере. Этот алгоритм заканчивается, когда остается только один кластер.

K-означает кластеризацию

K означает, что это алгоритм итеративной кластеризации, который помогает вам найти максимальное значение для каждой итерации. Вначале выбирается желаемое количество кластеров. В этом методе кластеризации необходимо разбить точки данных на k групп. Больший k означает меньшие группы с большей гранулярностью таким же образом. Меньшее k означает большие группы с меньшей гранулярностью.

Выход алгоритма представляет собой группу «меток». Он назначает точку данных одной из k групп. В кластеризации k-средних каждая группа определяется путем создания центроида для каждой группы. Центроиды подобны сердцу скопления, которое захватывает точки, ближайшие к ним, и добавляет их к скоплению.

К-средняя кластеризация дополнительно определяет две подгруппы:

Агломерационная кластеризация
Дендрограмма

Агломерационная кластеризация:

Этот тип кластеризации K-средних начинается с фиксированного количества кластеров. Он распределяет все данные в точное количество кластеров. Этот метод кластеризации не требует количества кластеров K в качестве входных данных. Процесс агломерации начинается с формирования всех данных в виде одного кластера.

Этот метод использует некоторую меру расстояния, сокращая количество кластеров (по одному в каждой итерации) путем слияния. Наконец, у нас есть один большой кластер, который содержит все объекты.

Дендрограмма:

В методе кластеризации дендрограммы каждый уровень будет представлять возможный кластер. Высота дендрограммы показывает уровень сходства между двумя объединенными кластерами. Чем ближе к сути процесса, тем больше похожий кластер, который находит группу по дендрограмме, что не является естественным и в основном субъективным.

K- Ближайшие соседи

K- ближайший сосед — самый простой из всех классификаторов машинного обучения. Он отличается от других методов машинного обучения тем, что не производит модель. Это простой алгоритм, который хранит все доступные случаи и классифицирует новые экземпляры на основе показателя сходства.

Это работает очень хорошо, когда есть расстояние между примерами. Скорость обучения низкая, когда тренировочный набор большой, а вычисление дистанции нетривиально.

Анализ основных компонентов:

В случае, если вы хотите более многомерное пространство. Вам нужно выбрать базу для этого пространства и только 200 самых важных баллов этой базы. Эта база известна как основной компонент. Подмножество, которое вы выбираете, представляет собой новое пространство, которое имеет небольшой размер по сравнению с исходным пространством. Он поддерживает как можно большую сложность данных.

ассоциация

Правила ассоциации позволяют устанавливать ассоциации между объектами данных в больших базах данных. Эта неконтролируемая техника предназначена для обнаружения интересных связей между переменными в больших базах данных. Например, люди, которые покупают новый дом, чаще всего покупают новую мебель.

Другие примеры:

Подгруппа больных раком, сгруппированных по измерениям экспрессии генов
Группы покупателей, основанные на их истории просмотров и покупок
Фильм группы по рейтингу зрителей

Машинное обучение под присмотром против обучения без присмотра

параметры	Контролируемая техника машинного обучения	Техника машинного обучения без присмотра
Входные данные	Алгоритмы обучаются с использованием помеченных данных.	Алгоритмы используются против данных, которые не помечены
Вычислительная сложность	Контролируемое обучение является более простым методом.	Неуправляемое обучение является вычислительно сложным
точность	Высокоточный и заслуживающий доверия метод.	Менее точный и заслуживающий доверия метод.

Применение неконтролируемого машинного обучения

Некоторые применения неконтролируемых методов машинного обучения:

Кластеризация автоматически разбивает набор данных на группы на основе их сходства
Обнаружение аномалий может обнаружить необычные точки данных в вашем наборе данных. Это полезно для поиска мошеннических транзакций
Майнинг ассоциаций определяет наборы элементов, которые часто встречаются в вашем наборе данных
Модели скрытой переменной широко используются для предварительной обработки данных. Например, уменьшение количества объектов в наборе данных или разбиение набора данных на несколько компонентов.

Недостатки неконтролируемого обучения

Вы не можете получить точную информацию о сортировке данных, а выходные данные в виде данных, используемых в обучении без учителя, помечены и не известны.
Меньшая точность результатов объясняется тем, что входные данные неизвестны и не помечены людьми заранее. Это означает, что машина требует сделать это сама.
Спектральные классы не всегда соответствуют информационным классам.
Пользователь должен потратить время на интерпретацию и маркировку классов, которые соответствуют этой классификации.
Спектральные свойства классов также могут изменяться с течением времени, поэтому вы не можете получить ту же информацию о классе при переходе от одного изображения к другому.

Резюме

Обучение без учителя — это метод машинного обучения, при котором вам не нужно контролировать модель.
Машинное обучение без присмотра помогает вам находить все виды неизвестных шаблонов в данных.
Кластеризация и ассоциация — это два типа обучения без учителя.
Четыре типа методов кластеризации: 1) Эксклюзивный 2) Агломерационный 3) Перекрывающийся 4) Вероятностный.
Важными типами кластеризации являются: 1) Иерархическая кластеризация 2) Кластеризация K-средних 3) K-NN 4) Анализ главных компонентов 5) Разложение по сингулярным значениям 6) Анализ независимых компонентов.
Правила ассоциации позволяют устанавливать ассоциации между объектами данных в больших базах данных.
В контролируемом обучении алгоритмы обучаются с использованием помеченных данных, в то время как в неконтролируемом обучении алгоритмы используются для данных, которые не помечены.
Обнаружение аномалий может обнаружить важные точки данных в вашем наборе данных, которые полезны для обнаружения мошеннических транзакций.
Самым большим недостатком обучения без учителя является то, что вы не можете получить точную информацию о сортировке данных.