Машинное обучение — это область компьютерных наук, которая занимается такими задачами, как распознавание образов, компьютерное зрение, распознавание речи, анализ текста и имеет тесную связь со статистикой и математической оптимизацией. Приложения включают разработку поисковых систем, фильтрацию спама, оптическое распознавание символов (OCR) и другие. Границы между извлечением данных, распознаванием образов и областью статистического обучения не ясны, и в основном все относятся к аналогичным проблемам.
Машинное обучение можно разделить на два типа задач —
- Контролируемое обучение
- Обучение без учителя
Контролируемое обучение
Контролируемое обучение относится к типу проблемы, когда есть входные данные, определенные как матрица X, и мы заинтересованы в прогнозировании ответа y . Где X = {x 1 , x 2 ,…, x n } имеет n предикторов и имеет два значения y = {c 1 , c 2 } .
В качестве примера приложения можно было бы предсказать вероятность того, что веб-пользователь нажмет на рекламу, используя демографические функции в качестве предикторов. Это часто вызывается для прогнозирования рейтинга кликов (CTR). Тогда y = {click, not-click}, и предикторами могут быть используемый IP-адрес, день, когда он зашел на сайт, город пользователя, страна и другие функции, которые могут быть доступны.
Обучение без учителя
Обучение без учителя решает проблему нахождения групп, которые похожи друг на друга, не имея класса для обучения. Существует несколько подходов к изучению отображения от предикторов к поиску групп, которые имеют одинаковые экземпляры в каждой группе и отличаются друг от друга.
Примером применения обучения без учителя является сегментация клиентов. Например, в телекоммуникационной отрасли обычной задачей является сегментирование пользователей в соответствии с использованием, которое они дают телефону. Это позволило бы отделу маркетинга ориентироваться на каждую группу с различным продуктом.