Учебники

Машинное обучение для анализа данных

Машинное обучение — это область компьютерных наук, которая занимается такими задачами, как распознавание образов, компьютерное зрение, распознавание речи, анализ текста и имеет тесную связь со статистикой и математической оптимизацией. Приложения включают разработку поисковых систем, фильтрацию спама, оптическое распознавание символов (OCR) и другие. Границы между извлечением данных, распознаванием образов и областью статистического обучения не ясны, и в основном все относятся к аналогичным проблемам.

Машинное обучение можно разделить на два типа задач —

  • Контролируемое обучение
  • Обучение без учителя

Контролируемое обучение

Контролируемое обучение относится к типу проблемы, когда есть входные данные, определенные как матрица X, и мы заинтересованы в прогнозировании ответа y . Где X = {x 1 , x 2 ,…, x n } имеет n предикторов и имеет два значения y = {c 1 , c 2 } .

В качестве примера приложения можно было бы предсказать вероятность того, что веб-пользователь нажмет на рекламу, используя демографические функции в качестве предикторов. Это часто вызывается для прогнозирования рейтинга кликов (CTR). Тогда y = {click, not-click}, и предикторами могут быть используемый IP-адрес, день, когда он зашел на сайт, город пользователя, страна и другие функции, которые могут быть доступны.

Обучение без учителя

Обучение без учителя решает проблему нахождения групп, которые похожи друг на друга, не имея класса для обучения. Существует несколько подходов к изучению отображения от предикторов к поиску групп, которые имеют одинаковые экземпляры в каждой группе и отличаются друг от друга.

Примером применения обучения без учителя является сегментация клиентов. Например, в телекоммуникационной отрасли обычной задачей является сегментирование пользователей в соответствии с использованием, которое они дают телефону. Это позволило бы отделу маркетинга ориентироваться на каждую группу с различным продуктом.