Учебники

Аналитика больших данных — определение проблемы

С помощью этого урока мы разработаем проект. Каждая последующая глава в этом руководстве посвящена части более крупного проекта в разделе мини-проекта. Предполагается, что это раздел прикладного учебного пособия, в котором будет рассказано о реальной проблеме. В этом случае мы начнем с определения проблемы проекта.

Описание Проекта

Целью этого проекта будет разработка модели машинного обучения для прогнозирования почасовой заработной платы людей с использованием их биографических данных (CV) в качестве входных данных.

Используя рамки, определенные выше, просто определить проблему. Мы можем определить X = {x 1 , x 2 ,…, x n } как резюме пользователей, где каждая функция может быть самым простым способом, сколько раз это слово появляется. Тогда ответ реально оценен, мы пытаемся прогнозировать почасовую зарплату физических лиц в долларах.

Этих двух соображений достаточно, чтобы сделать вывод, что представленная проблема может быть решена с помощью алгоритма контролируемой регрессии.

Определение проблемы

Определение проблемы — это, вероятно, один из самых сложных и часто игнорируемых этапов в аналитическом конвейере больших данных. Чтобы определить проблему, которую должен решить продукт данных, опыт работы обязателен. У большинства аспирантов-исследователей на этом этапе нет опыта.

Большинство проблем с большими данными можно классифицировать следующими способами:

  • Контролируемая классификация
  • Контролируемая регрессия
  • Неконтролируемое обучение
  • Учимся оценивать

Давайте теперь узнаем больше об этих четырех понятиях.

Контролируемая классификация

Учитывая матрицу признаков X = {x 1 , x 2 , …, x n }, мы разрабатываем модель M для прогнозирования различных классов, определенных как y = {c 1 , c 2 , …, c n } . Например: учитывая данные о транзакциях клиентов в страховой компании, можно разработать модель, которая будет прогнозировать, будет ли клиент работать на рынке или нет. Последняя является проблемой двоичной классификации, где есть два класса или целевые переменные: отток и не отток.

Другие проблемы включают предсказание более чем одного класса, мы могли бы быть заинтересованы в распознавании цифр, поэтому вектор ответа будет определяться как: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} Современная модель будет представлять собой сверточную нейронную сеть, а матрица признаков будет определяться как пиксели изображения.

Контролируемая регрессия

В этом случае определение проблемы довольно похоже на предыдущий пример; разница зависит от ответа. В задаче регрессии, ответ y ∈ this, это означает, что ответ является действительным значением. Например, мы можем разработать модель для прогнозирования почасовой зарплаты отдельных лиц с учетом совокупности их резюме.

Обучение без учителя

Менеджмент часто жаждет новых идей. Модели сегментации могут предоставить эту информацию, чтобы отдел маркетинга разработал продукты для различных сегментов. Хороший подход к разработке модели сегментации, а не к размышлению об алгоритмах, состоит в выборе функций, которые имеют отношение к желаемой сегментации.

Например, в телекоммуникационной компании интересно сегментировать клиентов по их мобильному телефону. Это может включать игнорирование функций, которые не имеют ничего общего с целью сегментации, и включает только те, которые имеют. В этом случае это будет выбор функций, таких как количество SMS-сообщений, использованных за месяц, количество входящих и исходящих минут и т. Д.

Учимся ранжировать

Эта проблема может рассматриваться как проблема регрессии, но она имеет свои особенности и заслуживает отдельного рассмотрения. Проблема заключается в том, что при наличии набора документов мы стремимся найти наиболее релевантный порядок по запросу. Чтобы разработать контролируемый алгоритм обучения, необходимо пометить, насколько релевантно упорядочение с учетом запроса.

Следует отметить, что для разработки алгоритма обучения под наблюдением необходимо маркировать данные обучения. Это означает, что для обучения модели, которая будет, например, распознавать цифры на изображении, нам нужно вручную пометить значительное количество примеров. Существуют веб-сервисы, которые могут ускорить этот процесс и обычно используемые для этой задачи, такие как amazon механический турок. Доказано, что алгоритмы обучения улучшают свою производительность, когда предоставляют больше данных, поэтому маркировка приличного количества примеров практически обязательна в контролируемом обучении.