Учебники

Аналитика больших данных — деревья решений

Дерево решений — это алгоритм, используемый для контролируемых задач обучения, таких как классификация или регрессия. Дерево решений или дерево классификации — это дерево, в котором каждый внутренний (не конечный) узел помечен входной функцией. Дуги, идущие от узла, помеченного объектом, помечены каждым из возможных значений объекта. Каждый лист дерева помечен классом или распределением вероятностей по классам.

Дерево можно «изучить», разбив исходный набор на подмножества на основе теста значения атрибута. Этот процесс повторяется для каждого производного подмножества рекурсивным способом, называемым рекурсивным разбиением . Рекурсия завершается, когда подмножество в узле имеет все то же значение целевой переменной, или когда расщепление больше не добавляет значения к прогнозам. Этот процесс нисходящей индукции деревьев решений является примером жадного алгоритма и является наиболее распространенной стратегией для изучения деревьев решений.

Деревья решений, используемые в интеллектуальном анализе данных, делятся на два основных типа:

  • Классификационное дерево — когда ответ является номинальной переменной, например, является ли электронная почта спамом или нет.

  • Дерево регрессии — когда прогнозируемый результат можно считать действительным числом (например, зарплата работника).

Классификационное дерево — когда ответ является номинальной переменной, например, является ли электронная почта спамом или нет.

Дерево регрессии — когда прогнозируемый результат можно считать действительным числом (например, зарплата работника).

Деревья решений являются простым методом, и как таковые имеют некоторые проблемы. Одна из этих проблем — высокая дисперсия в результирующих моделях, которые создают деревья решений. Чтобы решить эту проблему, были разработаны ансамблевые методы деревьев решений. В настоящее время широко используются две группы методов ансамбля:

Деревья решений для суммирования — эти деревья используются для построения нескольких деревьев решений путем многократной повторной выборки обучающих данных с заменой и голосования деревьев за консенсус-прогноз. Этот алгоритм был назван случайным лесом.

Повышение деревьев решенийПовышение градиента объединяет слабых учеников; в этом случае деревья решений превращаются в одного сильного ученика итеративным способом. Он подгоняет слабое дерево к данным и итеративно продолжает подбирать слабых учеников, чтобы исправить ошибку предыдущей модели.