Учебники

Машинное обучение — логистическая регрессия

Логистическая регрессия представляет собой контролируемый алгоритм классификации обучения, используемый для прогнозирования вероятности целевой переменной. Природа целевой или зависимой переменной дихотомична, что означает, что будет только два возможных класса.

Проще говоря, зависимая переменная имеет двоичную природу и имеет данные, закодированные как 1 (означает успех / да) или 0 (означает отказ / нет).

Математически, модель логистической регрессии предсказывает P (Y = 1) как функцию X. Это один из самых простых алгоритмов ML, который можно использовать для различных задач классификации, таких как обнаружение спама, прогнозирование диабета, обнаружение рака и т. Д.

Типы логистической регрессии

Как правило, логистическая регрессия означает бинарную логистическую регрессию, имеющую двоичные целевые переменные, но она может быть предсказана еще двумя категориями целевых переменных. Исходя из этого количества категорий, Логистическая регрессия может быть разделена на следующие типы —

Бинарный или Биномиальный

В такого рода классификации зависимая переменная будет иметь только два возможных типа: 1 и 0. Например, эти переменные могут представлять успех или неудачу, да или нет, выигрыш или проигрыш и т. Д.

полиномиальной

В таком виде классификации зависимая переменная может иметь 3 или более возможных неупорядоченных типов или типов, не имеющих количественного значения. Например, эти переменные могут представлять «тип A» или «тип B» или «тип C».

порядковый

В таком виде классификации зависимая переменная может иметь 3 или более возможных упорядоченных типов или типов, имеющих количественное значение. Например, эти переменные могут представлять «плохо» или «хорошо», «очень хорошо», «отлично», и каждая категория может иметь баллы, такие как 0,1,2,3.

Допущения логистической регрессии

Прежде чем углубляться в реализацию логистической регрессии, мы должны знать о следующих предположениях об одном и том же:

В случае бинарной логистической регрессии целевые переменные всегда должны быть бинарными, а желаемый результат представлен уровнем факторов 1.

В модели не должно быть мультиколлинеарности, что означает, что независимые переменные должны быть независимы друг от друга.

Мы должны включить значимые переменные в нашу модель.

Мы должны выбрать большой размер выборки для логистической регрессии.

Модель бинарной логистической регрессии. Самой простой формой логистической регрессии является бинарная или биномиальная логистическая регрессия, в которой целевая или зависимая переменная может иметь только 2 возможных типа: 1 или 0.

Модель полиномиальной логистической регрессии. Другой полезной формой логистической регрессии является полиномиальная логистическая регрессия, в которой целевая или зависимая переменная может иметь 3 или более возможных неупорядоченных типов, то есть типы, не имеющие количественной значимости.