Учебники

12) Матрица путаницы в машинном обучении

Что такое Матрица замешательства?

Путаница матрица представляет собой метод измерения производительности для классификации машинного обучения. Это своего рода таблица, которая помогает вам узнать производительность модели классификации на наборе тестовых данных, для которых известны истинные значения. Сам термин «матрица путаницы» очень прост, но связанная с ним терминология может немного запутать. Здесь приведено простое объяснение этой техники.

В этом уроке вы узнаете,

Четыре результата матрицы путаницы

Матрица путаницы визуализирует точность классификатора, сравнивая фактические и прогнозируемые классы. Матрица двоичной путаницы состоит из квадратов:

Таблица путаницы
  • TP: True Positive: прогнозируемые значения, правильно прогнозируемые как фактические положительные
  • FP: Предсказанные значения неправильно предсказывают фактический положительный результат. т.е. отрицательные значения прогнозируются как положительные
  • FN: False Negative: положительные значения прогнозируются как отрицательные
  • TN: True Negative: прогнозируемые значения, правильно прогнозируемые как фактические негативные

Вы можете вычислить тест точности из матрицы путаницы:

Пример Матрицы Путаницы:

Confusion Matrix — это полезный метод машинного обучения, который позволяет измерять кривые Recall, Precision, Accuracy и AUC-ROC. Ниже приведен пример, чтобы узнать термины Истинный положительный, Истинный отрицательный, Ложный отрицательный и Истинный отрицательный.

Истинный Позитив:

Вы проецировали позитив, и это оказалось правдой. Например, вы предсказывали, что Франция выиграет чемпионат мира, и он выиграл.

True Negative:

Когда ты прогнозируешь негатив, и это правда. Вы предсказывали, что Англия не победит, и она проиграла.

Ложный положительный результат:

Ваш прогноз положителен, и это неверно.

Вы предсказывали, что Англия победит, но она проиграла.

Ложный Отрицательный:

Ваш прогноз отрицателен, и результат его также неверен.

Вы предсказывали, что Франция не победит, но она победила.

Следует помнить, что мы описываем прогнозируемые значения как Истинные или Ложные или Положительные и Отрицательные.

Как рассчитать матрицу путаницы

Здесь приведен пошаговый процесс расчета Матрицы путаницы в интеллектуальном анализе данных.

  • Шаг 1) Сначала вам нужно протестировать набор данных с ожидаемыми значениями результата.
  • Шаг 2) Прогнозирование всех строк в тестовом наборе данных.
  • Шаг 3) Рассчитайте ожидаемые прогнозы и результаты:
  1. Сумма правильных предсказаний каждого класса.
  2. Общее количество неверных прогнозов каждого класса.

После этого эти числа организованы по приведенным ниже методам:

  • Каждая строка матрицы ссылается на прогнозируемый класс.
  • Каждый столбец матрицы соответствует фактическому классу.
  • Общее количество правильных и неправильных классификаций заносится в таблицу.
  • Сумма правильных прогнозов для класса входит в прогнозируемый столбец и ожидаемую строку для этого значения класса.
  • Сумма неправильных предсказаний для класса входит в ожидаемую строку для этого значения класса и в предсказанный столбец для этого конкретного значения класса.

Другие важные термины с использованием матрицы путаницы

  • Положительное прогнозирующее значение (PVV): это очень близко к точности. Одно существенное различие между двумя терминами состоит в том, что PVV учитывает распространенность. В ситуации, когда классы идеально сбалансированы, положительная прогностическая ценность равна точности.
  • Нулевая частота ошибок: этот термин используется для определения того, сколько раз ваш прогноз будет неверным, если вы можете предсказать класс большинства. Вы можете рассматривать его как базовый показатель для сравнения вашего классификатора.
  • Оценка F: Оценка F1 — это средневзвешенная оценка истинного положительного результата (напоминания) и точности.
  • Кривая Roc: Кривая Roc показывает истинные положительные показатели по сравнению с ложноположительными в различных точках разреза Это также демонстрирует компромисс между чувствительностью (отзыв и специфичность или истинный отрицательный показатель).
  • Точность: метрика точности показывает точность положительного класса. Он измеряет вероятность того, что прогноз положительного класса верен.

Максимальная оценка равна 1, когда классификатор отлично классифицирует все положительные значения. Одна только точность не очень полезна, потому что она игнорирует отрицательный класс. Метрика обычно сопряжена с метрикой Recall. Напомним, также называется чувствительность или истинно положительный показатель.

  • Чувствительность : Чувствительность вычисляет соотношение положительно обнаруженных классов. Этот показатель показывает, насколько хороша модель для распознавания положительного класса.

Зачем вам нужна матрица путаницы?

Вот плюсы / плюсы использования путаницы.

  • Это показывает, как любая модель классификации путается, когда она делает прогнозы.
  • Матрица путаницы дает вам не только представление об ошибках, допущенных вашим классификатором, но и о типах ошибок, которые допускаются.
  • Эта разбивка помогает вам преодолеть ограничение использования только точности классификации.
  • Каждый столбец матрицы путаницы представляет экземпляры этого предсказанного класса.
  • Каждая строка матрицы путаницы представляет экземпляры фактического класса.
  • Это обеспечивает понимание не только ошибок, которые сделаны классификатором, но также и ошибок, которые делаются.