Учебники

Data Mining — Байесовская классификация

Байесовская классификация основана на теореме Байеса. Байесовские классификаторы являются статистическими классификаторами. Байесовские классификаторы могут предсказать вероятности принадлежности к классу, такие как вероятность того, что данный кортеж принадлежит определенному классу.

Теорема Байе

Теорема Байеса названа в честь Томаса Байеса. Есть два типа вероятностей —

  • Задняя вероятность [P (H / X)]
  • Априорная вероятность [P (H)]

где X — кортеж данных, а H — некоторая гипотеза.

Согласно теореме Байеса,

P (H / X) = P (X / H) P (H) / P (X)

Байесовская сеть убеждений

Байесовские сети убеждений определяют совместные условные распределения вероятностей. Они также известны как сети убеждений, байесовские сети или вероятностные сети.

  • Сеть убеждений позволяет определять условные зависимости класса между подмножествами переменных.

  • Он предоставляет графическую модель причинно-следственной связи, на которой может быть выполнено обучение.

  • Мы можем использовать обученную байесовскую сеть для классификации.

Сеть убеждений позволяет определять условные зависимости класса между подмножествами переменных.

Он предоставляет графическую модель причинно-следственной связи, на которой может быть выполнено обучение.

Мы можем использовать обученную байесовскую сеть для классификации.

Есть два компонента, которые определяют Байесовскую сеть убеждений —

  • Направленный ациклический граф
  • Набор таблиц условной вероятности

Направленный ациклический граф

  • Каждый узел в ориентированном ациклическом графе представляет случайную величину.
  • Эти переменные могут быть дискретными или непрерывными.
  • Эти переменные могут соответствовать фактическому атрибуту, указанному в данных.

Направленное представление ациклического графа

Следующая диаграмма показывает направленный ациклический граф для шести булевых переменных.

Ациклический Граф

Дуга на диаграмме позволяет представить причинное знание. Например, на рак легких влияет семейный анамнез рака легких, а также то, является ли человек курильщиком. Стоит отметить, что переменная PositiveXray не зависит от того, есть ли у пациента семейный анамнез рака легких или является ли он курильщиком, учитывая, что мы знаем, что у пациента рак легких.

Таблица условных вероятностей

Таблица условных вероятностей для значений переменной LungCancer (LC), показывающая каждую возможную комбинацию значений его родительских узлов, FamilyHistory (FH) и Smoker (S), выглядит следующим образом: