Критерий хи-квадрат — это статистический метод определения значимой корреляции между двумя категориальными переменными. Обе эти переменные должны быть из одной популяции, и они должны быть категоричными, как — Да / Нет, Мужской / Женский, Красный / Зеленый и т. Д. Например, мы можем построить набор данных с наблюдениями за образцом покупки мороженого людьми и попытаться сопоставить пол человека со вкусом мороженого, которое они предпочитают. Если корреляция найдена, мы можем планировать соответствующий запас вкусов, зная количество людей, посещающих их.
Мы используем различные функции в библиотеке numpy для проведения теста хи-квадрат.
from scipy import stats import numpy as np import matplotlib.pyplot as plt x = np.linspace(0, 10, 100) fig,ax = plt.subplots(1,1) linestyles = [':', '--', '-.', '-'] deg_of_freedom = [1, 4, 7, 6] for df, ls in zip(deg_of_freedom, linestyles): ax.plot(x, stats.chi2.pdf(x, df), linestyle=ls) plt.xlim(0, 10) plt.ylim(0, 0.4) plt.xlabel('Value') plt.ylabel('Frequency') plt.title('Chi-Square Distribution') plt.legend() plt.show()
Его вывод выглядит следующим образом —