Значение р примерно соответствует силе гипотезы. Мы строим гипотезу на основе некоторой статистической модели и сравниваем валидность модели, используя p-значение. Один из способов получить значение p — использовать T-критерий.
Это двусторонний тест для нулевой гипотезы о том, что ожидаемое значение (среднее) выборки независимых наблюдений «а» равно заданному среднему значению для популяции, среднему значению . Давайте рассмотрим следующий пример.
from scipy import stats rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,2)) print stats.ttest_1samp(rvs,5.0)
Вышеуказанная программа сгенерирует следующий вывод.
Ttest_1sampResult(statistic = array([-1.40184894, 2.70158009]), pvalue = array([ 0.16726344, 0.00945234]))
Сравнивая два образца
В следующих примерах есть две выборки, которые могут быть либо из одного, либо из другого распределения, и мы хотим проверить, имеют ли эти выборки одинаковые статистические свойства.
ttest_ind — вычисляет T-тест для средних двух независимых выборок баллов. Это двусторонний тест для нулевой гипотезы о том, что две независимые выборки имеют идентичные средние (ожидаемые) значения. Этот тест предполагает, что популяции имеют идентичные отклонения по умолчанию.
Мы можем использовать этот тест, если мы наблюдаем две независимые выборки из одной или разных популяций. Давайте рассмотрим следующий пример.
from scipy import stats rvs1 = stats.norm.rvs(loc = 5,scale = 10,size = 500) rvs2 = stats.norm.rvs(loc = 5,scale = 10,size = 500) print stats.ttest_ind(rvs1,rvs2)
Вышеуказанная программа сгенерирует следующий вывод.
Ttest_indResult(statistic = -0.67406312233650278, pvalue = 0.50042727502272966)
Вы можете проверить то же самое с новым массивом такой же длины, но с различным средним значением. Используйте другое значение в loc и тестируйте то же самое.