Учебники

Python — Измерение дисперсии

В статистике дисперсия представляет собой меру того, как далеко значение в наборе данных находится от среднего значения. Другими словами, это указывает, насколько разбросаны значения. Измеряется с помощью стандартного отклонения. Другой обычно используемый метод — это асимметрия.

Оба из них рассчитываются с использованием функций, доступных в библиотеке панд.

Измерение стандартного отклонения

Стандартное отклонение является квадратным корнем дисперсии. дисперсия — это среднее значение квадрата разности значений в наборе данных от среднего значения. В python мы вычисляем это значение с помощью функции std () из библиотеки pandas.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print df.std()

Его вывод выглядит следующим образом —

Age       7.265527
Rating    0.661628
dtype: float64

Измерение асимметрии

Используется для определения того, являются ли данные симметричными или искаженными. Если индекс находится между -1 и 1, то распределение является симметричным. Если индекс не больше -1, то он смещен влево, а если он равен как минимум 1, то он смещен вправо

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()

Его вывод выглядит следующим образом —

Age       1.443490
Rating   -0.153629
dtype: float64

Таким образом, распределение возрастного рейтинга симметрично, а распределение возраста отклонено вправо.