В статистике дисперсия представляет собой меру того, как далеко значение в наборе данных находится от среднего значения. Другими словами, это указывает, насколько разбросаны значения. Измеряется с помощью стандартного отклонения. Другой обычно используемый метод — это асимметрия.
Оба из них рассчитываются с использованием функций, доступных в библиотеке панд.
Измерение стандартного отклонения
Стандартное отклонение является квадратным корнем дисперсии. дисперсия — это среднее значение квадрата разности значений в наборе данных от среднего значения. В python мы вычисляем это значение с помощью функции std () из библиотеки pandas.
import pandas as pd #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #Create a DataFrame df = pd.DataFrame(d) # Calculate the standard deviation print df.std()
Его вывод выглядит следующим образом —
Age 7.265527 Rating 0.661628 dtype: float64
Измерение асимметрии
Используется для определения того, являются ли данные симметричными или искаженными. Если индекс находится между -1 и 1, то распределение является симметричным. Если индекс не больше -1, то он смещен влево, а если он равен как минимум 1, то он смещен вправо
import pandas as pd #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #Create a DataFrame df = pd.DataFrame(d) print df.skew()
Его вывод выглядит следующим образом —
Age 1.443490 Rating -0.153629 dtype: float64
Таким образом, распределение возрастного рейтинга симметрично, а распределение возраста отклонено вправо.