В большинстве ситуаций мы имеем дело с оценками всего распределения данных. Но когда дело доходит до оценки центральной тенденции, нам нужен конкретный способ обобщить распределение. Среднее значение и медиана являются очень часто используемыми методами для оценки центральной тенденции распределения.
На всех графиках, которые мы узнали в предыдущем разделе, мы сделали визуализацию всего дистрибутива. Теперь давайте поговорим о графиках, по которым мы можем оценить центральную тенденцию распределения.
Бар Участок
Barplot () показывает связь между категориальной переменной и непрерывной переменной. Данные представлены в прямоугольных столбцах, где длина столбца представляет долю данных в этой категории.
Гистограмма представляет собой оценку центральной тенденции. Давайте использовать набор данных «Титаник» для изучения графиков.
пример
import pandas as pd import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('titanic') sb.barplot(x = "sex", y = "survived", hue = "class", data = df) plt.show()
Выход
В приведенном выше примере мы можем видеть, что среднее число выживших мужчин и женщин в каждом классе. Из сюжета мы можем понять, что выжило больше женщин, чем мужчин. Как у мужчин, так и у женщин больше выживших из первого класса.
Особый случай в гистограмме — показать количество наблюдений в каждой категории, а не вычислять статистику для второй переменной. Для этого мы используем countplot ().
пример
import pandas as pd import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('titanic') sb.countplot(x = " class ", data = df, palette = "Blues"); plt.show()
Выход
Сюжет говорит, что количество пассажиров в третьем классе выше, чем в первом и втором классе.
Точечные участки
Точечные графики служат так же, как столбчатые, но в другом стиле. Вместо полной полосы значение оценки представляется точкой на определенной высоте на другой оси.