Учебники

Сиборн — Распределение наблюдений

На диаграммах разброса по категориям, которые мы рассмотрели в предыдущей главе, подход становится ограниченным в информации, которую он может предоставить о распределении значений в каждой категории. Теперь, пойдя дальше, давайте посмотрим, что может облегчить нам сравнение с категориями.

Коробочные участки

Boxplot — это удобный способ визуализации распределения данных по квартилям.

Коробчатые участки обычно имеют вертикальные линии, идущие от коробок, которые называются усами. Эти усы указывают на изменчивость за пределами верхнего и нижнего квартилей, поэтому графы Box Box также называются диаграммой « коробка с усами» и диаграмма « коробка с усами» . Любые выбросы в данных представлены в виде отдельных точек.

пример

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.swarmplot(x = "species", y = "petal_length", data = df)
plt.show()

Выход

Сжатый

Точки на графике указывают на выброс.

Сюжеты для скрипки

Графики для скрипки представляют собой комбинацию прямоугольника с оценками плотности ядра. Таким образом, эти графики легче анализировать и понимать распределение данных.

Давайте воспользуемся набором советов, чтобы узнать больше об участках игры на скрипке. Этот набор данных содержит информацию, касающуюся советов, данных клиентами в ресторане.

пример

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()

Выход

Этапы

Значения квартилей и усов из коробочного графика показаны внутри скрипки. Поскольку в скрипке используется KDE, более широкая часть скрипки указывает на более высокую плотность, а узкая область представляет относительно более низкую плотность. Межквартильный диапазон в коробчатом графике и более высокая плотность в kde попадают в один и тот же регион каждой категории скрипичного сюжета.

На приведенном выше графике показано распределение total_bill по четырем дням недели. Но, в дополнение к этому, если мы хотим увидеть, как дистрибутив ведет себя по отношению к полу, давайте рассмотрим его в следующем примере.

пример

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
plt.show()

Выход

разница

Теперь мы можем ясно видеть расходное поведение между мужчиной и женщиной. Можно легко сказать, что мужчины смотрят на сюжет больше, чем женщины.

И, если переменная оттенка имеет только два класса, мы можем украсить сюжет, разделив каждую скрипку на две вместо двух скрипок в данный день. Любая часть скрипки ссылается на каждый класс в переменной оттенка.