Учебники

Seaborn — нанесение категорических данных

В наших предыдущих главах мы узнали о точечных диаграммах, шестнадцатеричных диаграммах и диаграммах kde, которые используются для анализа исследуемых непрерывных переменных. Эти графики не подходят, когда исследуемая переменная является категориальной.

Когда одна или обе исследуемые переменные являются категориальными, мы используем такие графики, как striplot (), swarmplot () и т. Д. Seaborn предоставляет интерфейс для этого.

Категориальные точечные диаграммы

В этом разделе мы узнаем о категориальных точечных графиках.

stripplot ()

stripplot () используется, когда одна из изучаемых переменных является категориальной. Он представляет данные в отсортированном порядке по любой из осей.

пример

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.stripplot(x = "species", y = "petal_length", data = df)
plt.show()

Выход

коробка

На приведенном выше графике мы ясно видим разницу в длине лепестка у каждого вида. Но главная проблема с рассмотренным выше графиком рассеяния состоит в том, что точки на графике рассеяния перекрываются. Мы используем параметр «Джиттер» для обработки такого сценария.

Джиттер добавляет к данным случайный шум. Этот параметр будет регулировать позиции вдоль категориальной оси.

пример

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.stripplot(x = "species", y = "petal_length", data = df, jitter = Ture)
plt.show()

Выход

точек

Теперь о распределении точек видно легко.

Swarmplot ()

Другой вариант, который можно использовать в качестве альтернативы Jitter, — это функция swarmplot () . Эта функция позиционирует каждую точку графика рассеяния на категориальной оси и таким образом избегает перекрывающихся точек —