Учебники

Нахождение выбросов в наборе данных

Выбросы — это точки данных, которые не соответствуют шаблону остальных чисел. Это чрезвычайно высокие или крайне низкие значения в наборе данных.

Простой способ найти выброс — это изучить числа в наборе данных. Мы увидим, что большинство чисел сгруппированы вокруг диапазона, а некоторые числа слишком малы или слишком велики по сравнению с остальными числами. Такие числа известны как выбросы.

Другое определение выброса

Точка данных, которая отчетливо отделена от остальных данных. Одним из определений выброса является любая точка данных более чем в 1,5 межквартильных диапазонах (IQR) ниже первого квартиля или выше третьего квартиля. Межквартильный диапазон (IQR) — это разница между третьим квартилем и первым квартилем набора данных.

Найти выбросы для данных 0, 2, 5, 6, 9, 12, 35.

Для данного набора данных у нас есть следующая пятизначная сводка.

минимум = 0

первый квартиль = 2

медиана = 6

третий квартиль = 12

максимум = 35

IQR = 12 — 2 = 10, поэтому 1,5 · IQR = 15.

Чтобы определить, есть ли выбросы, мы должны рассмотреть числа, которые на 1,5 · IQR или 15 вне квартилей.

первый квартиль — 1,5 · IQR = 2 — 15 = –13

третий квартиль + 1,5 · IQR = 12 + 15 = 27

Поскольку 35 находится вне интервала от –13 до 27, 35 является выбросом в этом наборе данных.

Найдите выбросы в приведенном ниже наборе данных.

28, 26, 29, 30, 81, 32, 37

Шаг 1:

Данные, которые отличаются от других чисел в данном наборе, составляют 81

Шаг 2:

Таким образом, выброс для этого набора данных составляет 81

Найдите выбросы в приведенном ниже наборе данных.

16, 14, 3, 12, 15, 17, 22, 15, 52

Шаг 1:

Данные, которые отличаются от других чисел в данном наборе, равны 52.

Шаг 2:

Таким образом, выброс для этого набора данных составляет 52