Статистический анализ в R выполняется с использованием многих встроенных функций. Большинство из этих функций являются частью базового пакета R. Эти функции принимают вектор R в качестве входных данных вместе с аргументами и дают результат.
Функции, которые мы обсуждаем в этой главе, — это среднее значение, медиана и режим.
Имею в виду
Он рассчитывается путем взятия суммы значений и деления на количество значений в ряду данных.
Функция mean () используется для вычисления этого в R.
Синтаксис
Основной синтаксис для вычисления среднего значения в R —
mean(x, trim = 0, na.rm = FALSE, ...)
Ниже приведено описание используемых параметров:
-
х является входным вектором.
-
Обрезка используется для отбрасывания некоторых наблюдений с обоих концов отсортированного вектора.
-
na.rm используется для удаления пропущенных значений из входного вектора.
х является входным вектором.
Обрезка используется для отбрасывания некоторых наблюдений с обоих концов отсортированного вектора.
na.rm используется для удаления пропущенных значений из входного вектора.
пример
# Create a vector. x <- c(12,7,3,4.2,18,2,54,-21,8,-5) # Find Mean. result.mean <- mean(x) print(result.mean)
Когда мы выполняем приведенный выше код, он дает следующий результат —
[1] 8.22
Применение варианта обрезки
Если указан параметр обрезки, значения в векторе сортируются, а затем необходимое количество наблюдений отбрасывается из расчета среднего значения.
Когда трим = 0,3, 3 значения с каждого конца будут исключены из расчетов, чтобы найти среднее.
В этом случае отсортированный вектор равен (−21, −5, 2, 3, 4.2, 7, 8, 12, 18, 54), а значения, удаленные из вектора для расчета среднего значения, равны (−21, −5,2) слева и (12,18,54) справа.
# Create a vector. x <- c(12,7,3,4.2,18,2,54,-21,8,-5) # Find Mean. result.mean <- mean(x,trim = 0.3) print(result.mean)
Когда мы выполняем приведенный выше код, он дает следующий результат —
[1] 5.55
Применение опции NA
Если пропущенные значения отсутствуют, функция средних значений возвращает NA.
Чтобы удалить пропущенные значения из расчета, используйте na.rm = TRUE. что означает удалить значения NA.
# Create a vector. x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA) # Find mean. result.mean <- mean(x) print(result.mean) # Find mean dropping NA values. result.mean <- mean(x,na.rm = TRUE) print(result.mean)
Когда мы выполняем приведенный выше код, он дает следующий результат —
[1] NA [1] 8.22
медиана
Среднее значение в ряду данных называется медианой. Функция median () используется в R для вычисления этого значения.
Синтаксис
Основной синтаксис для вычисления медианы в R —
median(x, na.rm = FALSE)
Ниже приведено описание используемых параметров:
-
х является входным вектором.
-
na.rm используется для удаления пропущенных значений из входного вектора.
х является входным вектором.
na.rm используется для удаления пропущенных значений из входного вектора.
пример
# Create the vector. x <- c(12,7,3,4.2,18,2,54,-21,8,-5) # Find the median. median.result <- median(x) print(median.result)
Когда мы выполняем приведенный выше код, он дает следующий результат —
[1] 5.6
Режим
Режим — это значение, которое имеет наибольшее количество вхождений в наборе данных. Unike среднее и среднее, режим может иметь как числовые, так и символьные данные.
R не имеет стандартной встроенной функции для расчета режима. Таким образом, мы создаем пользовательскую функцию для расчета режима набора данных в R. Эта функция принимает вектор в качестве входных данных и дает значение режима в качестве выходных данных.
пример
# Create the function. getmode <- function(v) { uniqv <- unique(v) uniqv[which.max(tabulate(match(v, uniqv)))] } # Create the vector with numbers. v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3) # Calculate the mode using the user function. result <- getmode(v) print(result) # Create the vector with characters. charv <- c("o","it","the","it","it") # Calculate the mode using the user function. result <- getmode(charv) print(result)
Когда мы выполняем приведенный выше код, он дает следующий результат —