Подмножество набора данных SAS означает выделение части набора данных путем выбора меньшего числа переменных или меньшего числа наблюдений или обоих. В то время как поднабор переменных выполняется с помощью операторов KEEP и DROP , поднабор наблюдений выполняется с помощью операторов DELETE .
Кроме того, полученные в результате операции поднабора данные хранятся в новом наборе данных, который можно использовать для дальнейшего анализа. Поднабор в основном используется для анализа части набора данных без использования тех переменных или наблюдений, которые могут не иметь отношения к анализу.
Подмножество переменных
В этом методе мы извлекаем только несколько переменных из всего набора данных.
Синтаксис
Основной синтаксис для поднабора переменных в SAS —
KEEP var1 var2 ... ; DROP var1 var2 ... ;
Ниже приведено описание используемых параметров:
-
var1 и var2 — это имена переменных из набора данных, которые необходимо сохранить или удалить.
var1 и var2 — это имена переменных из набора данных, которые необходимо сохранить или удалить.
пример
Рассмотрим приведенный ниже набор данных SAS, содержащий сведения о сотрудниках организации. Если мы заинтересованы только в получении значений Name и Department из набора данных, мы можем использовать приведенный ниже код.
DATA Employee; INPUT empid ename $ salary DEPT $ ; DATALINES; 1 Rick 623.3 IT 2 Dan 515.2 OPS 3 Mike 611.5 IT 4 Ryan 729.1 HR 5 Gary 843.25 FIN 6 Tusar 578.6 IT 7 Pranab 632.8 OPS 8 Rasmi 722.5 FIN ; RUN; DATA OnlyDept; SET Employee; KEEP ename DEPT; RUN; PROC PRINT DATA = OnlyDept; RUN;
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Тот же результат можно получить, отбросив переменные, которые не требуются. Код ниже иллюстрирует это.
DATA Employee; INPUT empid ename $ salary DEPT $ ; DATALINES; 1 Rick 623.3 IT 2 Dan 515.2 OPS 3 Mike 611.5 IT 4 Ryan 729.1 HR 5 Gary 843.25 FIN 6 Tusar 578.6 IT 7 Pranab 632.8 OPS 8 Rasmi 722.5 FIN ; RUN; DATA OnlyDept; SET Employee; DROP empid salary; RUN; PROC PRINT DATA = OnlyDept; RUN;
Подмножество наблюдений
В этом методе мы извлекаем только несколько наблюдений из всего набора данных.
Синтаксис
Мы используем PROC FREQ, который отслеживает наблюдения, выбранные для нового набора данных.
Синтаксис для поднаборов наблюдений —
IF Var Condition THEN DELETE ;
Ниже приведено описание используемых параметров:
-
Var — это имя переменной, в зависимости от значения которой наблюдения будут удаляться с использованием указанного условия.
Var — это имя переменной, в зависимости от значения которой наблюдения будут удаляться с использованием указанного условия.
пример
Рассмотрим приведенный ниже набор данных SAS, содержащий сведения о сотрудниках организации. Если мы заинтересованы только в получении данных для сотрудников с зарплатой более 700, то мы используем приведенный ниже код.
DATA Employee; INPUT empid name $ salary DEPT $ ; DATALINES; 1 Rick 623.3 IT 2 Dan 515.2 OPS 3 Mike 611.5 IT 4 Ryan 729.1 HR 5 Gary 843.25 FIN 6 Tusar 578.6 IT 7 Pranab 632.8 OPS 8 Rasmi 722.5 FIN ; RUN; DATA OnlyDept; SET Employee; IF salary < 700 THEN DELETE; RUN; PROC PRINT DATA = OnlyDept; RUN;
Когда приведенный выше код выполняется, мы получаем следующий вывод.