Учебники

SAS — Поднабор данных

Подмножество набора данных SAS означает выделение части набора данных путем выбора меньшего числа переменных или меньшего числа наблюдений или обоих. В то время как поднабор переменных выполняется с помощью операторов KEEP и DROP , поднабор наблюдений выполняется с помощью операторов DELETE .

Кроме того, полученные в результате операции поднабора данные хранятся в новом наборе данных, который можно использовать для дальнейшего анализа. Поднабор в основном используется для анализа части набора данных без использования тех переменных или наблюдений, которые могут не иметь отношения к анализу.

Подмножество переменных

В этом методе мы извлекаем только несколько переменных из всего набора данных.

Синтаксис

Основной синтаксис для поднабора переменных в SAS —

KEEP var1 var2 ... ;
DROP var1 var2 ... ;

Ниже приведено описание используемых параметров:

  • var1 и var2 — это имена переменных из набора данных, которые необходимо сохранить или удалить.

var1 и var2 — это имена переменных из набора данных, которые необходимо сохранить или удалить.

пример

Рассмотрим приведенный ниже набор данных SAS, содержащий сведения о сотрудниках организации. Если мы заинтересованы только в получении значений Name и Department из набора данных, мы можем использовать приведенный ниже код.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   KEEP ename DEPT;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN; 

Когда приведенный выше код выполняется, мы получаем следующий вывод.

subsetting1

Тот же результат можно получить, отбросив переменные, которые не требуются. Код ниже иллюстрирует это.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   DROP empid salary;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN; 

Подмножество наблюдений

В этом методе мы извлекаем только несколько наблюдений из всего набора данных.

Синтаксис

Мы используем PROC FREQ, который отслеживает наблюдения, выбранные для нового набора данных.

Синтаксис для поднаборов наблюдений —

IF Var Condition THEN DELETE ;

Ниже приведено описание используемых параметров:

  • Var — это имя переменной, в зависимости от значения которой наблюдения будут удаляться с использованием указанного условия.

Var — это имя переменной, в зависимости от значения которой наблюдения будут удаляться с использованием указанного условия.

пример

Рассмотрим приведенный ниже набор данных SAS, содержащий сведения о сотрудниках организации. Если мы заинтересованы только в получении данных для сотрудников с зарплатой более 700, то мы используем приведенный ниже код.

DATA Employee; 
   INPUT empid name $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   IF salary < 700 THEN DELETE;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN; 

Когда приведенный выше код выполняется, мы получаем следующий вывод.