Учебники

Аналитика больших данных — обобщение данных

Отчетность очень важна в аналитике больших данных. Каждая организация должна регулярно предоставлять информацию для поддержки процесса принятия решений. Эта задача обычно выполняется аналитиками данных с опытом работы с SQL и ETL (извлечение, передача и загрузка).

Команда, отвечающая за эту задачу, несет ответственность за распространение информации, полученной в отделе анализа больших данных, в различных областях организации.

Следующий пример демонстрирует, что означает суммирование данных. Перейдите в папку bda / part1 / sumrize_data и внутри папки откройте файл sumrize_data.Rproj , дважды щелкнув по нему. Затем откройте сценарий sumrize_data.R, посмотрите на код и следуйте приведенным объяснениям.

# Install the following packages by running the following code in R. 
pkgs = c('data.table', 'ggplot2', 'nycflights13', 'reshape2') 
install.packages(pkgs)

Пакет ggplot2 отлично подходит для визуализации данных. Пакет data.table является отличным вариантом для быстрого и эффективного суммирования памяти в R. Недавний тест показывает, что это даже быстрее, чем pandas , библиотека python, используемая для подобных задач.

Скамья Марк

Посмотрите на данные, используя следующий код. Этот код также доступен в файле bda / part1 / summaryrize_data / summaryrize_data.Rproj .

library(nycflights13) 
library(ggplot2) 
library(data.table) 
library(reshape2)  

# Convert the flights data.frame to a data.table object and call it DT 
DT <- as.data.table(flights)  

# The data has 336776 rows and 16 columns 
dim(DT)  

# Take a look at the first rows 
head(DT) 

#   year    month  day   dep_time  dep_delay  arr_time  arr_delay  carrier 
# 1: 2013     1     1      517       2         830         11       UA 
# 2: 2013     1     1      533       4         850         20       UA 
# 3: 2013     1     1      542       2         923         33       AA 
# 4: 2013     1     1      544      -1        1004        -18       B6 
# 5: 2013     1     1      554      -6         812        -25       DL 
# 6: 2013     1     1      554      -4         740         12       UA  

#     tailnum  flight  origin   dest    air_time   distance    hour   minute 
# 1:  N14228   1545     EWR      IAH      227        1400       5       17 
# 2:  N24211   1714     LGA      IAH      227        1416       5       33 
# 3:  N619AA   1141     JFK      MIA      160        1089       5       42 
# 4:  N804JB    725     JFK      BQN      183        1576       5       44 
# 5:  N668DN    461     LGA      ATL      116        762        5       54 
# 6:  N39463   1696     EWR      ORD      150        719        5       54

В следующем коде приведен пример суммирования данных.