Отчетность очень важна в аналитике больших данных. Каждая организация должна регулярно предоставлять информацию для поддержки процесса принятия решений. Эта задача обычно выполняется аналитиками данных с опытом работы с SQL и ETL (извлечение, передача и загрузка).
Команда, отвечающая за эту задачу, несет ответственность за распространение информации, полученной в отделе анализа больших данных, в различных областях организации.
Следующий пример демонстрирует, что означает суммирование данных. Перейдите в папку bda / part1 / sumrize_data и внутри папки откройте файл sumrize_data.Rproj , дважды щелкнув по нему. Затем откройте сценарий sumrize_data.R, посмотрите на код и следуйте приведенным объяснениям.
# Install the following packages by running the following code in R. pkgs = c('data.table', 'ggplot2', 'nycflights13', 'reshape2') install.packages(pkgs)
Пакет ggplot2 отлично подходит для визуализации данных. Пакет data.table является отличным вариантом для быстрого и эффективного суммирования памяти в R. Недавний тест показывает, что это даже быстрее, чем pandas , библиотека python, используемая для подобных задач.
Посмотрите на данные, используя следующий код. Этот код также доступен в файле bda / part1 / summaryrize_data / summaryrize_data.Rproj .
library(nycflights13) library(ggplot2) library(data.table) library(reshape2) # Convert the flights data.frame to a data.table object and call it DT DT <- as.data.table(flights) # The data has 336776 rows and 16 columns dim(DT) # Take a look at the first rows head(DT) # year month day dep_time dep_delay arr_time arr_delay carrier # 1: 2013 1 1 517 2 830 11 UA # 2: 2013 1 1 533 4 850 20 UA # 3: 2013 1 1 542 2 923 33 AA # 4: 2013 1 1 544 -1 1004 -18 B6 # 5: 2013 1 1 554 -6 812 -25 DL # 6: 2013 1 1 554 -4 740 12 UA # tailnum flight origin dest air_time distance hour minute # 1: N14228 1545 EWR IAH 227 1400 5 17 # 2: N24211 1714 LGA IAH 227 1416 5 33 # 3: N619AA 1141 JFK MIA 160 1089 5 42 # 4: N804JB 725 JFK BQN 183 1576 5 44 # 5: N668DN 461 LGA ATL 116 762 5 54 # 6: N39463 1696 EWR ORD 150 719 5 54
В следующем коде приведен пример суммирования данных.