Исследовательский анализ данных — это концепция, разработанная Джоном Тьюки (John Tuckey, 1977), которая основана на новом взгляде на статистику. Идея Тьюки заключалась в том, что в традиционной статистике данные не изучались графически, а просто использовались для проверки гипотез. Первая попытка разработать инструмент была сделана в Стэнфорде, проект получил название prim9 . Инструмент был способен визуализировать данные в девяти измерениях, поэтому он мог обеспечить многомерную перспективу данных.
В последние дни аналитический анализ данных является обязательным и был включен в жизненный цикл аналитики больших данных. Способность находить понимание и иметь возможность эффективно обмениваться информацией в организации обеспечивается мощными возможностями EDA.
Основываясь на идеях Тьюки, Bell Labs разработала язык программирования S , чтобы предоставить интерактивный интерфейс для ведения статистики. Идея S состояла в том, чтобы предоставить обширные графические возможности с помощью простого в использовании языка. В современном мире в контексте больших данных R , основанный на языке программирования S, является самым популярным программным обеспечением для аналитики.
Следующая программа демонстрирует использование разведочного анализа данных.
Ниже приведен пример аналитического анализа данных. Этот код также доступен в файле part1 / eda / exploratory_data_analysis.R .
library(nycflights13) library(ggplot2) library(data.table) library(reshape2) # Using the code from the previous section # This computes the mean arrival and departure delays by carrier. DT <- as.data.table(flights) mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE), mean_arrival_delay = mean(arr_delay, na.rm = TRUE)), by = carrier] # In order to plot data in R usign ggplot, it is normally needed to reshape the data # We want to have the data in long format for plotting with ggplot dt = melt(mean2, id.vars = ’carrier’) # Take a look at the first rows print(head(dt)) # Take a look at the help for ?geom_point and geom_line to find similar examples # Here we take the carrier code as the x axis # the value from the dt data.table goes in the y axis # The variable column represents the color p = ggplot(dt, aes(x = carrier, y = value, color = variable, group = variable)) + geom_point() + # Plots points geom_line() + # Plots lines theme_bw() + # Uses a white background labs(list(title = 'Mean arrival and departure delay by carrier', x = 'Carrier', y = 'Mean delay')) print(p) # Save the plot to disk ggsave('mean_delay_by_carrier.png', p, width = 10.4, height = 5.07)
Код должен создать изображение, такое как следующее —