Благодаря увлечению «большими» данными аналитические инструменты приобрели популярность. Одним из таких инструментов является язык программирования R. В этой статье я покажу, как извлекать данные из текстовых файлов, файлов CSV и баз данных. Затем я покажу, как отправить эти данные на веб-сервер.
Вы можете быть удивлены, нужно ли мне заново изучать новый язык? Ответ — нет! Все, что вам нужно знать, это несколько команд.
Программисты из разных областей, которые работают над веб-приложениями на разных языках программирования, могут импортировать данные в R и после обработки экспортировать их в требуемом формате.
Примечание: если вы не знакомы с R, я рекомендую статью SitePoint о том, как установить R и RStudio . Он предоставляет основные команды на R и общее введение в язык. В этом посте рассматриваются команды, которые могут выполняться на терминале R без использования IDtu RStudio. Тем не менее, обработка больших наборов данных в терминале может оказаться сложной задачей для начинающих, поэтому я бы предложил использовать RStudio для расширенного опыта. В RStudio вы можете запускать те же команды в окне консоли.
Обработка текстовых файлов
Текстовый файл, присутствующий на вашем локальном компьютере, может быть прочитан с помощью слегка измененной команды read.table
. Поскольку он предназначен для чтения таблиц, вы можете установить разделитель на пустую строку («»), чтобы читать текстовый файл построчно:
file_contents = read.table("<path_to_file>", sep = "")
Примечание. <path_to_file>
, где вы видите угловые скобки, такие как <path_to_file>
, вставьте нужный номер, идентификатор и т. Д. Без скобок.
Путь к файлу также может быть относительным путем к файлу. Если ваши строки имеют неодинаковую длину, вы также должны установить fill = TRUE
. Результатом этой команды является фрейм данных в R.
Если ваш файл слишком велик, чтобы его можно было прочитать за один раз, попробуйте прочитать его пошагово, используя параметры skip
и nrow
. Например, чтобы прочитать строки 6–10 в вашем файле, выполните следующие команды:
connection <- file("<path_to_file>") lines6_10 = read.table(connection, skip=5, nrow=5) # 6-10 lines
Обработка файлов CSV
Файл CSV (значения, разделенные запятыми) — это файл, который буквально содержит значения, разделенные запятыми. Вы можете прочитать файл CSV, используя команду read.csv
:
file_contents = read.csv("<path_to_file>")
Параметр header
указывает, содержит ли файл CSV заголовки столбцов. По умолчанию установлено значение TRUE
. (Это также может быть указано при чтении текстовых файлов.) В случае, если у вас есть неравные столбцы в разных строках, вам также нужно установить значение fill
в TRUE
.
Для больших файлов вы можете пропустить строки аналогичным образом:
connection <- file("<path_to_file>") lines6_10 = read.csv(connection, skip=5, nrow=5) # 6-10 lines
Использование баз данных MySQL
Для подключения к базе данных вам нужна отдельная библиотека RMySQL
. Его можно установить с помощью следующей команды:
install.packages('RMySQL')
После установки необходимо активировать его, выполнив следующее: