Учебники

Big Data Analytics — Сбор данных

Сбор данных играет важнейшую роль в цикле больших данных. Интернет предоставляет практически неограниченные источники данных по различным темам. Важность этой области зависит от типа бизнеса, но традиционные отрасли могут получать разнообразные источники внешних данных и объединять их со своими транзакционными данными.

Например, предположим, что мы хотели бы создать систему, которая рекомендует рестораны. Первым шагом будет сбор данных, в данном случае обзоров ресторанов с разных сайтов и сохранение их в базе данных. Поскольку мы заинтересованы в необработанном тексте и будем использовать его для аналитики, неважно, где будут храниться данные для разработки модели. Это может показаться противоречивым с основными технологиями больших данных, но для реализации приложения с большими данными нам просто нужно заставить его работать в режиме реального времени.

Twitter Mini Project

Как только проблема определена, следующим этапом является сбор данных. Следующая идея минипроекта состоит в том, чтобы работать над сбором данных из сети и структурированием их для использования в модели машинного обучения. Мы будем собирать некоторые твиты из API остальных Twitter, используя язык программирования R.

Прежде всего создайте учетную запись Twitter, а затем следуйте инструкциям в виньетке пакета twitteR , чтобы создать учетную запись разработчика Twitter. Это краткое изложение этих инструкций —

  • Перейдите на https://twitter.com/apps/new и войдите в систему.

  • После заполнения основной информации перейдите на вкладку «Настройки» и выберите «Чтение, запись и доступ к прямым сообщениям».

  • Убедитесь, что вы нажали на кнопку «Сохранить» после этого

  • На вкладке «Сведения» запишите ключ и секрет клиента.

  • В вашей сессии R вы будете использовать ключ API и секретные значения API

  • Наконец запустите следующий скрипт. Это установит пакет twitteR из его репозитория на github.

Перейдите на https://twitter.com/apps/new и войдите в систему.

После заполнения основной информации перейдите на вкладку «Настройки» и выберите «Чтение, запись и доступ к прямым сообщениям».

Убедитесь, что вы нажали на кнопку «Сохранить» после этого

На вкладке «Сведения» запишите ключ и секрет клиента.

В вашей сессии R вы будете использовать ключ API и секретные значения API

Наконец запустите следующий скрипт. Это установит пакет twitteR из его репозитория на github.

install.packages(c("devtools", "rjson", "bit64", "httr"))  

# Make sure to restart your R session at this point 
library(devtools) 
install_github("geoffjentry/twitteR") 

Мы заинтересованы в том, чтобы получить данные, в которые включена строка «big mac», и выяснить, какие темы выделяются по этому поводу. Для этого первым шагом является сбор данных из твиттера. Ниже приведен наш R скрипт для сбора необходимых данных из твиттера. Этот код также доступен в файле bda / part1 / collect_data / collect_data_twitter.R.