Сбор данных играет важнейшую роль в цикле больших данных. Интернет предоставляет практически неограниченные источники данных по различным темам. Важность этой области зависит от типа бизнеса, но традиционные отрасли могут получать разнообразные источники внешних данных и объединять их со своими транзакционными данными.
Например, предположим, что мы хотели бы создать систему, которая рекомендует рестораны. Первым шагом будет сбор данных, в данном случае обзоров ресторанов с разных сайтов и сохранение их в базе данных. Поскольку мы заинтересованы в необработанном тексте и будем использовать его для аналитики, неважно, где будут храниться данные для разработки модели. Это может показаться противоречивым с основными технологиями больших данных, но для реализации приложения с большими данными нам просто нужно заставить его работать в режиме реального времени.
Twitter Mini Project
Как только проблема определена, следующим этапом является сбор данных. Следующая идея минипроекта состоит в том, чтобы работать над сбором данных из сети и структурированием их для использования в модели машинного обучения. Мы будем собирать некоторые твиты из API остальных Twitter, используя язык программирования R.
Прежде всего создайте учетную запись Twitter, а затем следуйте инструкциям в виньетке пакета twitteR , чтобы создать учетную запись разработчика Twitter. Это краткое изложение этих инструкций —
-
Перейдите на https://twitter.com/apps/new и войдите в систему.
-
После заполнения основной информации перейдите на вкладку «Настройки» и выберите «Чтение, запись и доступ к прямым сообщениям».
-
Убедитесь, что вы нажали на кнопку «Сохранить» после этого
-
На вкладке «Сведения» запишите ключ и секрет клиента.
-
В вашей сессии R вы будете использовать ключ API и секретные значения API
-
Наконец запустите следующий скрипт. Это установит пакет twitteR из его репозитория на github.
Перейдите на https://twitter.com/apps/new и войдите в систему.
После заполнения основной информации перейдите на вкладку «Настройки» и выберите «Чтение, запись и доступ к прямым сообщениям».
Убедитесь, что вы нажали на кнопку «Сохранить» после этого
На вкладке «Сведения» запишите ключ и секрет клиента.
В вашей сессии R вы будете использовать ключ API и секретные значения API
Наконец запустите следующий скрипт. Это установит пакет twitteR из его репозитория на github.
install.packages(c("devtools", "rjson", "bit64", "httr")) # Make sure to restart your R session at this point library(devtools) install_github("geoffjentry/twitteR")
Мы заинтересованы в том, чтобы получить данные, в которые включена строка «big mac», и выяснить, какие темы выделяются по этому поводу. Для этого первым шагом является сбор данных из твиттера. Ниже приведен наш R скрипт для сбора необходимых данных из твиттера. Этот код также доступен в файле bda / part1 / collect_data / collect_data_twitter.R.