Вся база данных событий GDELT за четверть миллиарда записей теперь доступна в качестве общедоступного набора данных в Google BigQuery.
Это предложение в верхней части поста , и это действительно большое дело.
GDELT
Глобальная база данных событий, языка и тона является одним из крупнейших наборов данных на планете. Это количественная база данных человеческого общества, опирающаяся на тысячи источников новостей со всего мира, начиная с 1979 года.
Его придумал Калев Летару , который также является автором поста Google, упомянутого выше. GDELT охватывает все страны мира, охватывающие треть века, и состоит из ежедневных обновлений в течение этого периода времени. Сотни миллионов записей, каждая с 59 полями, подробно рассказывающими об актерах и произошедших событиях. Каждая запись имеет географическую привязку, так что вы можете разместить ее по всему миру, и все актеры будут помечены с соответствующей этнической и религиозной принадлежностью. Все это — бесплатно и доступно для вашего прочтения, и вам даже не нужно иметь вычислительную мощность, чтобы справиться с этим.
Google BigQuery, «мощный облачный сервис аналитических баз данных Google», по сути, является самым быстрым в мире движком SQL, и он полностью бесплатен для любого использования GDELT. Благодаря огромной мощи BigQuery, вы можете получать результаты по запросам GDELT практически в реальном времени, и любая перестановка полей и значений, о которой вы только можете подумать, не будет достаточной, чтобы затормозить это до полной остановки — если только вы действительно не напутаете. и идти против зерна. Если вы имеете дело с базами данных в любом случае, и следующий абзац не вызывает озноб по спине, вы, вероятно, мертвы:
Для нас самой революционной частью использования GDELT в BigQuery является то, что он открывает дверь не только для быстрого сложного запроса и извлечения данных, но и позволяет впервые в реальном времени выполнять анализы в базе данных. Представьте себе вычисление самого значительного конфликтного взаимодействия в мире по месяцам за последние 35 лет или выполнение перекрестной корреляции между различными классами отношений между множеством стран. Такие запросы могут выполняться полностью внутри BigQuery и возвращаться всего за несколько секунд. Это позволяет вам попробовать гипотезы «что если» о тенденциях глобального масштаба в почти реальном времени.
В настоящее время GDELT в BigQuery обновляется ежедневно, но есть планы перейти на график обновления почти в реальном времени — обновлять набор данных каждые 15 минут.
Прежде чем вы будете слишком взволнованы — есть предел, но это не квота, которую вы легко достигнете. Чтобы узнать больше о бесплатных квотах, см. Здесь и имейте в виду, что вы всегда можете заплатить больше, если действительно разрабатываете коммерчески жизнеспособное приложение на основе этих данных.
Выполнение примера запроса
Вы можете начать играть с GDELT в BigQuery, посетив этот URL-адрес — возможно, вам придется создать новый проект, если у вас его еще нет. После получения доступа вы должны увидеть экран, похожий на следующий:
Чтобы запустить пример запроса из публикации о выпуске, нажмите красную кнопку «Создать запрос», вставьте SQL в недавно открытую текстовую область и нажмите «Выполнить запрос». Мой занял 20 секунд, ваш может занять от 5 до 30, но вы должны получить результат, не похожий на этот:
Используя это с PHP
Чтобы увидеть, как вы можете использовать BigQuery и PHP, следите за новостями в SitePoint для статей, нацеленных на эту конкретную комбинацию — они появятся в июне. На данный момент вы можете ознакомиться с этой превосходной публикацией Lever.rs, которая проходит через нее очень доступным способом.
Короче говоря, вам нужно использовать библиотеку PHP, которую предоставляет Google, и установить ее с помощью Composer или другими способами. После этого вам нужно включить библиотеку в свой проект, как обычно, через файл автозагрузки Composer, и вы можете начать использовать API.
Для полного ознакомления с тем, как начать работу, получить ключи API и углубиться в использование API Google для доступа к BigQuery и аналогичным службам, пожалуйста, обратитесь к этому руководству . Вы также можете подписаться по RSS на тег Google App Engine, и вы будете немедленно получать уведомления о новых сообщениях в этой категории.
Вывод
Проект GDELT долгое время был замечательным, но появление его релиза BigQuery ознаменовало новую веху — общедоступность, ранее недоступную общественности. Теперь у каждого есть возможность обратиться к мировой истории, и мы не можем дождаться, чтобы увидеть, что вы строите — судя по автору Калеву, команда GDELT тоже не может. Они приглашают вас поделиться своими запросами и экспериментами с ними, и если они достаточно впечатляющие, они просто могут поделиться ими со всем миром на официальном блоге . Если вы придумали что-нибудь ошеломляющее, дайте нам знать — мы заинтересованы в том, чтобы публиковать учебные пособия и анализ по ним!