Статьи

Ответы на Эпизод 1 (Охота на Мусорщика)

С возвращением, падальщики!

Если вы пропустили этот вопрос, задача этой недели — найти читаемые компьютером общедоступные ресурсы данных . Прежде чем перейти к ответам, давайте немного поговорим о технике.

Поиск общедоступных данных

По закону (в США), большая часть данных, представляемых государственными органами, должна быть общедоступной. Однако, как и следовало ожидать, это часто последнее, о чем агентство аббревиатур хочет подумать. Таким образом, даже когда данные размещаются в Интернете, они часто предоставляются только в форматах, которые трудно анализировать на веб-сайтах, которые трудно найти.

Google неплохо справляется с проникновением в этот лабиринт правительственных сайтов. Большинство из тех, кто прокомментировал исходный вопрос, смогли найти хотя бы несколько источников с помощью Google. Для меня, по крайней мере, потребовалось много поисков и попыток поиска по разным ключевым словам.

Оказавшись в нужном месте, большинство людей без проблем находили данные в форме, по крайней мере, номинально разбираемой. Это хороший знак; В эпоху Microsoft Office мне часто приходилось бороться с ИТ-отделами, чтобы получить доступ к данным в формате, подходящем для анализа в базе данных. Я рад видеть, что люди, отвечающие на мой вопрос, хорошо понимают, что такое дружеский формат.

Несколько читателей получили несколько полезных советов для поиска правительственных данных:

  • Маликит отметил, что «расширенные фильтры могут очень помочь, когда вы знаете, какую форму информации вы ищете, особенно если государственная организация, скорее всего, вовлечена. Например, с помощью [G] oogle вы можете указать в терминах поиска: site: .gov «sec filings» или site: .org «sec filings» — ограничение результатов поиска имеет большое значение для удаления неважных данных ». I не осознавал, что сайт Google : оператор может использоваться в TLD; Благодарность!
  • WindUpDoll легко нашел демографию для Висконсина через ее подругу, которая работает в городе. Я никоим образом не считаю это изменой; почти вся классная работа, которую мы выполняем на работе , безумно возможна благодаря внутренней связи. Если вы имеете дело с общедоступными данными, друзья изнутри являются ключевыми.
  • dmbfansim упомянул избыточно названный, но полезный FirstGov.gov , «Официальный веб-портал правительства США». В частности, справочный центр является бесценным ресурсом.

Наконец, замечательный центр обмена правительственными данными — FedStats.gov ; Я нашел вопросы для этой викторины, начиная с этого сайта.

Ответы

Хорошо, достаточно смутно; вот ответы. В некоторых случаях было найдено несколько источников (от читателей или от меня); Я предоставил только один ниже:

  1. Пищевая ценность продуктов питания от USDA.
  2. (Ссылки на) демография населения каждого крупного города в США , любезно предоставлено Бюро переписи населения США.
  3. Последние заявки SEC (в RSS, не менее) прямо изо рта лошади.
  4. Исторические цены на газ от Управления энергетической информации (о котором я никогда не слышал до написания этой викторины).
  5. Уровень ареста несовершеннолетних из Управления ювенальной юстиции и предупреждения правонарушений (входит в состав Министерства юстиции).

Тебе тоже было хорошо?

В следующий раз…

Во вторник мы рассмотрим инструмент, который, пожалуй, самый мощный механизм обработки текста, известный человеку: регулярные выражения. Теперь у вас есть две проблемы.

Увидимся тогда.