Статьи

Эпизод 4: Что на самом деле «нормально»?

Извините за пропущенную неделю, товарищи по головоломкам — настоящая жизнь и все такое — я постараюсь не допустить, чтобы это повторилось.

В любом случае, давайте вернемся к вопросу этой недели. Несколько недель назад я опубликовал охоту за мусором для публичных данных ( ответы ); сегодня мы вернемся к работе с этими данными.

Конечно, найти надежный источник данных — это только первый шаг; как только вы выяснили, что использовать, вы должны выяснить, как его использовать. Поскольку я сертифицированный специалист по базам данных, первое, что я делаю, когда у меня есть полезные данные, — это начинаю думать о дизайне баз данных.

Когда мы говорим о дизайне базы данных, мы обычно говорим о формальной нормализации базы данных , а именно о первой , второй и третьей нормальных формах. Хотя я буду первым, кто признает, что зачастую формальная нормализация должна отойти на второй план от прагматических требований к дизайну или производительности, мы проигнорируем это большое предостережение на этой неделе и сделаем шаг вперед.

Вот, опять же, пять источников данных, которые мы нашли в поиске мусора:

  1. Пищевая ценность продуктов питания от USDA.
  2. (Ссылки на) демография населения каждого крупного города в США , любезно предоставлено Бюро переписи населения США.
  3. Последние заявки SEC (в RSS, не менее) прямо изо рта лошади.
  4. Исторические цены на газ от Управления энергетической информации (о котором я никогда не слышал до написания этой викторины).
  5. Уровень ареста несовершеннолетних из Управления ювенальной юстиции и предупреждения правонарушений (входит в состав Министерства юстиции).

Итак, в какой нормальной форме находится каждый из этих источников (и почему) ?

Мы обсудим ответы и немного больше о последствиях нормализации базы данных в эти выходные.

Бонус вызов!

Для дополнительной задачи выберите один из источников и определите для него полностью нормализованную (т.е. 3NF) схему. Здесь нет никакого «правильного» ответа, но если кто-то достаточно смел, чтобы опубликовать свои схемы, я буду критиковать их, когда мы просмотрим ответы.

У вас есть вопрос?

Как всегда, если у вас есть вопрос, головоломка или задача, которая, по вашему мнению, могла бы послужить хорошим вопросом для этой викторины, напишите мне на jacob -at-jacobian.org .