Статьи

Открытые данные и экологическая ошибка

Пару дней назад в Твиттере  @alung упомянул статью, которую я написал (на французском языке) об открытых данных, и объяснил, как трудно было получить доступ к данным во Франции. @alung  задавался вопросом, было ли все еще так сложно получить доступ к хорошим наборам данных. Мой первый ответ состоял в том, что теперь я знаю больше людей, готовых поделиться своими данными. И в Интернете, удивительные наборы данных теперь можно найти очень легко. Например, во Франции вы можете найти подробную информацию о квалификации, домах и рабочих местах по небольшим географическим районам на  http://www.recensement.insee.fr . И это здорово для исследователей.

Но следует помнить, что этих агрегированных данных может быть недостаточно для построения эконометрических моделей и для определения индивидуального поведения. Предположение, что отношения, наблюдаемые для групп, обязательно сохраняются для отдельных лиц, является распространенной ошибкой — так называемой экологической ошибкой

В популярной статье  Робинсон (1950) обсуждал « экологический вывод », подчеркивая разницу между экологическими корреляциями (по группам) и индивидуальными корреляциями (см. Также Торндайк ). Он рассматривал две агрегированные величины для каждого американского штата: процент населения, которое было иностранного происхождения, и процент, который был грамотным. Один набор данных, использованный в статье, был следующим:

> библиотека (эко)
> данные (forgnlit30)
> хвост (forgnlit30)
YX W1 W2 ICPSR
43 0,076931986 0,03097168 0,06834300 0,077206504 66
44 0,006617641 0,11479052 0,03568792 0,002847920 67
45 0,006991899 0,11459207 0,04151310 0,002524065 68
46 0,012793782 0,18491515 0,05690731 0,002785916 71
47 0,007322475 0,13196654 0,03589512 0,002978594 72
48 0,007917342 0,18816461 0,02949187 0,002916866 73

Корреляция между иностранным рождением и грамотностью была

> cor (forgnlit30 $ X, 1-forgnlit30 $ Y)
[1] 0,2069447

Это предполагает положительную корреляцию, поэтому одним из быстрых объяснений может быть то, что в 1930-х годах американцы были неграмотными, но у грамотных иммигрантов появилась идея приехать в США. Но здесь, как и в парадоксе Симпсона , знак должен быть отрицательным, как это было получено в отдельных исследованиях. В исследовании данных на уровне штатов корреляция была положительной прежде всего потому, что люди, родившиеся за границей, как правило, живут в штатах, где коренные жители относительно грамотны.

Таким образом, проблема заключается в том, как люди были сгруппированы. Рассмотрим следующий набор отдельных наблюдений:

> n = 1000
> г = -. 5
> Z = rmnorm (n, c (0,0), матрица (c (1, r, r, 1), 2,2))
> X = Z [, 1]
> E = Z [, 2]
> Y = 3 + 2 * X + E
> cor (X, Y)
[1] 0,8636764

Рассмотрим теперь некоторую перегруппировку, например

> I = cut (Z [, 2], qnorm (seq (0,1, by = .05)))
> Yg = tapply (Y, я, имею в виду)
> Xg = tapply (X, я, имею в виду)

Тогда корреляция несколько иная:

> кор (Xg, Yg)
[1] 0,1476422

Здесь мы имеем сильную положительную индивидуальную корреляцию и небольшую положительную корреляцию на сгруппированных данных, но почти все возможно.

Модели со случайными коэффициентами использовались для экологических выводов. Но это длинная история, и я, вероятно, вернусь с более подробным сообщением на эту тему, так как я все еще работаю над этим с  @coulmont  (после некоторых комментариев @frbonnet к его сообщению о недавних французских выборах на  http: / /coulmont.com/blog/ ).