Пару дней назад в Твиттере @alung упомянул статью, которую я написал (на французском языке) об открытых данных, и объяснил, как трудно было получить доступ к данным во Франции. @alung задавался вопросом, было ли все еще так сложно получить доступ к хорошим наборам данных. Мой первый ответ состоял в том, что теперь я знаю больше людей, готовых поделиться своими данными. И в Интернете, удивительные наборы данных теперь можно найти очень легко. Например, во Франции вы можете найти подробную информацию о квалификации, домах и рабочих местах по небольшим географическим районам на http://www.recensement.insee.fr . И это здорово для исследователей.
Но следует помнить, что этих агрегированных данных может быть недостаточно для построения эконометрических моделей и для определения индивидуального поведения. Предположение, что отношения, наблюдаемые для групп, обязательно сохраняются для отдельных лиц, является распространенной ошибкой — так называемой экологической ошибкой .
В популярной статье Робинсон (1950) обсуждал « экологический вывод », подчеркивая разницу между экологическими корреляциями (по группам) и индивидуальными корреляциями (см. Также Торндайк ). Он рассматривал две агрегированные величины для каждого американского штата: процент населения, которое было иностранного происхождения, и процент, который был грамотным. Один набор данных, использованный в статье, был следующим:
> библиотека (эко) > данные (forgnlit30) > хвост (forgnlit30) YX W1 W2 ICPSR 43 0,076931986 0,03097168 0,06834300 0,077206504 66 44 0,006617641 0,11479052 0,03568792 0,002847920 67 45 0,006991899 0,11459207 0,04151310 0,002524065 68 46 0,012793782 0,18491515 0,05690731 0,002785916 71 47 0,007322475 0,13196654 0,03589512 0,002978594 72 48 0,007917342 0,18816461 0,02949187 0,002916866 73
Корреляция между иностранным рождением и грамотностью была
> cor (forgnlit30 $ X, 1-forgnlit30 $ Y) [1] 0,2069447
Это предполагает положительную корреляцию, поэтому одним из быстрых объяснений может быть то, что в 1930-х годах американцы были неграмотными, но у грамотных иммигрантов появилась идея приехать в США. Но здесь, как и в парадоксе Симпсона , знак должен быть отрицательным, как это было получено в отдельных исследованиях. В исследовании данных на уровне штатов корреляция была положительной прежде всего потому, что люди, родившиеся за границей, как правило, живут в штатах, где коренные жители относительно грамотны.
Таким образом, проблема заключается в том, как люди были сгруппированы. Рассмотрим следующий набор отдельных наблюдений:
> n = 1000 > г = -. 5 > Z = rmnorm (n, c (0,0), матрица (c (1, r, r, 1), 2,2)) > X = Z [, 1] > E = Z [, 2] > Y = 3 + 2 * X + E > cor (X, Y) [1] 0,8636764
Рассмотрим теперь некоторую перегруппировку, например
> I = cut (Z [, 2], qnorm (seq (0,1, by = .05))) > Yg = tapply (Y, я, имею в виду) > Xg = tapply (X, я, имею в виду)
Тогда корреляция несколько иная:
> кор (Xg, Yg) [1] 0,1476422
Здесь мы имеем сильную положительную индивидуальную корреляцию и небольшую положительную корреляцию на сгруппированных данных, но почти все возможно.
Модели со случайными коэффициентами использовались для экологических выводов. Но это длинная история, и я, вероятно, вернусь с более подробным сообщением на эту тему, так как я все еще работаю над этим с @coulmont (после некоторых комментариев @frbonnet к его сообщению о недавних французских выборах на http: / /coulmont.com/blog/ ).