Статьи

Визуализация данных Bikeshare

Система велосипедного обмена Pronto компании Seattle недавно объявила о конкурсе данных  для визуализации данных с использованием данных за первый год поездки. Как заядлые велосипедисты и любители анализа данных, мы, конечно, взяли наживку. Ниже приводится краткое описание нашего представления данных Pronto Databrowser .

В Mazama Science мы сосредоточены на создании интерактивных веб-сайтов, которые позволяют людям тщательно исследовать интересные наборы данных. Каждый проект начинается с тщательного изучения исходных данных, чтобы выяснить, какие истории можно рассказать. Затем следует исследование стилей визуализации данных, которые помогают донести найденные нами истории. Наконец, разработан пользовательский интерфейс, который помогает людям распределять данные таким образом, чтобы они приводили к интересным историям. Помогать людям достигать своего собственного «Ага!» опыт — лучший способ мотивировать принятие решений на основе данных.

Данные Пронто

Данные Pronto Data Challenge состоят из четырех наборов данных: данные о поездке, метаданные станции, суточные данные о погоде и поминутное состояние станции (количество доков пустое / полное / сломанное).

Необработанные файлы CSV имеют следующие размеры:

8.0K 2015_station_data.csv
830M 2015_status_data.csv
 21M 2015_trip_data.csv
 28K 2015_weather_data.csv

Для любого исследования поведения человека наиболее интересным набором данных являются данные о поездке, которые содержат 142 846 записей о поездках со следующими переменными:

  • trip_id
  • начальное время
  • остановить время
  • bikeid
  • tripduration
  • from_station_name
  • to_station_name
  • from_station_id
  • to_station_id
  • UserType
  • Пол
  • год рождения

Для создания карт это должно быть объединено с метаданными станции, которые имеют:

  • мне бы
  • имя
  • Терминал
  • Lat
  • долго
  • dockcount
  • онлайн

Мы можем изменить метаданные станции, добавив отметки станций с помощью API Google Maps Elevation . Используя расстояния по прямой линии от пакета геосферы R , мы также можем добавить расстояния от станции до станции к метаданным станции и, посредством поиска, к данным поездки.

Теперь у нас есть пара богатых наборов данных для игры.

Визуализация данных

Поиграв с нашими исправленными наборами данных, мы поняли, что, несмотря на то, что использование велосипедов Pronto очень сезонное, оно не подвержено влиянию погоды. В Сиэтле действительно не бывает душных дней, поскольку температура и влажность находятся в обратной зависимости. И это может быть прохладно и влажно в любое время года. (Хотя в 2015 году были необычайно длинные периоды хорошей погоды.) Подстановка данных о поездке по полу и возрасту также не дает ничего особенно показательного.

Самые интересные истории, которые мы обнаружили, имеют отношение к различиям в схемах использования между годовыми членами и лицами, имеющими краткосрочные пропуска, с указанием времени суток и дня недели и в зависимости от станции отправления.

Вы можете исследовать данные самостоятельно с помощью различных визуализаций в нашем Pronto Databrowser . Вот два сюжета со страницы « Истории», которые сами рассказывают довольно хорошие истории:

График использования времени суток показывает, что: 1) владельцы ежегодных пропусков используют велосипеды во время утренних и вечерних поездок на работу, и 2) использование является наиболее интенсивным летом.

 annual_weeklyUsageByHourOfDay

Диаграмма высот показывает, что владельцы ежегодных пропусков предпочитают выбегать на склоны, а не на крутые склоны Сиэтла.

annual_coasting

Мы приглашаем вас найти и рассказать свои собственные истории, изучая и исследуя этот очень интересный набор данных.