После моего последнего поста о поиске расстояния дата / время от выходных, Хэдли Уикхем предложил мне улучшить функцию, векторизовав ее…
@markhneedham векторизация с pmin (pmax (dateToLookup — до, 0), pmax (after — dateToLookup, 0)) / dhours (1)
— Хэдли Уикхем (@hadleywickham) 14 декабря 2014 г.
… Поэтому я решил попробовать векторизовать некоторые другие функции, которые я написал недавно, и показать две версии.
Я нашел следующие статьи полезными для объяснения векторизации и почему вы можете захотеть сделать это:
- Векторизация в R: почему?
- Главы 3 и 4 Р Инферно
- Резкое увеличение скорости R с помощью векторизации и исправления ошибок
Давайте начнем.
Расстояние от выходных
Мы хотим выяснить, сколько часов до выходных, т.е. ближайшей субботы / воскресенья, является конкретная дата / время Мы будем использовать следующие библиотеки и набор даты / времени:
library(dplyr)
library(lubridate)
library(geosphere)
options("scipen"=100, "digits"=4)
times = ymd_hms("2002-01-01 17:00:00") + c(0:99) * hours(1)
data = data.frame(time = times)
> data %>% head()
time
1 2002-01-01 17:00:00
2 2002-01-01 18:00:00
3 2002-01-01 19:00:00
4 2002-01-01 20:00:00
5 2002-01-01 21:00:00
6 2002-01-01 22:00:00
Давайте сначала посмотрим на не векторизованную версию:
distanceFromWeekend = function(dateToLookup) {
before = floor_date(dateToLookup, "week") + hours(23) + minutes(59) + seconds(59)
after = ceiling_date(dateToLookup, "week") - days(1)
timeToBefore = dateToLookup - before
timeToAfter = after - dateToLookup
if(timeToBefore < 0 || timeToAfter < 0) {
0
} else {
if(timeToBefore < timeToAfter) {
timeToBefore / dhours(1)
} else {
timeToAfter / dhours(1)
}
}
}
Теперь давайте запустим его для нашего фрейма данных:
> system.time(
data %>% mutate(ind = row_number()) %>% group_by(ind) %>% mutate(dist = distanceFromWeekend(time))
)
user system elapsed
1.837 0.020 1.884
А теперь для векторизованной версии Хэдли:
distanceFromWeekendVectorised = function(dateToLookup) {
before = floor_date(dateToLookup, "week") + hours(23) + minutes(59) + seconds(59)
after = ceiling_date(dateToLookup, "week") - days(1)
pmin(pmax(dateToLookup - before, 0), pmax(after - dateToLookup, 0)) / dhours(1)
}
> system.time(data %>% mutate(dist = distanceFromWeekendVectorised(time)))
user system elapsed
0.020 0.001 0.023
Извлечение даты начала
Мой следующий пример — очистка данных Google Trends и извлечение даты начала из ячейки в файле CSV.
Мы будем использовать этот фрейм данных:
googleTrends = read.csv("/Users/markneedham/Downloads/report.csv", row.names=NULL)
names(googleTrends) = c("week", "score")
> googleTrends %>% head(10)
week score
1 Worldwide; 2004 - present
2 Interest over time
3 Week neo4j
4 2004-01-04 - 2004-01-10 0
5 2004-01-11 - 2004-01-17 0
6 2004-01-18 - 2004-01-24 0
7 2004-01-25 - 2004-01-31 0
8 2004-02-01 - 2004-02-07 0
9 2004-02-08 - 2004-02-14 0
10 2004-02-15 - 2004-02-21 0
Не векторизованная версия выглядела так:
> system.time(
googleTrends %>%
mutate(ind = row_number()) %>%
group_by(ind) %>%
mutate(dates = strsplit(week, " - "),
start = dates[[1]][1] %>% strptime("%Y-%m-%d") %>% as.character())
)
user system elapsed
0.215 0.000 0.214
В этом случае на самом деле невозможно векторизовать код с помощью strsplit, поэтому нам нужно использовать что-то еще. Антониос показал мне, как это сделать, используя substr :
> system.time(googleTrends %>% mutate(start = substr(week, 1, 10) %>% ymd())) user system elapsed 0.018 0.000 0.017
Расчет расстояния хаверсин
Я хотел найти большое круговое расстояние от коллекции мест до центра Лондона. Я начал с этого фрейма данных:
centre = c(-0.129581, 51.516578)
venues = read.csv("/tmp/venues.csv")
> venues %>% head()
venue lat lon
1 Skills Matter 51.52 -0.09911
2 Skinkers 51.50 -0.08387
3 Theodore Bullfrog 51.51 -0.12375
4 The Skills Matter eXchange 51.52 -0.09923
5 The Guardian 51.53 -0.12234
6 White Bear Yard 51.52 -0.10980
Моя не векторизованная версия выглядела так:
> system.time(venues %>%
mutate(distanceFromCentre = by(venues, 1:nrow(venues), function(row) { distHaversine(c(row$lon, row$lat), centre) }))
)
user system elapsed
0.034 0.000 0.033
Это довольно быстро, но мы можем добиться большего — функция distHaversine позволяет нам вычислять несколько расстояний, если первый аргумент — это матрица значений lon / lat, а не вектор:
> system.time(
venues %>% mutate(distanceFromCentre = distHaversine(cbind(venues$lon, venues$lat), centre))
)
user system elapsed
0.001 0.000 0.001
Один я не могу понять …
И, наконец, у меня есть функция, которую я не могу понять, как векторизовать, но, может быть, кто-то с большим умением R, чем я, может?
У меня есть фрейм данных, содержащий совокупное количество членов различных групп NoSQL London :
cumulativeMeetupMembers = read.csv("/tmp/cumulativeMeetupMembers.csv")
> cumulativeMeetupMembers %>% sample_n(10)
g.name dayMonthYear n
4734 Hadoop Users Group UK 2013-10-26 1144
4668 Hadoop Users Group UK 2013-08-03 979
4936 Hadoop Users Group UK 2014-07-31 1644
5150 Hive London 2012-10-15 109
8020 Neo4j - London User Group 2014-03-15 826
7666 Neo4j - London User Group 2012-08-06 78
1030 Big Data London 2013-03-01 1416
6500 London MongoDB User Group 2013-09-21 952
8290 Oracle Big Data 4 the Enterprise 2012-06-04 61
2584 Data Science London 2012-03-20 285
И я хочу узнать количество участников группы на конкретную дату. например, учитывая следующие данные …
> cumulativeMeetupMembers %>% head(10)
g.name dayMonthYear n
1 Big Data / Data Science / Data Analytics Jobs 2013-01-29 1
2 Big Data / Data Science / Data Analytics Jobs 2013-02-06 15
3 Big Data / Data Science / Data Analytics Jobs 2013-02-07 28
4 Big Data / Data Science / Data Analytics Jobs 2013-02-10 31
5 Big Data / Data Science / Data Analytics Jobs 2013-02-18 33
6 Big Data / Data Science / Data Analytics Jobs 2013-03-27 38
7 Big Data / Data Science / Data Analytics Jobs 2013-04-16 41
8 Big Data / Data Science / Data Analytics Jobs 2013-07-17 53
9 Big Data / Data Science / Data Analytics Jobs 2013-08-28 58
10 Big Data / Data Science / Data Analytics Jobs 2013-11-11 63
… Количество участников группы «Большие данные / Data Science / Data Analytics» на 10 ноября 2013 года должно быть 58.
Я создал этот фрейм данных групп и случайных дат:
dates = ymd("2014-09-01") + c(0:9) * weeks(1)
groups = cumulativeMeetupMembers %>% distinct(g.name) %>% select(g.name)
groupsOnDate = merge(dates, groups)
names(groupsOnDate) = c('date', 'name')
> groupsOnDate %>% sample_n(10)
date name
156 2014-10-06 GridGain London
153 2014-09-15 GridGain London
70 2014-11-03 Couchbase London
185 2014-09-29 Hadoop Users Group UK
105 2014-09-29 Data Science London
137 2014-10-13 Equal Experts Technical Meetup Group
360 2014-11-03 Scale Warriors of London
82 2014-09-08 Data Science & Business Analytics London Meetup
233 2014-09-15 London ElasticSearch User Group
84 2014-09-22 Data Science & Business Analytics London Meetup
Не векторизованная версия выглядит так:
memberCount = function(meetupMembers) {
function(groupName, date) {
(meetupMembers %>%
filter(g.name == groupName & dayMonthYear < date) %>% do(tail(., 1)))$n
}
}
findMemberCount = memberCount(cumulativeMeetupMembers)
> system.time(groupsOnDate %>% mutate(groupMembers = by(groupsOnDate, 1:nrow(groupsOnDate), function(row) {
findMemberCount(row$name, as.character(row$date))
}) %>%
cbind() %>%
as.vector() ))
user system elapsed
2.259 0.005 2.269
Вывод выглядит так:
date name groupMembers 116 2014-10-06 DeNormalised London 157 322 2014-09-08 OpenCredo Tech Workshops 7 71 2014-09-01 Data Enthusiasts London 233 2014-09-15 London ElasticSearch User Group 614 171 2014-09-01 HPC & GPU Supercomputing Group of London 80 109 2014-10-27 Data Science London 3632 20 2014-11-03 Big Data Developers in London 708 42 2014-09-08 Big Data Week London Meetup 96 127 2014-10-13 Enterprise Search London Meetup 575 409 2014-10-27 Women in Data 548
Я испробовал много разных подходов, но не смог придумать версию, которая позволила бы мне передать все строки в memberCount и вычислить количество для каждой строки за один раз.
Любые идеи / советы / советы приветствуются!