Статьи

Рейтинговая система Elo: ранжирование команд Лиги чемпионов с использованием Clojure

Как я упоминал в предыдущем посте в блоге, я изучал системы ранжирования, и одной из первых, с которой я столкнулся, была система рейтингов Elo, которая наиболее широко используется для ранжирования шахматистов.

Система рейтинга Elo использует следующую формулу для определения рейтинга игрока / команды после того, как они приняли участие в матче:

R ‘= R + K * (S — E)

  • R ‘- новый рейтинг
  • R старый рейтинг
  • K — максимальное значение для увеличения или уменьшения рейтинга (16 или 32 для ELO)
  • S — счет за игру
  • E — ожидаемый результат игры

Я преобразовал эту формулу в следующие функции Clojure:

01
02
03
04
05
06
07
08
09
10
11
(defn ranking-after-win
  [{ ranking :ranking opponent-ranking : opponent-ranking importance :importance}]
  (+ ranking (* importance (- 1 (expected ranking opponent-ranking) ))))
  
(defn ranking-after-loss
  [{ ranking :ranking opponent-ranking : opponent-ranking importance :importance}]
  (+ ranking (* importance (- 0 (expected ranking opponent-ranking) ))))
  
(defn expected [my-ranking opponent-ranking]
  (/ 1.0
     (+ 1 (math/expt 10 (/ (- opponent-ranking my-ranking) 400)))))

который будет назван так, чтобы выработать новый рейтинг команды с рейтингом 1200, которая превзойдет команду с рейтингом 1500:

1
2
> (ranking-after-win { :ranking 1200 : opponent-ranking 1500 :importance 32 })
1227.1686541692377

То, как это работает, заключается в том, что мы сначала выясняем вероятность того, что мы должны выиграть матч, позвонив ожидаемо :

1
2
> (expected 1200 1500)
0.15097955721132328

Это говорит нам о том, что у нас есть 15% -ный шанс выиграть матч, поэтому, если мы выиграем, наш рейтинг должен быть увеличен на большую сумму, поскольку мы не ожидаем, что выиграем. В этом случае выигрыш дает нам увеличение очков на «32 * (1-0,15)», что составляет ~ 27 баллов.

Я держал вещи простыми, всегда устанавливая значение / максимальное значение увеличения или уменьшения до 32. Мировые футбольные рейтинги использовали другой подход, в котором они варьируются в зависимости от важности матча и предела победы.

Я решил опробовать алгоритм в сезоне Лиги чемпионов 2002/2003. Мне удалось получить данные из Фонда спортивной футбольной статистики Rec, и я ранее писал о том, как я их очистил с помощью Enlive .

С большой помощью Пола Бострома я в итоге получил следующий код для выполнения сокращения по матчам при обновлении рейтинга команд после каждого матча:

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
(defn top-teams [number matches]
  (let [teams-with-rankings
    (apply array-map (mapcat (fn [x] [x {:points 1200}]) (extract-teams matches)))]
      (take number
        (sort-by (fn [x] (:points (val x)))
                 >
                 (seq (reduce process-match teams-with-rankings matches))))))
 
(defn process-match [ts match]
  (let [{:keys [home away home_score away_score]} match]
    (cond
     (> home_score away_score)
     (-> ts
         (update-in  [home :points]
                     #(ranking-after-win {:ranking % : opponent-ranking (:points (get ts away)) :importance 32}))
         (update-in  [away :points]
                     #(ranking-after-loss {:ranking % : opponent-ranking (:points (get ts home)) :importance 32})))
     (> away_score home_score)
     (-> ts
         (update-in  [home :points]
                     #(ranking-after-loss {:ranking % : opponent-ranking (:points  (get ts away)) :importance 32}))
         (update-in  [away :points]
                     #(ranking-after-win {:ranking % : opponent-ranking (:points (get ts home)) :importance 32})))
     (= home_score away_score) ts)))

Параметр match, который мы передаем в топ-команды, выглядит следующим образом :

1
2
> (take 5 all-matches)
({:home "Tampere", :away "Pyunik Erewan", :home_score 0, :away_score 4} {:home "Pyunik Erewan", :away "Tampere", :home_score 2, :away_score 0} {:home "Skonto Riga", :away "Barry Town", :home_score 5, :away_score 0} {:home "Barry Town", :away "Skonto Riga", :home_score 0, :away_score 1} {:home "Portadown", :away "Belshina Bobruisk", :home_score 0, :away_score 0})

И вызывая к нему команды extract, мы получаем набор всех задействованных команд:

1
2
> (extract-teams (take 5 all-matches))
#{"Portadown" "Tampere" "Pyunik Erewan" "Barry Town" "Skonto Riga"}

Затем мы сопоставляем его с mapcat, чтобы получить вектор, содержащий пары точек team / default:

1
2
> (mapcat (fn [x] [x {:points 1200}]) (extract-teams (take 5 all-matches)))
("Portadown" {:points 1200} "Tampere" {:points 1200} "Pyunik Erewan" {:points 1200} "Barry Town" {:points 1200} "Skonto Riga" {:points 1200})

перед вызовом array-map сделать хеш результата:

1
2
> (apply array-map (mapcat (fn [x] [x {:points 1200}]) (extract-teams (take 5 all-matches))))
{"Portadown" {:points 1200}, "Tampere" {:points 1200}, "Pyunik Erewan" {:points 1200}, "Barry Town" {:points 1200}, "Skonto Riga" {:points 1200}}

Затем мы применяем сокращение ко всем совпадениям и вызываем функцию process-match на каждой итерации, чтобы соответствующим образом обновлять рейтинги команд. Последний шаг — отсортировать команды по рейтингу, чтобы мы могли составить список лучших команд:

01
02
03
04
05
06
07
08
09
10
11
> (top-teams 10 all-matches)
(["CF Barcelona" {:points 1343.900393287903}]
 ["Manchester United" {:points 1292.4731214788262}]
 ["FC Valencia" {:points 1277.1820905112208}]
 ["Internazionale Milaan" {:points 1269.8028023141364}]
 ["AC Milan" {:points 1257.4564374787687}]
 ["Juventus Turijn" {:points 1254.2498432522466}]
 ["Real Madrid" {:points 1248.0758162475993}]
 ["Deportivo La Coruna" {:points 1235.7792317210403}]
 ["Borussia Dortmund" {:points 1231.1671952364256}]
 ["Sparta Praag" {:points 1229.3249513256828}])

Интересно, что победители (Ювентус) находятся только на 5-м месте, а первые 2 места занимают команды, проигравшие в четвертьфинале. Я написал следующие функции, чтобы выяснить, что происходит:

1
2
3
4
5
6
7
8
9
(defn show-matches [team matches]
  (->> matches
       (filter #(or (= team (:home %)) (= team (:away %))))
       (map #(show-opposition team %))))
 
(defn show-opposition [team match]
  (if (= team (:home match))
    {:opposition (:away match) :score (str (:home_score match) "-" (:away_score match))}
    {:opposition (:home match) :score (str (:away_score match) "-" (:home_score match))}))

Если мы назовем это с Ювентусом, мы увидим, как они выступили в своих матчах:

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
ranking-algorithms.parse> (show-matches "Juventus Turijn" all-matches)
({:opposition "Feyenoord", :score "1-1"}
 {:opposition "Dynamo Kiev", :score "5-0"}
 {:opposition "Newcastle United", :score "2-0"}
 {:opposition "Newcastle United", :score "0-1"}
 {:opposition "Feyenoord", :score "2-0"}
 {:opposition "Dynamo Kiev", :score "2-1"}
 {:opposition "Deportivo La Coruna", :score "2-2"}
 {:opposition "FC Basel", :score "4-0"}
 {:opposition "Manchester United", :score "1-2"}
 {:opposition "Manchester United", :score "0-3"}
 {:opposition "Deportivo La Coruna", :score "3-2"}
 {:opposition "FC Basel", :score "1-2"}
 {:opposition "CF Barcelona", :score "1-1"}
 {:opposition "CF Barcelona", :score "2-1"}
 {:opposition "Real Madrid", :score "1-2"}
 {:opposition "Real Madrid", :score "3-1"})

Хотя я пропускаю финал — мне нужно исправить парсер, чтобы подобрать этот матч, и в любом случае это была ничья — они фактически выиграли только 8 из своих матчей. Барселона, с другой стороны, выиграла 13 матчей, хотя 2 из них были квалификационными.

Следующий шаг — принять во внимание важность матча, а не применять значение 32 по всем направлениям и добавить некоторую ценность к победе в ничьей / матче, даже если это на пенальти или голах.

Код на github, если вы хотите поиграть с ним или есть предложения для чего-то еще, я могу попробовать.