Математические ставки. Футбольный сезон-2018/19 в цифрах

Микаел Григорян
Европейский футбол до августа перешел в режим ожидания, если не сна. Воспользуемся футбольными каникулами для того, чтобы посчитать и проверить результативность ведущих европейских лиг, подвести итоги сезона, ушедшего от нас безвозвратно и, что характерно, по-английски.

Содержание

Математические ставки. Футбольный сезон 2018/2019 в цифрах

Математические ставки. Футбольный сезон-2018/19 в цифрах

Читайте также:

АПЛ, Ла Лига, Серия А и Лига 1 успевают сыграть 380 матчей, Бундеслига — всего 306. Игроки в командах сильно отличаются по силе и мастерству друг от друга, так же как и сами клубы, и это несомненно. Гораздо менее очевидно, различаются ли лиги клубов между собой или закон больших чисел их сглаживает.

Посмотрим, как выступили в текущем сезоне клубы большой пятерки. Для статистики используем исключительно ПО с открытым кодом, пакет статистики и язык программирования R. Сперва загружаем данные с Football Data:

> read.csv(«https://www.football-data.co.uk/mmz4281/1819/D1.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/E0.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/F1.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/I1.csv, header=TRUE»)
> read.csv(«https://www.football-data.co.uk/mmz4281/1819/SP1.csv, header=TRUE»)

Считаем количество забитых и пропущенных мячей за весь сезон, вычисляем средние значения:

> sum(FTHG) + sum(FTAG); mean(FTHG) + mean(FTAG)

FTHG — Full time home goal- голы забитые в домашних матчах.
FTHA — Full time home goal- голы забитые в выездных матчах.

Таблица 1. Статистика клубов Большой Пятерки сезона 2018/2019

 

Лиги АПЛ Бундеслига Ла Лига Лига 1 Серия А
Голы дома 596 548 552 559 564
Голы выезд 476 425 431 413 455
Голы всего 1072 973 983 972 1019
Среднее дома 1,568 1,791 1,453 1,471 1,484
Среднее выезд 1,253 1,389 1,134 1,087 1,197
Среднее общее 2,821 3,18 2,587 2,558 2,6816

Действительно, между лигами гораздо больше общего, нежели между отдельными клубами. Средняя результативность варьируется в пределах 21% в то время, как показатели результативности клубов могут отличаться в разы, а игроков — в десятки раз.

В полном соответствии со стереотипом Бундеслига оказалась самой результативной в этом сезоне, а вот итальянцы, вопреки непростому наследию катеначчо, идут в ногу с остальными старшими дивизионами.

Ну ладно, все это, конечно, занятно, но эти данные можно было взять с каждого первого футбольного портала или за пять минут набить и посчитать самому в Excel-е. Пора идти вглубь, как советовал герой Леонардо Ди Каприо в фильме «Начало». Как насчет того, чтобы дать статистически точный ответ на вопрос о том, является ли разница общего среднего значения между лигами случайной или закономерной?

Если это все еще немного туманно, сформулируем вопрос немного иначе. Представим, что имеется два закрытых короба с черными и красными шарами и два игрока соревнуются в том, кто вытащит больше красных шаров с 10 попыток. Согласитесь, очень многое зависит от того, одинаково ли содержание двух коробов или соотношения черных и красных шаров отличны. В первом случае выигрыш одно из игроков — дело случая, а во втором — закономерность.

На языке статистики наша задача заключается в том, чтобы определить значительность разницы средних значений μ1 и μ2 двух переменных, имеющих вероятностное распределение Пуассона.

Счетные случайные величины в простейших случаях имеют биномиальное распределение вероятностей, как бывает при бросании монеты или игральных костей. Когда число возможных состояний случайной величины стремится к бесконечности, биномиальное трансформируется в распределение Пуассона. Мы предполагаем, что число забитых в матче голов является случайной величиной, распределенной по Пуассону.

Не будем выискивать под микроскопом разницу между Ла Лигой и Лигой 1, возьмем крайние случаи и посмотрим, можно ли игнорировать разницу между 3.18 немецкой Бундеслиги и 2.558 французской Лиги 1. Если расчеты покажут, что μ1 и μ2 отличаются лишь незначительно, то это будет означать, что голевое преимущество Бундеслиги было всего лишь делом везения, как у игрока из примера с коробом красных и черных шаров.

Так же, как и в случае с теоремой Пифагора, которую Электроник мог доказать 20 разными способами, проверку нашей гипотезы можно сделать разными способами. Кстати, какова она? Согласно традиции, гипотеза H0 обозначает ту, что не плодит избыточных сущностей. То есть предполагает, что ничего такого не обнаружено. В нашем случае H0 будет гипотезой о том, что μ1 и μ2 равны.

Проще всего построить доверительный интервал среднего значения, воспользовавшись для этого t распределением Стьюдента.

 

 

 

 

 

 

Находим значение переменных и параметров: n,σ и t.

> n <- length(ger19$FTHG+ger19$FTAG); print(n)
> [1] 306
> σ_ger <- sd(ger19$FTHG) + sd(ger19$FTAG); print(σ_ger)
> [1] 2.7541
> print(«считаем t статистику»)
> [1] «считаем t статистику»
> alpha <- .05
> qt(1-alpha/2,n-1)
> [1] 1.96778

И подставляем их в выражение критического интервала.

> μ_ger — t*σ_ger/sqrt(n)
> [1] 2.869933
> μ_ger + t*σ_ger/sqrt(n)
> [1] 3.489544

Так и получается, что с 95% уверенностью можно утверждать, что общее среднее забитых голов в Бундеслиги не могло быть меньше 2,87. В минувшем сезоне немецкие клубы высшей лиги действительно превзошли не только Лигу 1, но также остальные лиги большой пятерки, и везение тут ни при чем.

В следующем выпуске постараемся погрузиться глубже, проверить гипотезу H0 более недвусмысленно и узнать, насколько хорошо ложатся результаты футбольных матчей на модель Пуассона.

Нашли ошибку?Сообщите о ней
Остались вопросы? Спросите у наших знатоков!
Комментарии