Существует не так много занятий, которые вызывают меньше ассоциаций с данными и статистикой, чем спорт. Никто не становится футболистом от избытка любви к цифрам. Это делает наметившийся симбиоз спорта и науки о данных особенно интересным.
Профессиональный спорт давно превратился в серьёзный бизнес. Годовые бюджеты спортивных команд измеряются сотнями миллионов долларов, а их стоимость может превышать миллиард. Доход английской Премьер-лиги в 2013 году, согласно прогнозам, составит $4,8 млрд. Даже гольф — далеко не самый народный вид спорта — приносит около $75 млрд в год, причём речь идёт лишь о Соединённых Штатах. Для сравнения: суммарная касса мирового кинематографа в 2012 году достигла $34,7 млрд, и это считалось совсем не плохим результатом.
Когда на кону такие деньги, все средства хороши. Даже настолько противоречащие традиционным представлениям о спорте, как статистика.
В 2008 году математик Стивен Строгац смоделировал историю бейсбола и доказал, что удача так же важна, как умения игрока. Модель показала, что лавры легендарного бейсболиста Джо Ди Маджо, 56 игр подряд делавшего удал на базу, могли достаться и другому. Первыми силу цифр оценили любители бейсбола. Это не случайность. В бейсболе игра распадается на множество обособленных стадий. Это отличает его от многих других командных видов спорта. Учитывать и оценивать события в ходе бейсбольного матча гораздо проще, чем следить за хаотичными передвижениями футболистов по полю.
Основоположником современной бейсбольной статистики считается канзасский болельщик по имени Билл Джеймс. Около сорока лет назад, работая ночным сторожем на консервной фабрике, он начал собирать и анализировать информацию о каждом заслуживающем внимания бейсбольном матче. Раз в год Джеймс публиковал итоги своих изысканий.
Одержимость, с которой он изучал данные, принесла плоды. Джеймс обнаружил, что многие общепринятые идеи о том, что важно, а что нет, не находят статистического подтверждения. Например, одним из важнейших качеств бейсболиста считалась его скорость и частота контакта (этот показатель зависит от того, часто ли игрок с битой входит в контакт с мячом). Расчёты Джеймса показывали, что связь между этими качествами и исходом матча не так уж сильна. Зато на результаты команды заметно влияют совсем не очевидные факторы — такие, например, как размер поля, на котором проходят тренировки. Кроме того, статистика свидетельствовала, что разница в уровне между игроками Главной и Низшей лиг куда меньше, чем принято считать.
В конце девяностых наблюдения Джеймса заинтересовали руководство команды «Окленд Атлетикс». Её дела шли хуже некуда, и тот факт, что соперники были многократно богаче, практически лишал её шансов на успех. Лучшие игроки достаются тем, кто готов платить больше. У «Окленд Атлетикс» такой возможности не было.
Команда сделала ставку на статистику. Её менеджер заметил корреляцию между положительным исходом матча и некоторыми характеристиками спортсменов, которые редко интересуют тренеров и болельщиков. Вычисления показывали, что бэттеры, которые чаще занимают базу, и спортсмены с высоким процентом отбивания заметно повышают шансы команды на победу, но не особенно высоко ценятся. Это значит, что они по карману даже «Окленд Атлетикс».
В 2002 году команда, укомплектованная и обученная «по цифрам», выиграла двадцать матчей подряд. При этом её бюджет был едва ли не самым низким во всей Главной лиге и в два–три раза уступал лидерам. Спустя год журналист Майкл Льюис описал историю успеха «Окленд Атлетикс» в книге «Moneyball. Как математика изменила самую популярную спортивную лигу в мире», которая быстро стала бестселлером. Не так давно по ней сняли фильм под названием «Человек, который изменил всё». Менеджера команды сыграл Брэд Питт.
Кадр из фильма «Человек, который изменил всё».«Moneyball» стала последней каплей, которой не хватало для того, чтобы убедить консервативных менеджеров и тренеров в том, что цифры сильнее чутья. Бейсбольная статистика обрела такую популярность, что эта дисциплина получила особое наименование — «сейберметрика», образованное от сокращённого названия Общества исследования американского бейсбола. Последователи «Окленд Атлетикс» подходят к делу серьёзно: вместо кустарных методов, не менявшихся десятилетиями, команда «Нью-Йорк Янкиз» потратила солидные средства на внедрение системы предиктивной аналитики, разработанной SAP.
Существует несколько серьёзных научных журналов, целиком посвящённых анализу спортивных данных. Специалисты в этой области проводят регулярные конференции; одна из них недавно закончилась в Праге и была посвящена применению технологий машинного обучения и Data Mining в спорте.
Название типичного доклада или научной статьи об анализе спортивных данных соединяет несовместимые на первый взгляд вещи: «Использование алгоритма random forest для предсказания вероятности победы в матчах NFL [профессиональная лига американского футбола в США]», «Прогноз исхода голосования в кубке Гейсмана при помощи байесовского анализа». «Оценка в реальном времени ожидаемой выгоды от обладания мячом в баскетбольных матчах NBA при помощи модели пространственно-временных переходов и данных слежения за игроками»…
Возьмём последнюю работу — ту, в которой упоминаются пространственно-временные переходы баскетбольных мячей. Это хороший пример того, какой путь проделала спортивная статистика со времён Билла Джеймса. Модель, которую разработали в Гарварде, основана на измерениях, выполняемых автоматически с помощью анализа видео и распознавания образов.
Систему отслеживания перемещений игроков разработала компания SPORTS, специализирующаяся на предоставлении СМИ информации о спортивных матчах. С помощью шести видеокамер, установленных на стадионе, она «на лету» определяет координаты каждого игрока, судьи и мяча, а затем пересчитывает их в десятки показателей. Например, во время баскетбольных матчей она, среди прочего, вычисляет скорость передвижения каждого игрока, расстояние, которое он преодолел с мячом, дальность бросков, излюбленные места на поле, долю результативных передач и общей темп игры команды.
Схемы и диаграммы, построеннные на основе данных системы, которую разрабатывают в SPORTS, многие, вероятно, видели по телевизору: их время от времени вставляют в спортивные трансляции. Кроме телевизионщиков, эта технология представляет интерес для самих спортсменов. В США её приобретают профессиональные команды для того, чтобы изучать игру во время тренировочных занятий. Кроме того, NBA планирует оснастить этой системой все свои стадионы.
Специалисты из Гарварда анализировали 800 миллионов измерений, собранных с помощью системы SPORTS в течение 515 матчей. Они представили обладание мячом в виде движения системы в конечном пространстве состояний, где вероятность перехода между состояниями зависит от истории расположений игроков и мяча на поле. Знание вероятности перехода системы из состояния в состояние позволяет выяснить, стоит ли ждать броcка в корзину, или, к примеру, определить, как различные баскетболисты справляются с принятием решений во время игры.
Иллюстрация из презентации гарвардских специалистов, показывающая точки броска для разных игроков.Анализ спортивных данных давно не ограничивается бейсболом. Футбольные команды Английской премьер-лиги пытаются использовать статистику во время тренировок, при выработки стратегии игры и поиске новых игроков. Год назад футбольный клуб «Ливерпуль» нанял для анализа данных доктора биофизики.
Для оценки перспектив начинающих футболистов Премьер-лига сотрудничает с такими компаниями, как Prozone или Opta, работающими в той же сфере, что и SPORTS. Несколько аналитиков Opta тщательно отсматривают каждую игру и выделяют «события» — каждый гол, каждый пас, каждый отобранный мяч и так далее. В течение матча накапливается несколько тысяч «событий». Затем собранные данные можно сличить с исторической статистикой, которой обладают те же компании.
Тем временем тренеры по американскому футболу неохотно, но всё же начинают использовать численные оценки работы игроков. Для измерения эффективности квотербеков выработана замысловатая формула, учитывающая массу факторов: частота перехватов, общее количество передач, количество удачных передач, количество передач, закончившихся тачдауном, и так далее. Кроме того, команды применяют аналитику, чтобы отыскивать хороших, но не очень дорогих спортсменов.
Инженеры McLaren Group следят за телеметрией во время гонок (фото: McLaren Group).В технических видах спорта сбор и анализ данных — ещё более естественное занятие. Гоночные автомобили McLaren Group напичканы датчиками, непрерывно сообщающими инженерам, что происходит во время заезда. Телеметрию на ходу прогоняют через предиктивные модели, учитывающие архивные данные, и используют результаты для быстрого принятия решений.
Причина успеха науки о данных в спорте, в сущности, та же, что и в любом другом бизнесе. Далеко не всё можно заметить невооружённым взглядом. Далеко не всегда опыт и здравый смысл правы. Закономерности, которые можно различить только при помощи анализа данных, позволяют «срезать» углы и хоть немного, но увеличить эффективность. В спорте это «немного» может означать разницу между победой и поражением. Такую разницу трудно игнорировать.