По-настоящему большими городские данные становятся, когда их начинают собирать не люди, а машины.
Жилищно-коммунальный Шерлок Холмс: как анализ данных изменяет города
Тысячи датчиков помогут превратить управление городом в подобие игры Sim City, которая наглядно показывает, где именно не хватает полиции, куда не дотягивается водопровод и как избавиться от пробок. Это неизбежное будущее.
Продолжение статьи «Жилищно-коммунальный Шерлок Холмс«. Первую часть статьи об анализе городских данных можно найти здесь.
Вспомним записи, которые делают операторы мобильной связи: это богатейший источник информации. Всякий раз, когда обладатель мобильного телефона совершает звонок или отправляет СМС-сообщение, он подключается к находящимся в окрестностях сотовым вышкам. В результате оператор получает представление о том, где именно находятся его абоненты.
Эпидемиологи доказали, что при помощи информации, которую накапливают сотовые операторы, можно вычислять пути распространения инфекционных заболеваний. Специалисты из IBM нашли для неё ещё одно применение: оптимизация движения городского транспорта.
Несколько месяцев назад телекоммуникационный гигант Orange предоставил исследователям данные о двух с половиной миллиардах телефонных звонков, совершённых миллионами абонентов из западноафриканской страны Кот-д’Ивуар в течение пяти месяцев — с декабря 2011 года до апреля 2012-го. Разумеется, все зацепки, дающие возможность связать эти звонки с реальными людьми, были предварительно удалены.
В IBM попытались извлечь из этого набора данных сведения об особенностях движения общественного транспорта в Абиджане — главном городе Кот-д’Ивуара. На два миллиона жителей столицы приходится 539 автобусов, примерно пять тысяч маршруток и одиннадцать тысяч легковых такси, которые, как правило, подбирают более одного пассажира. Чтобы улучшить транспортную ситуацию, более богатые страны проводят специальные исследования и устраивают социологические опросы. Для африканской страны это непозволительная роскошь, поэтому бесплатная помощь IBM не стала лишней.
Абиджан (фото: andivju — flickr.com).Для начала специалисты IBM отфильтровали набор данных, исключив из него записи, не имеющие отношения к Абиджану или передвижениям на транспорте. Телефонные звонки, совершаемые во время поездки, легко отличить по быстрым переключениям с соты на соту. Когда движущийся телефон покидает зону действия одной сотовой вышки, он находит другую. По цепочке переключений между сотами можно восстановить путь абонента.
Когда все неподходящие записи оказались отсеяны, в наборе данных Orange осталось около 500 тысяч строк. Это, конечно, меньше, чем 2,5 миллиарда, но более чем достаточно для того, чтобы построить достоверную статистическую модель общественного транспорта столицы Кот-д’Ивуара.
В IBM быстро обнаружили в организации абиджанского городского движения слабые места. Данные свидетельствовали, что даже небольшие коррективы способны повлечь заметное улучшение ситуации. Проанализировав несколько десятков потенциальных возможностей, специалисты составили рекомендации для властей города.
Они подсчитали, что добавление двух новых автобусных маршрутов и удлинение одного из существующих даст наибольший эффект и приведёт к тому, что пассажиры будут тратить на поездки и ожидание на 10% меньше времени.
Карта Oyster на входе в лондонскую подземку.В крупных городах, перешедших на цифровые проездные, подобную модель можно построить на основании записей, которые делают турникеты на станциях метро или в дверях автобусов. Особенно точную информацию дают многоразовые проездные, такие как московская «Тройка» или её иностранные предшественники — лондонская карта Oyster и токийская Suica.
Это уже не приблизительные выкладки, которыми пришлось довольствоваться специалистам IBM в Абиджане. Турникеты учитывают каждого пассажира. Вдобавок в Лондоне турникеты, снимающие деньги с Oyster, стоят не только на входе, но и на выходе со станций. За счёт этого картина перемещения людей по городу оказывается ещё более полной.
Оценить открывающиеся возможности позволяет работа Центра передового пространственного анализа при Университетском колледже Лондона. Группа исследователей из Центра, возглавляемая профессором Майклом Бэтти, занимается изучением лондонских транспортных потоков. Им удалось договориться с властями города о получении анонимизированных записей Oyster.
Размеры наборов данных, которые раздобыли исследователи, делали это не таким уж простым занятием. Даже если брать во внимание лишь те турникеты, которые стоят в подземке, получаются колоссальные цифры: 14 миллионов записей каждый будний день и по 6 миллионов в субботу и воскресенье. Учитывая, что в архиве хранилась информация за шесть месяцев, это очень много.
Задача усложнялась тем, что качество данных оставляло желать лучшего. Во-первых, из-за различных неполадок и сбоев записи о входах и выходах из метро не всегда сходились. Это пришлось учитывать при анализе. Во-вторых, различные наборы данных приходилось вручную приводить к «общему знаменателю», исправляя поля, которые сообщают об одном и том же разными способами.
На визуализации прослеживается узнаваемый пульс большого города: утренний час пик, когда миллионы лондонцев едут на работу, обеденные перерывы, завершение рабочего дня и даже лёгкий всплеск активности под вечер, когда жители направляются в кинотеатры, рестораны и клубы. У выходных свои особенности: по вспышкам на карте можно заметить, где именно находятся стадионы, устраивающие футбольные матчи каждую субботу.
Для того чтобы подсчитать загрузку метро и определить часы пик, «большие данные», конечно, не нужны. И то и другое давно известно, но такие знания — это те самые бедные обобщённые итоги, о которых говорилось в предыдущей статье. Полный набор данных представляет собой куда более глубокий источник информации. Он позволяет просчитать далеко не только количество людей, которые входят в метро или находятся на определённых станциях.
С его помощью исследователи из Университетского колледжа Лондона вычислили маршрут каждого пассажира, который пользовался лондонский подземкой в течение шести месяцев, а затем построили модель, предсказывающую величину и направление движения потоков людей по городу в разное время суток и разные дни недели.
«Мы воспользовались методами статистической физики, — объясняет Бэтти, — чтобы обнаружить и изучить закономерности, прослеживающиеся в том, как мы передвигаемся, а затем связать эти передвижения с полицентрической природой, свойственной крупным городам мира, таким как Лондон». Оказалось, что Лондон обладает десятью «эпицентрами», которые замысловато связаны между собой.
Полученная модель куда полезнее простого понимания того, какие станции перегружены в час пик. Поскольку она просчитывает путь каждого пассажира, её можно использовать для того, чтобы узнать, как изменится загрузка станций в будущем. Куда направятся люди, если из-за происшествия закроется одна из станций? Точный ответ на этот вопрос зависит от того, когда и где это случится. Как перераспределятся потоки людей, если открыть новую станцию или линию? Модель Бэтти поможет и в этом случае.
Имеющихся данных вполне достаточно для того, чтобы заранее определять вероятные последствия и готовиться к ним, а не лихорадочно реагировать на проблемы по мере их появления.
Та же мысль — готовиться, а не реагировать — пронизывает материалы проекта IBM Smarter City («Разумный город»), в рамках которого компания разрабатывает, продвигает и адаптирует для нужд градоправителей аналитическое программное обеспечение. Услугами IBM в этой области уже пользуются государственные органы Сан-Франциско, Бостона, Гонолулу, Дублина и множества других американских и европейских городов.
IBM Smarter CityСофт IBM может быть приспособлен для решения самых различных задач — от борьбы с преступностью до планирования ремонта подземных коммуникаций. Контролируемые объекты оснащаются датчиками, показания которых дают программам повод для размышления. Ещё одним ценным источником информации служат камеры слежения. Распознавание образов позволяет следить за движением автомобилей и людей.
В канадском городе Кембридж программное обеспечение IBM изучает миллионы записей, выполняя анализ «что если», оценивает степень обветшания инфраструктуры и предсказывает вероятность прорыва канализационных и водопроводных труб на различных участках. Ожидается, что экономия составит не меньше $100 тыс. в год. В округе Майами-Дейд во Флориде трубы снабдили датчиками, с помощью которых аналитика IBM замечает протечки до того, как они превратятся в серьёзную проблему.
По мнению Майкла Бэтти, благодаря подобным технологиям мы впервые начинаем действительно понимать, что происходит с городом прямо сейчас. «Большая часть наших географических познаний касалась долгосрочных изменений, которые происходят в городах, — пишет он. — Но концепция “разумного города” — она скорее о том, что случится в течение ближайших пяти минут, пяти часов или даже пяти дней».