Остановить эпидемии холеры, свирепствовавшие в середине XIX века, помогли не открытия микробиологов, а статистический анализ и визуализация. Стоит ли удивляться, что в современных академических журналах для специалистов-эпидемиологов не трудно найти подробные отчёты о применении методов Big Data для борьбы с болезнями? Любовь к данным в крови у этой науки.
«Большие данные» времён королевы Виктории
Наши представления о викторианском Лондоне изрядно приукрашены. В них редко есть место для сотен тысяч выгребных ям, которые были неотъемлемой частью пейзажа самого большого мегаполиса XIX века. В бедных районах горы отбросов могли расти годами. Нечистоты переполняли сточные канавы, а оттуда попадали в Темзу.
Жителям Лондона пришлось привыкнуть к невообразимому смраду и зловонной питьевой воде. К регулярным эпидемиям привыкнуть было труднее. Каждые несколько лет холера убивала тысячи горожан, и никто не знал, что с этим делать.
О том, что причина инфекционных болезней — это болезнетворные микроорганизмы, люди узнают позднее. В середине XIX века считалось, что заразу передают миазмы — вредные испарения, якобы выделяемые при гниении. Холера, возбудитель которой обитает в воде, в эту теорию не вписывалась. Лондонцы спокойно пили из грязной Темзы и не понимали, насколько они рискуют.
Для того чтобы обнаружить смертельную ошибку, потребовались данные и, увы, ещё одна эпидемия.
В самом конце августа 1854 года в рабочем квартале лондонского Сохо произошла очередная вспышка холеры. Врач Джон Сноу, живший по соседству, немедленно начал поиск источника болезни. При помощи священника Генри Уайтхеда, которого в Сохо знали все, Сноу обошёл каждый дом в заражённом районе. Он записывал количество жертв болезни и выяснял обстоятельства, которые могли пролить свет на происхождение инфекции.
Другим учёным приходилось делать выводы на основании наблюдений за небольшой выборкой пациентов. Сноу и Уайтхед оказались в противоположной ситуации. У них был исчерпывающий набор данных обо всех жителях Лондона, которые находились в очаге эпидемии. Такое количество информации не оставляло места для домыслов.
Сноу давно подозревал, что зараза может передаваться не только с помощью гипотетических миазмов, но и через воду, поэтому сразу нанёс на карту все колонки. Затем он отметил место гибели каждой жертвы холеры. Если болезнь погубила нескольких жителей дома, на карте вырастал столбик соответствующей величины.
Карта ясно показывала, что эпицентр вспышки — это колонка, стоящая у перекрёстка Брод-стрит и Оксфорд-стрит. Именно в её окрестностях погибших было больше всего. Немногочисленные жертвы в других местах тоже ходили за водой к заражённому источнику. Странным образом не пострадал соседний монастырь, но этому быстро нашлось рациональное объяснение: его обитателей спасло пиво, которое они употребляли вместо воды.
С таким наглядным доказательством в руках Сноу удалось добиться отключения заражённой колонки. Впрочем, важнее другое. Хотя и не сразу, но его идеи получили признание. Следующая лондонская эпидемия холеры стала последней, а расследование, которое Сноу вёл в сентябре 1854 года, положило начало современной эпидемиологии .
Reality mining в малярийной зоне
Cпустя полтора века сбор и анализ данных остаётся одним из важнейших инструментом специалистов в этой области. Изменились только масштабы. Учёные взяли на вооружение методы Big Data и просеивают колоссальные информационные массивы в поисках зацепок, которые могут стать оружием для борьбы с заразой.
Вот интересный пример подобной работы — исследование путей распространения малярии в Кении, которое провели учёные из Гарвардской школы общественного здравоохранения. В качестве исходных данных использовался гигантский архив местного оператора мобильной связи. Результаты появились в журнале Science несколько месяцев назад.
Один из авторов исследования — компьютерщик Натан Игл, начинавший свою карьеру в лаборатории медиа Массачусетского технологического института. В 2003 году он разработал систему, которая поразительно точно предсказывала планы людей, анализируя гигабайты данных, собранные их смартфонами. Игл называл эту технологию reality mining — добыча данных из реальности.
Судя по всему, главным результатом проекта стала докторская диссертация Игла. С ней он уехал в Африку: преподавал в университетах, изучал, как жители бедных стран используют мобильные телефоны, а потом применял накопленные знания в собственном бизнесе («Компьютерра» рассказывала о нём в статье «Ручная работа: человек как компонент вычислительной системы»).
Новый проект Игла и его коллег-эпидемиологов из Гарвардской школы общественного здравоохранения — это, по сути дела, приложение того самого reality mining к новой задаче. Анонимизированные данные о том, что делали миллионы мобильных абонентов пять лет назад, дали возможность просчитать пути миграции жителей Кении.
Чтобы совершить звонок или отправить текстовое сообщение, мобильный телефон подключается к ближайшей сотовой вышке. Зная расположение вышки, можно примерно представить, где находится обладатель телефона. Это, в свою очередь, позволяет проследить путь абонента от «соты» к «соте» по истории его звонков.
Пользуясь этим, исследователи построили траектории перемещений почти 15 миллионов жителей Кении между 12 тысячами сотовых вышек в период с июня 2008 года до июня 2009-го, а затем сопоставили их с данными об известных случаях заражения малярией.
Чтобы понять, зачем это понадобилось, нужно хотя бы в общих чертах знать, каким образом распространяется эта болезнь. В отличие от холеры, которой можно заразиться, выпив грязную воду, малярия нуждается в посреднике — малярийном комаре. При укусе её возбудители попадают в кровь человека. Однако верно и обратное: комар может сам подцепить малярийные плазмодии у заражённого человека и следующим укусом передать их здоровому.
Получается, что каждый человек, заражённый малярией, становится передвижным распространителем болезни. Если он отправится в другой город, то повезёт инфекцию за собой. В результате эпидемия может вспыхнуть вдали от известных малярийных мест.
Чтобы победить паразитов, нужно выяснить, откуда они в действительности берутся и как именно добрались до цели. Именно эту информацию и получили учёные из Гарварда: они определили происхождение заразы с точностью, которой невозможно добиться традиционными методами.
Тайная сеть распространителей заразы
Судя по карте, которую составили Игл и его коллеги, проще всего заразиться малярией в окрестностях озера Виктория на западе Кении и у побережья Индийского океана на востоке. Оттуда потоки мигрантов приносят заразу в столицу — город Найроби, находящийся точно между Викторией и океаном. Это, впрочем, было ясно и без исследования. Куда интереснее многочисленные детали и подробности, которые в изобилии всплыли при анализе.
Когда необходимо нащупать смысл в больших объёмах данных, нередко прибегают к поиску аномалий — отклонений от нормы, выбросов, которые трудно заметить невооружённым взглядом. Скопление отметок в районе перекрёстка Брод-стрит и Оксфорд-стрит на карте Джона Сноу в 1854 году было аномалией, которая помогла отыскать источник заразы. Аномалии в перемещениях кенийцев, замеченные учёными из Гарварда, показывают незаметные пути распространения малярии по стране.
Алгоритм поиска аномалий обнаружил десятки населённых пунктов, которые значительно отличаются от всех остальных. Вот иллюстрация из статьи в Science: справа отмечены аномальные источники людей и паразитов, а слева — аномальные потребители того и другого. Оранжевые точки — это города и сёла, жители которых совершают поездки куда чаще, чем обычный кениец.
На первый взгляд, в этих населённых пунктах нет ничего особенного, но анализ данных убедительно показывает, что их вклад в распространение малярии несоразмерно велик.
В интервью Technology Review один из авторов исследования, эпидемиолог Кэролайн Баки, приводит пример — непримечательный городок Керичо. Оказалось, что люди, мобильные телефоны которых подключались к сотовой вышке в Керичо, совершают в шестнадцать раз больше поездок, чем другие жители региона, и в три раза чаще бывают в малярийной зоне у озера Виктория.
Крохотный Керичо, который можно пройти из конца в конец за полчаса, в действительности представляет собой крупный перевалочный узел в невидимой сети распространения малярии.
Или по крайней мере был им. Работа, проведённая специалистами из Гарварда, демонстрирует возможности, которые открывает изучение данных сотовых операторов, но по-настоящему ценные результаты, скорее всего, скрываются вовсе не в устаревших архивах, а в сиюминутной информации о расположении людей. Не так давно шведские учёные продемонстрировали, что аналогичный анализ не требует больших ресурсов и занимает считанные часы. В этом случае его можно использовать для оперативного принятия решений.
Но этим, вероятно, будут заниматься уже другие люди.