Сюжет многих историй успеха, связанных с использованием «больших данных», строится по одной и той же схеме. В начале компания, организация или даже целая отрасль работает по-старинке, полагаясь на интуицию и опыт экспертов. Затем кто-то решает проверить, стоит ли до такой степени верить традициям. Он изучает данные и обнаруживает, что они скрывают массу ценных закономерностей, которые можно выявить лишь с помощью современных методов анализа.
История всегда кончается хеппи-эндом. Захудалая спортивная команда, пользуясь анализом данных, вырывается вперёд и побеждает богатых соперников. Платёжная система выявляет признаки, которые выдают мошенников, и спасает десятки миллионов долларов. Компания, изучая статистику, находит прекрасных сотрудников, которые в противном случае были бы отсеяны отделом кадров.
После прочтения нескольких историй подобного рода напрашивается вопрос: а что будет дальше? Что произойдёт, когда богатые соперники той спортивной команды тоже займутся анализом данных? Когда мошенники разгадают, как платёжная система определяет сомнительные платежи? Или претенденты на рабочие места поймут, как обмануть алгоритм, который заменил менеджера по персоналу?
Статья финансового обозревателя агентства Reuters Феликса Салмона «Почему квонтам известно не всё«, опубликованная в свежем номере журнала Wired, предлагает один из вариантов ответа на этот вопрос. Квонты, упомянутые в заголовке, — это финансовые аналитики, использующие математические модели вместо рекомендаций экспертов. Салмон использует этот термин для обозначения апологетов анализа данных в любой области.
Он считает, что нашествие квонтов, как правило, происходит в четыре этапа. Истории успеха, про которые мы рассказываем в «Компьютерре», описывают первые два — «дореволюционный» период и саму революцию. Трудности начинаются на третьем этапе, который часто остаётся за кадром:
«Самая распространённая проблема заключается в том, что появление всех этих метрик, алгоритмов и автоматических процессов принятия решений приводит к тому, что люди начинают обманывать систему труднопредсказуемым, хотя и рациональным образом. Социолог Дональд Т. Кэмпбелл обратил внимание на эту динамику ещё в семидесятые, сформулировав закон, который теперь называют его именем. «Чем важнее количественные социальные показатели для принятия решений, — писал он, — тем уязвимее они для коррупционного воздействия и тем сильнее искажаются те самые социальные процессы, которые подвергаются мониторингу».
Иными словами, как только у игры появляются правила, находятся и способы их нарушить. В истории можно найти этому массу иллюстраций. В XIX веке власти колониального Вьетнама объявили, что будут выплачивать премию за каждую убитую крысу. Предполагалось, что в результате город избавится от крыс, но результат оказался противоположным: как только дератизация стала выгодным ремеслом, вьетнамцы принялись разводить грызунов на убой.
Похожий случай произошёл с палеонтологами, путешествовавшими по Китаю в XIX веке. Они пообещали местным жителям награду за фрагменты костей динозавров, которые те помогут отыскать. Местные жители оказались хитрее, чем думали учёные: чтобы заработать побольше, они специально разбивали найденные кости на мелкие кусочки и требовали награду за каждую крошку.
Более свежий пример у нас перед глазами — бесконечная война между поисковыми системами и поисковыми оптимизаторами. Поисковики вознаграждают более важные сайты высоким местом в выдаче. Оптимизаторы выясняют, на какие признаки опирается алгоритм поисковика, чтобы определить важность страницы, а затем используют это знание для того, чтобы его обмануть. Разумеется, следующая версия алгоритма уже учитывает их трюки, но это помогает недолго. Рано или поздно в ней тоже находят лазейки — и так без конца.
Если данные, которые анализирует алгоритм, зависят от действий людей, люди научатся действовать так, чтобы добиться от него нужных им результатов. Что на этот счёт думают авторы алгоритма, будет волновать их не больше, чем китайских фермеров, разбивавших кости динозавра, беспокоило мнение заезжих палеонтологов.
Это значит, что хедж-фонд, предсказывающий поведение рынка при помощи анализа сообщений в Twitter, рискует стать жертвой конкурента, который преднамеренно замусорит социальную сеть ложными сообщениями, генерируемыми тысячами ботов. Можно не сомневаться, что мошенники научатся скрываться от систем антифрода, и алгоритмы придётся усложнять, — да что там, это уже происходит. Даже карту, предназначенную для прогнозирования очагов преступности, вероятно, можно использовать во вред. Если известно, что полиция распределяет силы в соответствии с её показаниями — значит, известны и места, где полиции нет.
Подвоха не будет только в данных, которые поставляют природа и неразумные машины. Впрочем, с ними, как указывает Феликс Салмон, тоже не всё просто. Американская национальная метеорологическая служба подсчитала, что опытные синоптики способны улучшить точность прогноза, выданного машиной, почти на 25%. Это, по мнению Салмона, подсказывает нам выигрышный путь развития. Абсолютное доверие анализу данных — временное явление. Успех ждёт тех, кто научится совмещать интуицию экспертов с показаниями машин.
Только человек заметит, когда у используемого алгоритма появляются непредвиденные побочные эффекты. «Пока люди остаются у руля и понимают, чем именно они рулят, всё будет в порядке», — заключает он.