В последнее время вокруг парадигмы обработки информации, получившей название «большие данные», развернулся настоящий бум. По определению аналитической компании Gartner, этим термином обозначают «информационные активы, для которых характерны большой объём, высокая скорость и разнородность, требующие экономически эффективных инновационных форм обработки для расширения понимания и принятия решений». Но так ли это явление ново, как может показаться на первый взгляд?
Попробуем кратко рассмотреть феномен «больших данных» в историческом аспекте, по возможности не отвлекаясь на технологии и экономику. Такие понятия, как облачные вычисления, программное обеспечение (Hadoop, NoSQL и т. п.), фермы многопроцессорных серверов и прочие детали реализации фундаментальных дисциплин и алгоритмов, останутся вне рассмотрения. Довольно того, что вычислительные мощности существуют.
Античные корни статистики
Все началось в ветхозаветные времена, и не в переносном, а в самом буквальном смысле этого слова. Откроем Библию, книгу «Числа».
Постановка задачи:
— исчислите все общество сынов Израилевых по родам их, по семействам их, по числу имён, всех мужеского пола поголовно: от двадцати лет и выше, всех годных для войны у Израиля, по ополчениям их исчислите их (1:2-3);
— исчисли сынов Каафовых из сынов Левия по родам их, по семействам их, от тридцати лет и выше до пятидесяти лет, всех способных к службе, чтобы отправлять работы в скинии собрания (4:2-3).
Исполнение:
— И взял Моисей и Аарон мужей сих, которые названы поименно, и собрали они все общество в первый день второго месяца. И объявили они родословия свои, по родам их, по семействам их, по числу имён, от двадцати лет и выше, поголовно, как повелел Господь Моисею. И сделал он счисление им в пустыне Синайской (1:17-19);
— и было всех вошедших в исчисление шестьсот три тысячи пятьсот пятьдесят (1:46);
— И исчислены все левиты, которых исчислил Моисей и Аарон и начальники Израиля по родам их и по семействам их, от тридцати лет и выше до пятидесяти лет, все способные к службе для работ и ношения в скинии собрания; и было исчислено их восемь тысяч пятьсот восемьдесят (2:46-48).
В сущности, в современной статистике это называется классификацией по первичному прямому признаку — возрасту. Количественное соотношение возрастных групп позволяет сделать некоторые выводы о продолжительности жизни во времена Моисея. Подсчёт трофеев в главе 31, определение стоимости «по пяти сиклей за человека» и многое другое можно описать в терминах статистики, но тогда этой дисциплины попросту не существовало.
В древности обеспечение пропитанием на случай неурожая или стихийных бедствий составляло важный аспект бытия. Ещё во времена фараонов египтяне запасали зерно на случай непредвиденного разлива Нила, а «Великий амбар» в располагающемся у берегов Инда Мохенджо-Даро был настолько огромен, что мог прокормить целый город-государство. Уже в те времена понимали, что сохраняемые излишки являются прямым убытком: и место занимают, и потенциальная прибыль теряется. Мы знаем, как эту проблему решает современный WalMart, но, к сожалению, история не сохранила методик, по которым рассчитывались запасы в Древнем Египте. К тому же оперировать «большими данными» той эпохи мешало отсутствие достаточно больших чисел.
В третьем веке до нашей эры Архимед пишет «Псаммит» (то есть «Исчисление песка») — десятистраничное письмо Гелону, тирану Сиракуз:
Некоторые люди полагают, государь Гелон, что число песка по величине бесконечно; я говорю не только о песке, который имеется в окрестностях Сиракуз и остальной Сицилии, но и о том, который имеется во всех странах, как населённых, так и ненаселённых. Есть, однако, и такие, которые не считают его бесконечным, но тем не менее думают, что не существует такого имеющего название числа, которое было бы больше его количества.
И действительно, такого числа не было, Архимед вводит понятие степени, которое называет числами первого, второго и т. д. порядка, создав тем самым позиционную систему счисления. Это был гигантский шаг вперёд.
Галера Шрёдингера
Вообще говоря, античность являет для нас неисчерпаемый источник знаний. С развитием древнегреческого флота появилась традиция: первый тост «За живых!», второй — «За мертвых!», а третий — «За тех, кто в море!». Если с первыми двумя всё ясно, то третий нуждается в пояснении. Экипаж галеры, ушедшей за горизонт в условиях отсутствия радиосвязи, спутников и развитых средств навигации, находится в суперпозиции двух состояний — живого и мёртвого. Источник в античности, а вся слава досталась коту в коробке.
Ярким примером умения, с которым древние греки использовали сбор и обработку данных, является обнаружение и разработка серебряной жилы на свинцовых рудниках Лариума. Она позволила им построить флот из двухсот кораблей, способный контролировать морскую торговлю между Афинами и колониями, от Массалии и Кирены до Пантикапея. Попутно были заложены основы логистики и понимание важности морской мощи в перемещении товаров по всей ойкумене того времени. Не тем же ли самым занимаются современные контейнерные перевозчики и логистические гиганты вроде UPS?
Настоящего искусства в обращении с данными в экономических и военных интересах достигли в Древнем Риме. После введения института цензурата Сервием Туллием органы власти стали получать значительное количество сведений практически о всех аспектах деятельности. Помимо политических функций, в обязанности цензоров входил ценз (census лат. — опись, перепись) — сбор информации о населении, его уровне доходов, состоянии построек, снабжении войск и многом прочем.
Руководствуясь этими сведениями, органы власти принимали решения. Достаточно вспомнить таблицы Ульпиана, описанные в Дигестах Юстиниана. Вся страховая отрасль и поныне работает с таблицами дожития, подобным ульпиановым. Подобные процессы шли и в Китае. В конце II века до нашей эры в Поднебесной переписали 57,67 млн человек и 12,6 млн домохозяйств.
Практика ценза пережила Римскую империю. В 1086 году по приказу Вильгельма Завоевателя была составлена «Книга Страшного Суда», в которую, помимо традиционно собираемых данных, вносилась информация о пастбищах, пахотных землях, мельницах и даже денежная оценка хозяйств. С учётом того, какими технологиями располагали люди в ту пору, эти данные можно с уверенностью назвать «большими».
Страница из «Книги Страшного суда».Статистика как научная дисциплина началась с английского учёного Джона Граунта (такое мнение высказано в книге Probability and Statistics: The Science of Uncertainty, и с ним трудно не согласиться). Граунт исследовал эпидемию бубонной чумы в Лондоне. Чтобы оценить количество заболевших, он взял небольшую выборку и экстраполировал её на всё население в районе эпидемии. Для того времени это была совершенно новая идея. Эпидемиология до сих пор активно использует статистические методы, о чём совсем недавно писала «Компьютерра».
За Граунтом последовал Эдмунд Галлей, более известный как первооткрыватель кометы, названной его именем. Его статья «Оценка степеней смертности рода человеческого, выведенная из любопытных таблиц рождений и похорон в городе Бреслау, с попыткой установить цену пожизненных рент» представляет собой прообраз современного анализа данных.
XVII–XIX века были временем становления статистики как основы работы с данными. От Гюйгенса до Гаусса, от Байеса до Пирсона, от распределений до регрессий… Это наследие подробно изучается в вузах, поэтому нет нужды останавливаться на нём детально. Важно то, что в это время закладывались фундаментальные теоретические основы обработки «больших данных».
Математика как оружие
Обработка данных играла во Второй мировой войне особенную роль. Для повышения эффективности боевых действий наряду со старыми требовались новые методы. Появившаяся в результате дисциплина называлась «Исследование операций». Её суть сводилась к поиску приемлемых, а по возможности — оптимальных решений.
В 1940 году во время «битвы за Британию» лондонские статистики тщательно фиксировали местоположение каждой упавшей на город бомбы. По плотности бомбометания можно было делать выводы об интересующих Германию целях, подбирать более эффективные места для зенитных батарей и надёжнее прикрывать критические объекты эскадрильями истребителей.
Интересная деталь: на вокзал Ватерлоо не упало ни одной бомбы.Статистика помогала Великобритании не только отражать атаки вражеских бомбардировщиков, но и планировать собственные авианалёты. Данные, предоставленные разведкой, определяют цели, исследование операций предлагает действенные методы. Как осуществлять заход на цель? Сколько нужно самолетов? В каком порядке? Какие типы бомб использовать? Для успешного исхода боевого столкновения нужны данные, много данных. Потери тщательно фиксировались, а на их основе статистические подразделения вооруженных сил формировали отчёты.
Данные об атаках и попаданиях в бомбардировщики союзников. Следует обратить внимание, что число атак истребителями более тяжелого и крупного B-17 почти в 3,5 раза превышает количество атак среднего B-24. Это тоже исследование операций: важно не только предотвратить бомбардировку, но и нанести максимально возможный урон. Такие механические калькуляторы вероятности поражения малоразмерных целей использовали экипажи бомбардировщиков союзников. Реликт индустриальной эпохи.Пережило второе рождение детище XX века — теория массового обслуживания (ТМО), активно использовавшаяся в боевых действиях. Суть её состоит в том, что взаимодействие объектов зачастую можно описать как систему массового обслуживания. Субмарины адмирала Деница стремятся «обслужить» атлантический конвой торпедой в борт, эсминцы боевого охранения конвоя стараются «обслужить» подлодки глубинными бомбами. Система военных госпиталей — тоже система массового обслуживания: своевременное оказание раненым помощи снижает людские потери. Насыщение системы, ведущее к отказу в обслуживании, нежелательно. Чтобы избежать его, нужны данные и умение их обрабатывать. Риторический вопрос: может ли магазин Amazon, с его десятками миллионов клиентов, не использовать в своей работе математический аппарат ТМО?
На поприще разведки, сиречь добычи данных, математика доказала оправданность своего применения. Вот показательный пример. Немецкие танки нумеровались следующим образом: 1,2,3… N, где N — требуемое общее количество выпущенных танков. Допустим, войсками захвачено пять танков с серийными номерами 20, 31, 43, 78 и 92. Итак, выборка состоит из пяти танков, максимальный серийный номер 92. Назовем размер выборки S, а максимальный серийный номер — M. После нескольких экспериментов с другими сериями статистики пришли к выводу, что вероятная оценка количества танков описывается простым уравнением (М-1)(S+1)/S. В нашем примере это приводит к (92-1)(5+1)/5, что равно 109,2. Соответственно производство танков в этот период составляло 109. Используя эту формулу, статистики оценили производство танков в Германии за период с июня 1940 по сентябрь 1942 в 245 единиц в месяц, в то время как разведка Британии оценивала ежемесячное производство танков в Германии в 1 400 единиц. Разница в пять раз. После войны из захваченных документов стало известно, что немцы производили в течение этих трех лет по 246 танков в месяц. Сейчас подобное извлечение данных стало обыденностью и поставлено на поток.
Деревянная бомба
Иногда противостояние разведок обретало вполне материальный характер. Во время войны немцы построили фальшивый аэродром для введения противника в заблуждение. Деревянные ангары, макеты самолётов, заправщиков и прочего аэродромного хозяйства. Однажды прилетел британский бомбардировщик, сбросил одну-единственную бомбу, после чего строительство было прекращено. Бомба была сделана из дерева. Англичанам свойственна изысканность особого рода.
При массовом производстве изделий во время войны исключительную важность приобретает достижение максимума выхода продукции при минимуме затрат. Так появилась теория оптимизации. Её методы активно применялись в военной промышленности и позволяли оптимальным образом использовать заводы, поставлявшие нужную фронту продукцию, равно как и снижать расход ресурсов при транспортировке войск и материальной части. Опять данные.
Эти колоссальные изменения привели к изменению самой штатной структуры вооруженных сил. В армии США существует перечень MOS (military occupation speciality code), аналог наших военно-учетных специальностей. Посмотрим документ 1944 года: статистиков не хватало, поэтому в штатных расписаниях были только клерки-статистики (код 055), а квалифицированные кадры становились аналитиками радиообмена (коды 6709 и 8709). Во время войны во Вьетнаме уже появился статистик (код 6400). В XXI веке в ВМС США есть специальность «математик-исследователь» (mathematics research officer, код 001083). В бизнесе специалисты подобного профиля нарасхват. Газета «Нью-Йорк Таймс» прямо заявляет: «For Today’s Graduate, Just One Word: Statistics». Есть над чем подумать тем, кто только выбирает профессию.
В послевоенный период развитие математики продолжилось, появилась дисциплина «машинное обучение». Её родоначальником считается Алан Тьюринг, задавшийся вопросом «Может ли машина мыслить?». В начале шестидесятых годов прошлого века Джозеф Вейценбаум написал программу ELIZA, способную поддерживать квазиосмысленный разговор. Бабушка Элиза, наверное, гордилась бы внуком Ватсоном (IBM Watson), который уже обыграл людей в телеигре Jeopardy! и научился ставить диагнозы не хуже врачей.
Как данные стали большими
В докладе McKinsy «“Большие данные”: новый фронтир для инноваций, конкуренции и производительности» приведён детальный перечень используемых методов. Посмотрим внимательнее: статистика (кластерный анализ, классификация, регрессия, А/Б-тестирование, анализ временных рядов), разновидности машинного обучения, оптимизация, сетевой анализ, моделирование. Из сравнительно новых областей разве что обработка естественного языка. В последние десятилетия прошлого века появились новые методы — теория катастроф Рене Тома, фрактальная геометрия, вейвлеты, — но как раз они в «больших данных» практически не используются.
Google.Trends указывает на всплеск интереса к термину Big Data в начале 2012 года.Так как же и когда данные стали большими? Они были большими всегда. Их «величина» определяется только двумя факторами. Первое — наличие вычислительной мощи. Человечество накачивает кремниевые мускулы беспрецедентными темпами. Римский цензор не справился бы с «большими данными», и даже всего пятьдесят лет назад статистики положили бы полжизни на задачу, которая сейчас решается за несколько часов или дней. Другой фактор — необычайная дешевизна транзакции. Для совершения покупки в «Амазоне» не нужно ехать в США: интернет в состоянии передать любые объёмы данных за короткое время.
Таким образом, весь информационный шум вокруг феномена «больших данных» сводится к обсуждению технологий, лежащих в их основе, и деталей реализации, но не теоретических основ. Ничего принципиально нового в этой парадигме нет: весь фундамент заложен десятки и сотни лет назад. В этом аспекте «большие данные» — это деревянная бомба, старое вино в новых мехах, традиционные методы в технологическом окружении, невиданном доселе.
Да, теперь мы в состоянии делать то, что не могли раньше. Временами эти достижения вводят в оторопь. Например, современные «повелители данных» способны с высокой точностью предсказать, где окажется человек через сотни дней. Спектр оценок возможностей, которые дают «большие данные», широк, от эйфории «новой эры обработки информации до мрачного неологизма «датапокалипсис». Что ж, мерфология гласит: «Каждое решение плодит новые проблемы».
Время покажет, что мы получим после внедрения «больших данных» в полном объеме. Гадать не стоит. Одно можно сказать с уверенностью: будет интересно.