125 лет табулятору Холлерита. Big Data… ты помнишь, как всё начиналось?

Ровно 125 лет назад, 8 января 1889 года, американец Герман Холлерит получил приятное известие: Патентное ведомство США подтвердило его приоритет как изобретателя и выдало ему патент на… «Art of compiling statistics». Само название говорит о многом, не так ли?

В патенте, в числе прочего, заявлено электромеханическое суммирующее устройство, использующее бумажные перфокарты в качестве носителя исходных данных. Именно этот вычислитель, получивший название «табулятор», стал родоначальником нынешних технологий обработки больших массивов данных. А его изобретатель учредил фирму TMC (Tabulating Machine Company), которая позднее стала одним из соучредителей компании IBM. Правда, самого Холлерита из этого бизнеса коллеги вежливо «попросили»…

Справедливости ради стоит отметить, что идея использования перфокарт для записи статистических данных принадлежит начальнику департамента американского Бюро переписей Джону Шоу Биллингсу, который предложил будущему зятю поискать способ механизации статистического учёта с использованием технологии ткацкого станка Жаккарда, где перфокарты успешно применялись для программирования рисунка ткани. А принцип записи характерных признаков человека (рост, пол, цвет волос и глаз) путём пробивания отверстий в соответствующих местах билета уже в те годы практиковали железнодорожные кассиры для идентификации владельца проездного документа.

Вручную — никак. В конце XIX века самые большие объёмы данных, подлежащих обработке, стала генерировать государственная статистика. В 1880 году в США проводилась очередная перепись населения. Данные, собранные в ходе переписи, касались не только граждан, но и экономики и демографии страны. Вся информация обобщалась по пяти признакам: население, смертность, сельское хозяйство, социальная статистика и промышленное производство.

В частности, по сельскому хозяйству собирались для последующего анализа данные о посевных площадях каждой из базовых сельхозкультур, продолжительности рабочего дня, стоимости наёмного труда, ежегодных расходов на закупку удобрений, зерна и скота. О состоянии дел в промышленности должно было судить, исходя из численности работающего населения и дневной заработной платы (по категориям работников в отраслях). Социальная статистика включала в себя данные об учащихся школ и колледжей, сведения об инвалидах, отчёты лечебных учреждений.

Руководил переписью 1880 года Чарльз Вильям Ситон, который и сам был изобретателем. В своё время он придумал ряд механизмов для облегчения труда учётчиков, в частности устройство для накапливания статистической информации по 8 признакам на бумажной ленте. Для этого человек-оператор вручную ставил на ней отметки, которые потом удобно было подсчитывать (правда, тоже вручную). Признанием ценности этого изобретения стала специальная премия конгресса США в размере 29-летней зарплаты учётчика (что составило весьма немалую по тем временам сумму в $15 тыс.), которую вручили Ситону.

Так вот, несмотря на все усилия по совершенствованию процессов подсчёта результатов переписи, обработка данных, собранных в ходе кампании 1880 года, потребовала 7 лет.

Big Data образца 1890 года. Приближалась новая перепись населения… Герман Холлерит конструирует табулятор на электромеханическом принципе, причём в двух вариантах — для перфоленты (заявку подал в 1884 году) и перфокарт (1887). Забавно, но патенты на оба устройства ему выдали в один день — 8 января 1889 года. Холлерит начинает переговоры с Бюро переписей на использование его машин в будущей кампании.

Решено было устроить сравнительные испытания нескольких технологий для определения, как сейчас принято говорить, «поставщика решений». Три технологии обработки данных (Холлерита — электромеханическая, Чарльза Пиджина и Вильяма Ханта — обе ручные с цветовым принципом кодирования) применили для учёта сведений, которые предварительно нужно было занести на 10 491 карту.

Результаты оказались весьма примечательны: табулятор Холлерита справился за 5 часов 28 минут, в то время как учётчики Пиджина трудились 44 часа 41 минуту, а Ханта — почти пятьдесят пять с половиной часов!

Условия контракта с Бюро переписей на участие в кампании 1890 года предусматривали не закупку табуляторов, а лишь аренду примерно сотни их для работы в две смены. Сам Холлерит должен был обеспечить круглосуточную техподдержку первому клиенту первого, по сути дела, «дата-центра»… И, в общем, все произошло как нельзя лучше. Данные о 62 622 250 американцах плюс информация от ведомств и компаний были вчерне обработаны всего за 6 недель, а полностью итоги переписи удалось подбить за 2 года, что почти втрое быстрее в сравнении с предыдущей кампанией. В денежном выражении экономия составила около $5 млн. Инженерное сообщество было в восторге! Журнал Electrical Engineer писал: «Этот аппарат работает так же безошибочно, как машины бессмертных богов, но намного превосходит их по быстродействию»…

В течение последующих пяти лет табуляторы Холлерита блестяще обслуживали переписи населения в Австрии, Канаде, Австро-Венгрии, Норвегии, Италии, Франции, а 5 июня 1895 года Император Николай II подписал Положение о первой всеобщей переписи населения Российской империи, назначенной на январь 1897-го.

В августе 1895 года директор Центральной статистической комиссии Н. А. Тройницкий в Берне на сессии Международного статистического института познакомился со «статистическим инженером из США Холлеритом», и вскоре фирма Холлерита продала России 70 табуляторов и 500 перфораторов за $67 571, а ещё 35 машин было сдано в аренду. Сам Холлерит (на фото) неоднократно приезжал в Россию для консультаций.

Кстати, о фирме Холлерита…

Зародыш IBM. Свою компанию с названием Tabulating Machine Company (ТМС) Герман Холлерит зарегистрировал 3 декабря 1896 года. Уставный капитал компании составил $100 тыс., поделённые на тысячу долей по $100. Несколько необычно выглядела бизнес-модель предприятия: никакого собственного производства счётных машин на фирме не было. Табуляторы, перфораторы и сортировальные машины ТМС заказывала у Pratt & Whitney и Western Electric.

Положение фактического монополиста на рынке оказалось слишком сильным испытанием для Холлерита-бизнесмена, с которым он не справился. Стоимость машин и их аренды, а с нею и затраты клиентов стали расти, и Бюро переписи наконец отказало ТМС в монопольном контракте на участие в переписи 1910 года, передав около двух третей объёма работ конкурирующей компании Powers Tabulating Machine Company (PTMC), которую основал Джеймс Пауэрс, бывший техник по оборудованию Бюро переписи. Это был тяжёлый удар, от которого ТМС так и не оправилась.

В 1911 году «отец трестов» миллионер Чарльз Флинт предложил Холлериту сделку со слиянием его компании с International Time Recording Company (ITRC) и Computing Scale Corporation (CSC). Фактически это было предложение о продаже дела, от которого Холлерит не смог отказаться… Сделка состоялась. Холлериту она принесла $1,21 млн и… должность инженера-консультанта на целых 10 лет.

В 1921 году он окончательно уволился и недолгий остаток дней посвятил праздной и безбедной жизни. Ну, такое дело…

А в результате слияния была создана корпорация Computing Tabulating Recording (CTR), которая в 1924 году переименована в International Business Machines (IBM) (на фото ниже — первый логотип компании). В 1928 году IBM получила правительственный заказ на многофакторный анализ рабочих мест для 26 миллионов людей. В самой компании этот контракт до недавнего времени вспоминали как «самую крупную расчётную операцию за все время».

В 50-х IBM заключила новый правительственный контракт на разработку компьютеров для секретного проекта SAGE (Semi Automatic Ground Environment, пульт оператора на фото ниже) — слежение за советскими бомбардировщиками, барражирующими у границ США, и автоматическое планирование их перехвата с учётом множества факторов (боевая готовность ПВО, удаление от возможных целей, наличие перехватчиков в воздухе и на земле и многих других). А ещё приближалась эра компьютерного моделирования атомных взрывов, динамики ракет и космической навигации…

«Широкоугольник» Big Data. Времена меняются, и нынешние «большие данные» значительно, на несколько порядков больше тех объёмов информации, которые «перелопачивали» табуляторы Холлерита. Недавно аналитики IDC заявили, что общий объем автоматически генерируемой информации в глобальном масштабе составит к 2020 году не менее 20 зеттабайт, а технологии, позволяющие обрабатывать такие объёмы, окажутся одними из самых востребованных.

Вместе с тем изменилось и понимание того, что собой представляют Big Data с философской, если можно так сказать, точки зрения. Многофакторный анализ сверхбольших объёмов данных позволяет выявлять такие объективные закономерности во многих процессах, о существовании которых никакими другими способами мы не смогли бы узнать.

Какую бы образную аналогию предложить? А вот: исследование дождевой тучи, облака. Пока мы находимся «внутри», мы можем измерять температуру и давление, можем мерить скорости потоков воздуха и количество капель воды в единице объёма… Мы можем в микроскоп разглядывать сами капли и микроскопические инородные тела в них, послужившие центрами конденсации. Нам может показаться, что мы узнали об облаке всё. Но на самом деле мы так и не смогли определить, как облако выглядит снаружи, каково оно по размерам, куда оно движется, почему и как меняется его форма…